《A2--李鹤--基于自进化的UI自主测试智能体.pdf》由会员分享,可在线阅读,更多相关《A2--李鹤--基于自进化的UI自主测试智能体.pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、 进群可咨询基于进化的GUI测试智能体李鹤字节跳动质量技术团队,模型算法专家李鹤字节跳动质量技术团队,模型算法专家现字节质量技术团队模型算法专家,字节质量平台Q-UI测试产品的算法负责,主要负责LLM驱动的UI测智能体的算法架构和产品效果,先后在百度搜索、阿通义实验室深耕NLP技术多年,曾主导规模知识图谱产品技术,蜜系列问答产品,模型应开发平台的算法研发,专注Agents、SFT&RL、知识问答等模型应技术的案设计和产品研发。录CONTENTSUI测试现状及问题 01 02LLM背景下的UI测试新机遇基于进化的GUI测试智能体 03总结与展望 04Q整体案 PART01UI测试现状及问题UI测
2、试现状及问题 写动化例成本为了保证准确的动化执,动化例通常包含特定的表达约束,书写需要同时了解测试需求和对应的约束语法,书写成本较基于指令的动化例泛化性差动化例的执本质上是种规则引擎,天然具有泛化性差的特点,尤其遇到被测现场变化的情况,如弹窗等缺少端到端测试能单纯的执引擎由于缺少规划能,法站在任务维度作,更法使造数等其他必需具实现端到端测试010302 PART02LLM背景下的UI测试新机遇GUI-Agent Environment&PerceptionGUI-AgentPlanning&Execute Short&LongMemory System1&2ThinkingGUI-Agent与
3、智能测试 01 可动成例:基于Multi-Agent的本例成智能体可以理解prd等多模态信息源,成然语描述的本例 02 03本例成图形界感知任务规划&反思 可感知环境并执操作:基于GUI-Agent的Grounding能,可以实现界布局、图标、按钮的精准感知,以及根据指令成具体的操作动 可规划任务并准确执:基于ReAct机制的planning以及reflection能可以提复杂例的测试成功率 PART03基于进化的GUI测试智能体测试智能体的问题&挑战 02 通Agent具有较好的GUI感知、推理、执能,但测试场景需要深理解产品功能,才能测好产品 03 04如何理解产品如何准确执例如何我进化在
4、理解好产品后,复杂的例执步骤和断预期,以及现场的动态变化都会影响测试成功率 成功经验的复会提Agent的基础能,让Agent具备我学习的进化能常重要 01如何构造测试数据 测试数据在测试过程中必不可少,然如何精准识别造数需求以及准确构造对应数据充满挑战造数Agent 真实业务和产品的测试中,由于数据需求的复杂性,在准备测试数据阶段会消耗量时间和精,如coze中构造个workflow需要同时有知识库、agent等数据需求的复杂性研发测、测试流程中,涉及数据构造的场景占=20%造数占随着业务场景的变更和迭代,逐渐导致数据的不完整性(例如说的新领红包需求,完即废,需要重复新造)等场景,数据的保鲜常重
5、要数据保鲜成本,需要反复构造 造数Agent基于ReAct的造数Agent造数需求提取造数任务plan原召回具编排 WorkflowNodeReAct业务理解Agent 测试场景的需求描述或prd中,经常出现产品的专术语或话,如actionbar,在例执和断执时,都常需要专业术语的解释业务术语话对于新需求测试,要对被测需求的产品能有基本了解,包括需求概述、预期结果等关键要素产品新功能被测功能的关键路径决定了例执的成功率,多数例的都较难找功能的关键路径 业务理解Agent 01 02 03知识挖掘Agent知识检索Agent模型训练探索执Agent 基于现场的次plan,进步提执步骤的准确率,减
6、少执错误Replan任务标拆解,执步骤规划Plan执错误步骤的识别与新指令成,提整体任务的成功率Reflection 探索执Agent-plan为什么需要plan?plan粒度设计探索执Agent-replan 只有静态plan就够了吗?红步骤中的消除按钮在图中并没有出现,会导致执失败探索执Agent-replan 如何replan?探索执Agent-reflection 动作反思基于Action的动作标记点击动作滑动动作历史问题分析错误归因单步错误定位错误归类动作/状态反思