1、基于MobileFlow的终端自动化测试效能跃升实践唐晓璇|蚂蚁集团唐晓璇蚂蚁集团-CIO MobileFlow 算法负责人 就职于蚂蚁集团,专注于研发效能优化方向,主要工作方向为AI驱动的研发效能体系创新。作为MobileFlow技术团队的算法工程师,聚焦多模态大模型与智能体技术的前沿探索,主要研究方向包括:1)视觉-语言联合建模在UI自动化测试中的精准指令理解与执行;2)LLM-based Agent的复杂任务分解与动态规划能力优化;3)跨平台界面操作智能体的端到端自动化测试框架构建。为复杂场景下的研发效率与质量提升提供技术驱动力。目 录CONTENTSI.智能体发展的背景与趋势II.智能
2、体评测通用痛点 III.蚂蚁MobileFlow平台介绍IV.MobileFlow平台多模态技术介绍 V.工业级场景落地与应用VI.思考与展望智能体发展的背景与趋势PART 01什么是基于大语言模型的智能体(LLM-based Agent)?基于大语言模型的智能体是一种能够自主感知环境、规划决策并执行动作的系统,其核心能力由大语言模型驱动。这类智能体通过整合语言理解、推理、记忆和交互能力,模拟人类在复杂场景中的行为逻辑,实现从任务目标到实际操作的全链路闭环。LLM 核心任务规划,推理,文本生成 记忆模块存储历史状态和经验 工具集:通过预定义接口调用外部工具(如数据库、API、代码执行器)执行模
3、块:执行具体动作智能体交互流程示例怎么查询医保还有多少钱?自然的多模态交互无缝接收用户的相关输入(如语音、文本、图像、生理信号等),构建完整的上下文感知能力意图理解,需求分类,上下文感知,将复杂目标分解为可执行的子任务并动态调整计划自动化工具执行,并以用户友好的方式反馈结果(如可视化图表、语音总结)需求感知理解自主任务编排拆解工具执行并返回结果AI健康管家智能体常用场景在大模型和智能体迅速发展的背景下,智能体评测的方式也在不断进化。传统的评测方法已经难以满足移动端智能体和多轮对话系统的复杂需求,智能体评测升级成为必然的需求。AI健康管家生活管家宠物专家自驾出行助手智能体发展趋势单一模态输入更符
4、合用户习惯的多模态输入基于工作流的大模型应用高自主性的智能体单一模型控制多智能体协同复杂度低,耗时短的任务复杂度高,需要调用多种工具完成的任务智能体应用评测通用痛点 PART 02智能体评测通用痛点痛点一缺乏真实场景模拟 多在理想或简化的条件下测试,无法完全模拟真实的移动端使用和用户行为。例如节假日第三方发起的营销活动等场景很难通过人工有效覆盖,或者直接导致评测脚本执行报错。千人千面的内容推荐不同用户不同行为特征智能体评测通用痛点痛点二多模态交互支持差 传统方式使用精准文字或图片匹配作为脚本规则路由方式。无法有效评测图片、语音等多模态信息的理解和处理。多种模态的输入输出智能体评测通用痛点痛点三
5、评测范围有限 因为待评测模型产出存在不确定性,当扩展到多轮对话交互后,使用传统RPA+规则脚本驱动的方式覆盖成本成指数级增加,并且执行稳定性差、成功率低。实际还需要依靠人工兜底,评测效率低。无法穷尽的多轮对话五花八门的报错信息蚂蚁MobileFlow平台介绍 PART 03MobileFlow 平台能力智能体评测痛点缺乏真实场景模拟多模态支持差评测范围有限MobileFlow平台能力动态交互+真实用户模拟跨模态协同能力测试动线自动化生成MobileFlow智能体待评测移动端智能体MobileFlow 平台架构130M+年自动化任务300K+自动化脚本5K+在线终端设备2.5K+月活用户20+A
6、pp/业务接入终端智控平台云真机资源多模态算法技术系统平台能力支持业务场景MobileFlow平台介绍 交互演示Demo平台demo演示:进入蚂蚁森林,点击找能量,然后选择浇水,最后选择送给ta。MobileFlow智能体动态环境交互 指定人设,模拟真实用户行为MobileFlow 平台介绍 多模态能力多模态大模型通用小模型单步操作生成通用图文断言意图驱动生成图文理解UI控件提取文本OCR提取页面异常检测页面相似度检测图像位置搜索 大小模型协同 多模态大模型+语言大模型多种模态交互MobileFlow 云真机能力云真机:远程操控云端手机功 能:线上问题复现日志抓取,Mocking,收集性能问题