张凯莉-Nebula-GUIAgent精准快稳的端到端屏幕操作解决方案.pdf-三个皮匠报告

1、Nebula-GUI Agent：精准快稳的端到端屏幕操作解决方案张凯莉|中兴通讯股份有限公司张凯莉高级AI算法工程师中兴通讯股份有限公司高级AI算法工程师，目前负责多模态大模型领域的技术研究和产品落地，包括GUI Agent、智能意图识别&FC、智慧家庭助手等。多次参加百度、python开发者大会等开源活动，github开源社区Adlik项目（深度学习推理优化加速工具链）的主要维护者之一。目录CONTENTSI.背景II.痛点III.整体方案IV.具体实现V.总结与展望背景PART 01AI 驱动 GUI Agent 诞生背景大语言模型（LLM）和多模态大模型（VLM）的迅猛发展，推动AI

2、向具备感知、推理、执行复杂任务的智能体演进GUI Agent 通过自然语言理解用户意图，能够像人类一样看屏幕、点按钮、做判断，有望成为新的“超级入口”GUI-Agent 的业界现状业界现状手机端到端操作GUI-Agent技术飞速发展，算法设计上快速迭代创新，国内主要科技公司相继发布相关模型或研究成果。字节跳动 UI-TARS22025.062025.072025.082025.09美团 UItron荣耀 MagicGUI阿里通义 Mobile-Agent-V3智谱 ComputerRL&MobileRL腾讯 MobileGUI-RL阿里天猫 MobileR1商用情况25年6月30支持购物、订

3、票、下视频25年7月30支持点餐、订票、写好评25年8月30支持淘宝购物和抖音娱乐25年10月10支持代打客服电话等阿里通义 UI-Ins2025.10典型应用：购物比价帮我购买一台努比亚Z70 Ultra手机用户需求交互功能任务规划用户需要购买一台努比亚Z70 Ultra手机，我首先要调研一下各个购物平台上的该手机的价格，而常见的购物平台有京东，淘宝，拼多多。所以，用户任务拆解成一下一下几个子任务：（1）分别在各个购物平台检索“努比亚Z70 Ultra手机”，并获取配置、价格、评价等。（2）将上述检索结果进行总结反馈。子任务执行离屏渲染，后台并行执行子任务，不影响用户使用淘宝京东拼多多任务总

4、结广告代看游戏代练拼多多刷券定时抢票社交自动回一键比价更多个性定制.面向场景的Agent 服务：请问您想买多大的内存？典型应用：手机应用开发智能化测试在快速迭代的软件开发中，UI元素和布局经常变动，这会导致大量基于坐标或固定元素定位的传统测试脚本失效GUI Agent能够感知环境变化（如按钮ID改变），以意图为目标使用自然语言描述进行测试，不但聚焦了应用是否能够实现客户意图，还显著降低了测试脚本的维护成本和测试人员的专业技术要求AUITestAgent:Automatic Requirements Oriented GUI Function TestingGUI-Agent 的技术趋势快云侧模

5、型-端侧模型准泛传统范式-在线学习精单体模型-多Agent协同通用场景-垂域赋能痛点PART 02GUI-Agent 的痛点问题技术实现痛点界面变更频繁端侧资源受限容错能力不足场景适配痛点跨平台兼容性差意图理解不合拍垂直场景能力弱安全信任痛点隐私安全风险高用户信任建立难生态规范构建慢移到上面user无法理解用户的操作GUI AgentGUI 模型训练的痛点问题量级标注轨迹高质量数据缺失中文导航动态评测体系不完善安全隐私无保障传统范式上限低真实场景性能差迟延精度数据模型微调强化整体方案PART 03Nebula-GUI Agent 的整体方案Critic Agent

6、状态感知AgentNebula-Critic截屏+提示词+上下文+动作指令Nebula-GUI评判结果+操作建议用户指令+截屏+提示词+上下文截屏+提示词+上下文+评判结果+操作建议执行 Agent手机操作/交互等待刷新模块组成：Nebula-GUI 模型：负责用户指令的理解、拆分、给出规划路径和操作指令Nebula-Critic 模型：负责分析Nebula-GUI模型给出的决策是否正确状态感知Agent：检测页面是否完成更新Critic Agent：分析评判结果执行 Agent：将模型的输出映射为手机操作指令Nebula-GUI Agent动作指令yesnoNebula-GUI 整体解决方

张凯莉-Nebula-GUIAgent精准快稳的端到端屏幕操作解决方案.pdf

相关报告