当前位置:首页 > 报告详情

张凯莉-Nebula-GUIAgent精准快稳的端到端屏幕操作解决方案.pdf

上传人: 彩旗 编号:1158683 2026-03-02 37页 5.68MB

1、Nebula-GUI Agent:精准快稳的端到端屏幕操作解决方案张凯莉|中兴通讯股份有限公司张凯莉高级AI算法工程师中兴通讯股份有限公司高级AI算法工程师,目前负责多模态大模型领域的技术研究和产品落地,包括GUI Agent、智能意图识别&FC、智慧家庭助手等。多次参加百度、python开发者大会等开源活动,github开源社区Adlik项目(深度学习推理优化加速工具链)的主要维护者之一。目 录CONTENTSI.背景II.痛点III.整体方案IV.具体实现V.总结与展望背景PART 01AI 驱动 GUI Agent 诞生背景大语言模型(LLM)和多模态大模型(VLM)的迅猛发展,推动AI

2、向具备感知、推理、执行复杂任务的智能体演进GUI Agent 通过自然语言理解用户意图,能够像人类一样 看屏幕、点按钮、做判断,有望成为新的“超级入口”GUI-Agent 的业界现状业界现状手机端到端操作GUI-Agent技术飞速发展,算法设计上快速迭代创新,国内主要科技公司相继发布相关模型或研究成果。字节跳动 UI-TARS22025.062025.072025.082025.09美团 UItron荣耀 MagicGUI阿里通义 Mobile-Agent-V3智谱 ComputerRL&MobileRL腾讯 MobileGUI-RL阿里天猫 MobileR1商用情况25年6月30支持购物、订

3、票、下视频25年7月30支持点餐、订票、写好评25年8月30支持淘宝购物和抖音娱乐25年10月10支持代打客服电话等阿里通义 UI-Ins2025.10典型应用:购物比价帮我购买一台努比亚Z70 Ultra手机用户需求交互功能任务规划用户需要购买一台努比亚Z70 Ultra手机,我首先要调研一下各个购物平台上的该手机的价格,而常见的购物平台有京东,淘宝,拼多多。所以,用户任务拆解成一下一下几个子任务:(1)分别在各个购物平台检索“努比亚Z70 Ultra手机”,并获取配置、价格、评价等。(2)将上述检索结果进行总结反馈。子任务执行离屏渲染,后台并行执行子任务,不影响用户使用淘宝京东拼多多任务总

4、结广告代看游戏代练拼多多刷券定时抢票社交自动回一键比价更多个性定制.面向场景的Agent 服务:请问您想买多大的内存?典型应用:手机应用开发智能化测试在快速迭代的软件开发中,UI元素和布局经常变动,这会导致大量基于坐标或固定元素定位的传统测试脚本失效GUI Agent能够感知环境变化(如按钮ID改变),以意图为目标使用自然语言描述进行测试,不但聚焦了应用是否能够实现客户意图,还显著降低了测试脚本的维护成本和测试人员的专业技术要求AUITestAgent:Automatic Requirements Oriented GUI Function TestingGUI-Agent 的技术趋势快云侧模

5、型-端侧模型准泛传统范式-在线学习精单体模型-多Agent协同通用场景-垂域赋能痛点PART 02GUI-Agent 的痛点问题 技术实现痛点界面变更频繁端侧资源受限容错能力不足 场景适配痛点跨平台兼容性差意图理解不合拍垂直场景能力弱 安全信任痛点隐私安全风险高用户信任建立难生态规范构建慢移到上面user无法理解用户的操作GUI AgentGUI 模型训练的痛点问题 量级 标注 轨迹高质量数据缺失 中文 导航 动态评测体系不完善安全隐私无保障传统范式上限低真实场景性能差 迟延 精度 数据 模型 微调 强化整体方案PART 03Nebula-GUI Agent 的整体方案Critic Agent

6、状态感知AgentNebula-Critic截屏+提示词+上下文+动作指令Nebula-GUI评判结果+操作建议用户指令+截屏+提示词+上下文截屏+提示词+上下文+评判结果+操作建议执行 Agent手机操作/交互等待刷新 模块组成:Nebula-GUI 模型:负责用户指令的理解、拆分、给出规划路径和操作指令Nebula-Critic 模型:负责分析Nebula-GUI模型给出的决策是否正确状态感知Agent:检测页面是否完成更新Critic Agent:分析评判结果执行 Agent:将模型的输出映射为手机操作指令Nebula-GUI Agent动作指令yesnoNebula-GUI 整体解决方

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **Nebula-GUI Agent**是中兴通讯推出的端到端屏幕操作解决方案,通过多模态大模型实现“看屏幕、点按钮、做判断”,已落地商用于Z70 Ultra等手机。 2. **核心数据**: - 14个主流App平均成功率95%,单步推理延迟1秒(开源方案平均3-5秒)。 - 数据Pipeline每日生成万级数据,人力成本降低3倍。 3. **关键技术**: - 联邦设备管理+自动化轨迹生成,解决资源与标注痛点。 - 自适应思考模式(简单任务直接输出,复杂任务推理)提升效率。 - 评判模型(Critic Model)实时校检操作,容错能力增强。 4. **应用场景**:购物比价、订票、自动化测试等,未来将拓展至智能办公与软件开发领域。
**GUI Agent痛点?** **如何提升精度?** **商用落地案例?**
客服
商务合作
小程序
服务号
折叠