1、Nebula-GUI Agent:打造人机交互新范式唐波|中兴通讯股份有限公司唐波中兴通讯资深系统架构师/多模态&端侧AI研发负责人近年来的研究领域包括大语言模型、编码大模型、多模态大模型、语音大模型、大模型训练平台和训练加速技术、联邦学习以及AI安全等诸多领域,并在相关领域发表了多篇论文和专利。目 录CONTENTSI.Agent定义和背景II.Nebula-GUI Agent架构III.夯实GUI模型能力底座IV.智能体端到端能力优化V.总结与展望Agent的定义和背景PART 01终端智能体的定义、形态、以及发展阶段定义:驻留于终端的智能化实体,具备环境感知、自主决策与执行能力,为用户提
2、供个性化的智能服务终端智能体的主流实现形态1:基于编排的简单工具调用2:垂域智能体3:开启人机交互变革的新阶段 自主规划、决策能力增强 具备复杂、长程任务执行能力 场景泛化终端智能体具备广泛的发展前景购物商品、店铺评价商品比价商品、外卖下单娱乐音乐,视频点播追剧缓存游戏辅助和陪伴生活设备控制日程管理生活记录、提醒出行行程规划订票,订酒店打车、租车工作邮件、消息处理会议、差旅预定辅助调研、总结医疗健康寻医、问药健康管理健康监测教育问题答疑教育看护和陪伴培养方案定制未来语音交互+视觉展示终端产品和应用新形态?Nebula-GUI Agent的典型案列Nebula-GUI Agent架构PART 0
3、2用户诉求及Nebula-GUI Agent策略准准用用户诉求:准确理解意图精准的结果输出应对策略:规划模型准确提取用户意图强大的GUI能力,提升操作准确性总结模型精确归纳用用户诉求:快速反馈不影响当前任务应对策略:规划高效路径过程可见,减少焦虑后台运行压缩模型输出用用户诉求:泛,能执行任何任务有用,好用应对策略:增强规划模型能力通过记忆,提供个性服务模型能力持续提升和进化快快好好Nebula-GUI Agent架构-当前架构Cloud Infrastuctue(CPU/GPU)ServiceTools/MCPMemoryA2APlaner/LLMGUI/VLMVoiceModelTask M
4、angerSession MangerAPI-GatewayUser ManagerReactPEVSAgent FactoryUE ProxyCaaS(Kubernetes)Core ComponentServiceToolsMemoryUser PersonaCore ComponentPhone/Pad DeviceAndriod OSCore ComponentMainControl AppTask Back Ground(虚拟屏)端云协同架构 复杂任务端侧后台运行 支持Agent范式的扩展和定义 端、云记忆分离、敏感信息不上云Nebula-GUI Agent架构-演进架构Models
5、意图模型Cloud Infrastucture(GPU/CPU)CaaS规划模型GUI模型评判模型生成模型Nebula-MaaSChannels小兴助手飞书微信Agents意图智能体主智能体GUI智能体安全增强Agent扩展工具扩展分布设备Gateway设备Node设备Android/Windows/IOS Agent主体下移端侧 基于OpenClaw做安全性增强和性能优化 意图模型可以端侧部署,模型服务整体MaaS云端提供 支持端侧多设备的协同工作增强React的Agent范式 多智能协作(规划智能体+GUI智能体)意图匹配合适的技能或子智能体 场景化技能,提升任务成功率以及容错水平 基于自
6、主感知关键点,引入评判流程,兼容性能和效率高效、精准的记忆方案 分层记忆架构,提供高效记忆管理 长短期记忆结合,短期记忆后台异步转化长期记忆,维持服务高性能运转 存储:多层次记忆知识,包括经验记忆、认知记忆、个性化记忆等 检索:多维度记忆索引,支持精确查找、模糊查询、范围检索、以及包含记忆老化策略Short-Term MemoryLong-Term MemoryFile SystemChatHistoryMultimodalManageRDBGraphDBVectorDBEvent LogAsynchronous TransformationExtract ModuleUpdateModule