1、AlipayMiniUse:支付宝小程序 Agentic AI 基建探索蚂蚁终端体验科技大会马航(吭头)AI Agents 的趋势:开始连接生活与工作AI Agent 查询机票 成报表 总结档 编写代码AI Agents 的趋势:开始连接生活与工作-依赖工具集AI Agent 查询机票 成报表 总结档 编写代码机票查询件读写互联搜索命令接工具集GUI Agents:像人类一样操作设备Anthropic Computer Usehttps:/ Atlashttps:/ 2.5 Computer Usehttps:/ai.google.dev/gemini-api/docs/computer-us
2、eBrowser Usehttps:/browser- Agents:像人类一样操作设备ReAct Agent:观察-行动(调用工具)-观察-完成任务MCPClaude Skills获取截图读取系统状态点击输操作浏览器标签搜索 API工具调用协议工具集感知和操作付宝程序?工具在 GUI Agent AI 中的角色上下感知:一个“大脑”“我想在霸王茶姬程序点单杯少冰的伯绝弦”截图图DOM信息应信息操作执 点击输滚动工具在 GUI Agent AI 中的角色上下感知:一个“大脑”截图图DOM信息应信息操作执 点击输滚动AI WorkflowAI AgentHumanE2E ScriptOtherG
3、UI 状态感知上下感知:一个“大脑”截图图DOM信息应信息GUI 状态感知-截图:这是个输框,我要在他输字:傻了吧,这是个按钮优势:-简单直接-通性强 劣势:-单个视觉 UI 可能存在误导-视图快速改变场景不适 GUI 状态感知-DOM Downsampling(Grounding)原始 DOM:-数据量-操作含义模糊-冗余信息多DOM Grounding 后:-仅保留可操作元素 -input/button/scroll-展示更多信息 查看产品 查看产品 20K tokens 2K tokensGUI 状态感知-框架运行信息小程序的运行栈信息依赖对运行环境和框架的掌控,提供更多的感知描述nav
4、igationStack:name:付宝会员,page:pages/member/index,name:淘宝闪购,page:pages/index/index,name:淘宝闪购,page:pages/index/search,控件回调的绑定 搜索 添加到购物车自定义组件信息操作执行一个“大脑”操作执 点击输滚动操作执行By_IDBy_COORDINATEBY_QUERY_SELECTORCLICKINPUTSCROLL查找元素执动作操作执行-查找元素-上下文一致性CLICK_BY_COORDINATE(400,100)GUI AGENT 上下文不一致问题:元素位置改变处理方式:1.返回失败2
5、.上下文快照操作执行-什么是操作完成?操作前发送 Http 请求展示 Loading轻量更新 UI页面状态稳定可以执行下一个操作点击操作几秒后操作执行-什么是操作完成?操作前发送 Http 请求展示 Loading轻量更新 UI页面状态稳定可以执行下一个操作点击操作几秒后操作执行-什么是操作完成?操作前发送 Http 请求展示 Loading轻量更新 UI页面状态稳定操作完成点击操作几秒后1.提供 WAIT_FOR_IDLE1.Page Navigation 完成2.Page Data 稳定3.不存在 Loading 等元素4.染色的 Promise 完成操作执行-操作产生的变化(副作用)UI
6、 变化:购物车+1在长上下文中容易被忽略操作的结果包含1.操作本身是否成功完成(Event 派发)2.产生的 UI 变化(元素出现/消失)3.产生的 Http 请求4.产生的 Toast 提示5.产生的页面跳转Element Appeared:2 Element Disappeared:1操作安全性UI:搜索商品实际行为:转账 钓(AI)鱼应用 操作安全性执行确认切面点击元素执客户端API“tradePay”安全审查 户确认继续执UI:搜索商品实际行为:转账 钓(AI)鱼应用