《大模型驱动的端侧智能体v1 - 陈露.pdf》由会员分享,可在线阅读,更多相关《大模型驱动的端侧智能体v1 - 陈露.pdf(37页珍藏版)》请在三个皮匠报告上搜索。
1、大模型驱动的端侧智能体陈 露上海交通大学计算机系面向智能硬件交互的人机对话系统智能信息硬件超过200亿台信息和知识量超过200EB人机对话 数字生活数字生产数字治理家居消费电子服务业制造业教育医疗社区治理人机对话技术是人机物信息联通的基础性技术,是物联网智能硬件时代推动数字经济转型的重要入口级人工智能技术汽车人机对话系统发展历史对话目标纯聊天完成任务ELIZA系统(1966)UC系统(1980s)勒布纳奖(1990)POMDP系统(2005)知识获取解决方案基于规则模版匹配数据驱动的机器学习深度学习模型第一代(专用型)第二代(专用型)第三代(混合型)大模型时代第四代(通用型)苹果Siri等(2
2、010s)ChatGPT(2022-)对话式大语言模型人机对话系统从面向单一任务的专用型对话系统逐渐发展到支持多任务的 通用型 对话系统Hongru Wang,et al.A Survey of the Evolution of Language Model-Based Dialogue Systems.arXiv preprint arXiv:2311.16789(2023).传统人机对话系统架构的局限性传统人机对话系统严重依赖于后台知识库的API调用,导致通用型和可扩展性不足从人机对话系统到通用智能体将传统的API调用替换为拟人的GUI交互方式,从而支持更加更加广泛的人机交互任务GUI是一
3、个更加通用的交互方式通用数字智能体示例智能体与数字世界(软件、网页、APP)进行拟人交互,帮助人类完成复杂任务Zheran Liu,et al.Reinforcement Learning on Web Interfaces Using Workflow-Guided Exploration.ICLR,2018.基于GUI交互的通用数字智能体架构Liangtai Sun,et.al.META-GUI:Towards Multi-modal Conversational Agents on Mobile GUI.EMNLP,2022.基于GUI交互的通用数字智能体数据集众包模拟人机GUI交互过程
4、,收集对话历史、屏幕截图、决策动作、系统回复等信息包含了6个领域,天气查询、日程安排、问题查询、打车、餐馆预订和酒店预订数据集包含记录对话数据以及GUI操作记录GUI操作记录包含截图和视图层次结构我们的数据集总共包括 1125 个对话,4684 个对话轮,18337个数据点Liangtai Sun,et.al.META-GUI:Towards Multi-modal Conversational Agents on Mobile GUI.EMNLP,2022.基于GUI交互的通用数字智能体模型Liangtai Sun,et.al.META-GUI:Towards Multi-modal Con
5、versational Agents on Mobile GUI.EMNLP,2022.模型将对话历史、屏幕截图和动作历史等等作为输入,预测交互动作与回复基于GUI交互的通用数字智能体Demo大模型智能体基本框架记忆/经验.专业工具池大模型环境人类指令人类反馈返回结果环境反馈动作执行经验学习决策规划大模型与外部环境进行交互,根据历史经验和外部反馈实现长期进化,形成自主智能体大模型智能体基本框架记忆/经验.专业工具池大模型环境人类指令人类反馈返回结果环境反馈动作执行经验学习决策规划大模型智能体经验学习传统的经验学习方法,例如强化学习和即境学习(In-Context Learning),很难直接用
6、于大模型强化学习利用交互经验优化小模型智能体大模型智能体难以直接、实时地优化其参数决策Transformer能够免于进一步优化参数应用即境强化学习文本大模型受限于输入长度难以应用即境强化学习传统强化学习决策Transformer大模型智能体经验学习将大模型与强化学习相结合,实现智能体根据历史经验进行长期进化Danyang Zhang,et.al.Large Language Models Are Semi-Parametric Reinforcement Learning Agents.NeurIPS,2023.(,)=01+max(,+,)(,)(1 )(,)+(,)大模型智能体经验学习随着