当前位置:首页 > 报告详情

王文轩--大模型及其智能体安全-已ok.pdf

上传人: 彩旗 编号:1158680 2026-03-02 113页 14.63MB

1、大模型及大模型智能体安全王文轩|中国人民大学王文轩中国人民大学信息学院讲师 人工智能治理研究院研究员中国人民大学信息学院讲师,人工智能治理研究院研究员,校聘吴玉章青年英才,玉兰学者。于2024年在香港中文大学计算机系取得博士学位。研究方向为大模型及其应用的可靠性和安全性,近五年发表A类论文三十余篇,其中一作通讯发表二十篇。发表论文获ACM SIGSOFT杰出论文奖,EMNLP最佳论文提名,深圳科协优秀论文奖。谷歌学术总引用四千次,单篇论文引用超一千次。大模型安全等开源项目在开源社区排名第一,累计获得三千Github星标。目 录CONTENTSI.背景II.大模型内容安全III.GUI智能体安全

2、IV.总结与展望背景PART 01大模型正在改变世界OpenAI.GPTs are GPTs:An Early Look at the Labor Market Impact Potential of Large Language Models,Arxiv 2023大模型不是完美的:内容安全隐患(错误)事实错误例子数学错误例子大模型不是完美的:内容安全隐患(偏见)社会偏见例子跨语言事实偏见例子Terry Yue Zhuo et al.,Red teaming ChatGPT via Jailbreaking:Bias,Robustness,Reliability and Toxicity,Ar

3、xiv 2023Yuxuan Wan et al.,BiasAsker:Measuring the Bias in Conversational AI System,FSE 2023大模型不是完美的:内容安全隐患(毒性)毒性回复例子Terry Yue Zhuo et al.,Red teaming ChatGPT via Jailbreaking:Bias,Robustness,Reliability and Toxicity,Arxiv 2023大模型不是完美的:智能体安全风险(工具使用)工具使用错误例子大模型不是完美的:智能体安全风险(远程攻击本地)远程攻击本地例子大模型安全至关重要大模型

4、安全至关重要大模型安全至关重要OpenAI.GPT-4 Technical Report,Arxiv 2023100页中占60页篇幅“安全”提及129次大模型安全至关重要Meta.Llama 2:Open Foundation and Fine-Tuned Chat Models,Arxiv 2023“安全”提及 400 次大模型安全至关重要大模型内容安全PART 02大模型内容安全“安全”提及 400 次内容安全需求亟需建立生成式人工智能模型内容安全的评测与治理框架 生成式人工智能模型的内容安全性是其造福社会的重要前提国家政策要求医疗传媒教育 新一代人工智能发展规划的通知:大力发展人工智能的

5、同时,必须高度重视可能带来的安全风险挑战 十四五规划和2035远景目标:加快人工智能安全技术创新 生成式人工智能服务管理暂行办法:生成式人工智能服务应当遵守法律、行政法规、尊重社会公德和伦理道德纽约时报:美国少年迷恋AI伴侣后自杀中新网:看错病开错药的机器人落户81家医院新华社:聊天机器人公开辱骂记者大模型内容安全生成式人工智能模型内容安全:评测与治理研究内容内容一建立内容安全评测体系内容二设计自动化评测方法内容三提出多层面治理方案研究挑战挑战一内容安全风险类型多样挑战二评测方法过度依赖人工挑战三内容安全治理体系不完善研究目标系统性评测与治理生成式人工智能模型的内容安全大模型内容安全正确性评测

6、与治理无毒性评测与治理对齐性评测与治理大模型内容正确性正确性:人工智能模型的输出是准确和符合事实的。1 Understanding and Improving SequencetoSequence Pretraining for Neural Machine Translation(ACL 2022).2 What Makes Good In-Context Demonstrations for Code Intelligence Tasks with LLMs(ASE 2023).3 Generative Type Inference for Python(ASE 2023).4 A B B

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **大模型安全重要性**:OpenAI GPT-4技术报告60页、Meta Llama 2报告400页提及"安全",凸显其核心地位。 2. **内容安全三大挑战**: - **正确性**:事实错误(如"地球是平的")、推理错误(逻辑命题失败),医疗/金融/代码领域应用需评测优化。 - **无毒性**:文本/多模态扰动可绕过审核(如替换字符、加密语言),需多语言/多模态安全框架。 - **对齐性**:个体(黑暗人格量表得分高)、群体(公共物品游戏自私行为)、社会(文化霸权,90%英语数据导致西方偏见)。 3. **GUI智能体风险**:内生安全(UI感知错误、计划幻觉)与外源威胁(提示词注入、后门攻击),需环境限制、对抗训练等防御。 4. **未来方向**:多模态/多语言安全、统一沙盒环境、实际影响评测。
模型安全有多重要? 如何评测大模型? 智能体风险有哪些?
客服
商务合作
小程序
服务号
折叠