王文轩--大模型及其智能体安全-已ok.pdf-在线下载-三个皮匠报告

1、大模型及大模型智能体安全王文轩|中国人民大学王文轩中国人民大学信息学院讲师人工智能治理研究院研究员中国人民大学信息学院讲师，人工智能治理研究院研究员，校聘吴玉章青年英才，玉兰学者。于2024年在香港中文大学计算机系取得博士学位。研究方向为大模型及其应用的可靠性和安全性，近五年发表A类论文三十余篇，其中一作通讯发表二十篇。发表论文获ACM SIGSOFT杰出论文奖,EMNLP最佳论文提名，深圳科协优秀论文奖。谷歌学术总引用四千次，单篇论文引用超一千次。大模型安全等开源项目在开源社区排名第一，累计获得三千Github星标。目录CONTENTSI.背景II.大模型内容安全III.GUI智能体安全

2、IV.总结与展望背景PART 01大模型正在改变世界OpenAI.GPTs are GPTs:An Early Look at the Labor Market Impact Potential of Large Language Models,Arxiv 2023大模型不是完美的：内容安全隐患（错误）事实错误例子数学错误例子大模型不是完美的：内容安全隐患（偏见）社会偏见例子跨语言事实偏见例子Terry Yue Zhuo et al.,Red teaming ChatGPT via Jailbreaking:Bias,Robustness,Reliability and Toxicity,Ar

3、xiv 2023Yuxuan Wan et al.,BiasAsker:Measuring the Bias in Conversational AI System,FSE 2023大模型不是完美的：内容安全隐患（毒性）毒性回复例子Terry Yue Zhuo et al.,Red teaming ChatGPT via Jailbreaking:Bias,Robustness,Reliability and Toxicity,Arxiv 2023大模型不是完美的：智能体安全风险（工具使用）工具使用错误例子大模型不是完美的：智能体安全风险（远程攻击本地）远程攻击本地例子大模型安全至关重要大模型

4、安全至关重要大模型安全至关重要OpenAI.GPT-4 Technical Report,Arxiv 2023100页中占60页篇幅“安全”提及129次大模型安全至关重要Meta.Llama 2:Open Foundation and Fine-Tuned Chat Models,Arxiv 2023“安全”提及 400 次大模型安全至关重要大模型内容安全PART 02大模型内容安全“安全”提及 400 次内容安全需求亟需建立生成式人工智能模型内容安全的评测与治理框架生成式人工智能模型的内容安全性是其造福社会的重要前提国家政策要求医疗传媒教育新一代人工智能发展规划的通知：大力发展人工智能的

5、同时，必须高度重视可能带来的安全风险挑战十四五规划和2035远景目标：加快人工智能安全技术创新生成式人工智能服务管理暂行办法：生成式人工智能服务应当遵守法律、行政法规、尊重社会公德和伦理道德纽约时报:美国少年迷恋AI伴侣后自杀中新网:看错病开错药的机器人落户81家医院新华社:聊天机器人公开辱骂记者大模型内容安全生成式人工智能模型内容安全：评测与治理研究内容内容一建立内容安全评测体系内容二设计自动化评测方法内容三提出多层面治理方案研究挑战挑战一内容安全风险类型多样挑战二评测方法过度依赖人工挑战三内容安全治理体系不完善研究目标系统性评测与治理生成式人工智能模型的内容安全大模型内容安全正确性评测

6、与治理无毒性评测与治理对齐性评测与治理大模型内容正确性正确性：人工智能模型的输出是准确和符合事实的。1 Understanding and Improving SequencetoSequence Pretraining for Neural Machine Translation(ACL 2022).2 What Makes Good In-Context Demonstrations for Code Intelligence Tasks with LLMs(ASE 2023).3 Generative Type Inference for Python(ASE 2023).4 A B B