王文轩--大模型及其智能体安全-已ok.pdf

编号:1158680 PDF 113页 14.63MB 下载积分:VIP专享
下载报告请您先登录!

1、大模型及大模型智能体安全王文轩|中国人民大学王文轩中国人民大学信息学院讲师 人工智能治理研究院研究员中国人民大学信息学院讲师,人工智能治理研究院研究员,校聘吴玉章青年英才,玉兰学者。于2024年在香港中文大学计算机系取得博士学位。研究方向为大模型及其应用的可靠性和安全性,近五年发表A类论文三十余篇,其中一作通讯发表二十篇。发表论文获ACM SIGSOFT杰出论文奖,EMNLP最佳论文提名,深圳科协优秀论文奖。谷歌学术总引用四千次,单篇论文引用超一千次。大模型安全等开源项目在开源社区排名第一,累计获得三千Github星标。目 录CONTENTSI.背景II.大模型内容安全III.GUI智能体安全

2、IV.总结与展望背景PART 01大模型正在改变世界OpenAI.GPTs are GPTs:An Early Look at the Labor Market Impact Potential of Large Language Models,Arxiv 2023大模型不是完美的:内容安全隐患(错误)事实错误例子数学错误例子大模型不是完美的:内容安全隐患(偏见)社会偏见例子跨语言事实偏见例子Terry Yue Zhuo et al.,Red teaming ChatGPT via Jailbreaking:Bias,Robustness,Reliability and Toxicity,Ar

3、xiv 2023Yuxuan Wan et al.,BiasAsker:Measuring the Bias in Conversational AI System,FSE 2023大模型不是完美的:内容安全隐患(毒性)毒性回复例子Terry Yue Zhuo et al.,Red teaming ChatGPT via Jailbreaking:Bias,Robustness,Reliability and Toxicity,Arxiv 2023大模型不是完美的:智能体安全风险(工具使用)工具使用错误例子大模型不是完美的:智能体安全风险(远程攻击本地)远程攻击本地例子大模型安全至关重要大模型

4、安全至关重要大模型安全至关重要OpenAI.GPT-4 Technical Report,Arxiv 2023100页中占60页篇幅“安全”提及129次大模型安全至关重要Meta.Llama 2:Open Foundation and Fine-Tuned Chat Models,Arxiv 2023“安全”提及 400 次大模型安全至关重要大模型内容安全PART 02大模型内容安全“安全”提及 400 次内容安全需求亟需建立生成式人工智能模型内容安全的评测与治理框架 生成式人工智能模型的内容安全性是其造福社会的重要前提国家政策要求医疗传媒教育 新一代人工智能发展规划的通知:大力发展人工智能的

5、同时,必须高度重视可能带来的安全风险挑战 十四五规划和2035远景目标:加快人工智能安全技术创新 生成式人工智能服务管理暂行办法:生成式人工智能服务应当遵守法律、行政法规、尊重社会公德和伦理道德纽约时报:美国少年迷恋AI伴侣后自杀中新网:看错病开错药的机器人落户81家医院新华社:聊天机器人公开辱骂记者大模型内容安全生成式人工智能模型内容安全:评测与治理研究内容内容一建立内容安全评测体系内容二设计自动化评测方法内容三提出多层面治理方案研究挑战挑战一内容安全风险类型多样挑战二评测方法过度依赖人工挑战三内容安全治理体系不完善研究目标系统性评测与治理生成式人工智能模型的内容安全大模型内容安全正确性评测

6、与治理无毒性评测与治理对齐性评测与治理大模型内容正确性正确性:人工智能模型的输出是准确和符合事实的。1 Understanding and Improving SequencetoSequence Pretraining for Neural Machine Translation(ACL 2022).2 What Makes Good In-Context Demonstrations for Code Intelligence Tasks with LLMs(ASE 2023).3 Generative Type Inference for Python(ASE 2023).4 A B B

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(王文轩--大模型及其智能体安全-已ok.pdf)为本站 (彩旗) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠