当前位置:首页 > 报告详情

中国科学院&蚂蚁安全实验室:2024生成式大模型安全评估白皮书(118页).pdf

上传人: orig****ity 编号:187740 2025-01-03 118页 359.56MB

下载:

1、Large Language ModelGeneratePrompt生成式大模型安全评估白皮书自2022年11月以来,以ChatGPT为代表的生成式大模型持续引发全球广泛关注。作为新一轮人工智能技术革命的代表性成果,生成式大模型的迅速发展,正在深刻重塑全球人工智能技术格局,为我国数字经济高质量发展和智能化转型注入新的动能。然而,随着技术应用的不断扩展,其潜在的安全风险逐渐凸显。诸如“大模型幻觉”、三星公司机密资料泄露等事件,反映了生成式大模型在隐私保护、恶意滥用、技术漏洞及合规性等方面的复杂挑战。这些问题的出现,不仅对技术的安全性提出了更高要求,也对产业的规范发展和社会治理能力构成了严峻考验。

2、我国对此高度重视,出台了生成式人工智能服务管理暂行办法等一系列政策文件,明确了生成式大模型技术在安全性、风险防控和合规性方面的基本原则和监管要求,为技术的健康发展提供了系统指引和政策保障。这些举措充分体现了我国在全球人工智能技术治理中秉持的前瞻性战略眼光和责任担当。近期,OpenAI发布了更擅长处理复杂推理任务的o1和o3系列模型,标志着生成式大模型在复杂应用场景中的潜力进一步提升。然而,技术的快速迭代也对构建科学化、系统化的生成式大模型安全评估框架提出了迫切需求。构建这一框架,需要从技术性能、风险防控、合规性等多个维度明确评估指标体系,系统性降低潜在风险,为行业提供权威的技术指导。这不仅将促

3、进生成式大模型技术向安全、可信、可持续的方向发展,也为全球人工智能技术治理提供了可借鉴的“中国方案”。为积极应对生成式大模型的安全挑战,智能算法安全重点实验室(中国科学院)、公安部第三研究所和蚂蚁安全实验室联合编写了2024年度生成式大模型安全评估白皮书。白皮书全面梳理了生成式大模型的发展现状与安全风险,从安全评估方法到实践案例,深入剖析了当前技术面临的关键挑战及应对策略,致力于为学术研究、产业实践和政策制定提供重要参考。希望通过这一系统性研究,助力生成式大模型安全性研究与应用推广,为构建安全、可信的人工智能生态体系提供坚实支撑,推动技术向着服务人类社会福祉的方向健康发展。前言联合编写版权声明

4、编写组组长智能算法安全重点实验室(中国科学院)公安部第三研究所蚂蚁安全实验室编写组成员敖翔、尹芷仪、张曙光、王晓诗、李承奥、陈天宇、景少玲、张玉洁、张函玉、张晓敏凡是在学术期刊、新闻发布稿、商业广告及其他文章中使用本报告文字、观点,请注明来源:生成式大模型安全测评白皮书。大模型安全白皮书参与人名单智能算法安全重点实验室(中国科学院):公安部第三研究所:盛小宝、王勇、江钦辉、曹思玮、刘晋名、文煜乾、刘佳磊、王光泽蚂蚁安全实验室:王维强、李俊奎、崔世文、许卓尔、孙传亮、郑亮、朱丛、周莉程学旗 智能算法安全重点实验室主任(中国科学院)目录一、生成式大模型发展现状1.1生成式大语言模型 1.1.1 O

5、penAI GPT系列1.1.2 Meta LLaMA系列1.1.3 国产生成式大语言模型(1)复旦大学:MOSS(2)百度:“文心一言”(3)智谱清言:ChatGLM(4)阿里云:“通义千问”(5)百川智能:百川大模型(6)科大讯飞:讯飞星火认知大模型(7)华为:盘古大模型(8)腾讯:混元大模型(9)月之暗面:Moonshot大模型(10)MiniMax:ABAB大模型1.2 文生图大模型1.2.1 DALL-E系列1.2.2 Midjourney1.2.3文心一格1.3 多模态大模型1.3.1 Suno1.3.2 Sora1.3.3 CLIP1.3.4紫东太初二、生成式大模型的安全风险2.

6、1 伦理风险2.1.1加剧性别、种族偏见与歧视2.1.2传播意识形态,危害国家安全2.1.3学术与教育伦理风险2.1.4影响社会就业与人类价值2.2内容安全风险2.2.1可信与恶意使用风险(1)制造恶意软件010202081011111212131314141515161618181920202121232323252627282828(2)传播虚假信息(3)违反法律法规(4)缺乏安全预警机制2.2.2 隐私风险(1)侵犯用户隐私信息(2)泄露企业机密数据2.2.3知识产权风险(1)训练阶段存在知识产权风险(2)应用阶段存在知识产权风险(3)生成式大模型知识产权保护2.3 技术安全风险2.3.

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了生成式大模型的发展现状、安全风险以及安全评估方法。 1. 生成式大模型发展现状: - 生成式大模型基于深度学习技术构建,通过学习数据的概率分布生成新的数据,如文本、图像、音频等。 - 代表性模型包括OpenAI的GPT系列、Meta的LLaMA系列以及国内如百度的“文心一言”、阿里巴巴的“通义千问”等。 - 生成式大模型在自然语言处理、计算机视觉等领域展现出强大的性能和泛化能力。 2. 生成式大模型的安全风险: - 伦理风险:可能加剧性别、种族偏见与歧视,传播意识形态,危害国家安全,影响社会就业与人类价值。 - 内容安全风险:包括可信与恶意使用风险、隐私风险和知识产权风险。 - 技术安全风险:对抗样本攻击风险、后门攻击风险、Prompt注入攻击风险、数据投毒风险、越狱攻击风险。 3. 生成式大模型的安全评估方法: - 伦理性评估:偏见评估、毒性评估。 - 事实性评估:基于规则的评估指标、基于机器学习模型的评估指标、基于LLM的评估指标。 - 隐私性评估:隐私泄露、隐私攻击。 - 鲁棒性评估:对抗鲁棒性评估基准、分布外(OOD)鲁棒性评估基准、大模型越狱攻击风险评估。
生成式大模型如何评估偏见风险? 如何提高生成式大模型的内容安全性? 生成式大模型在隐私保护方面有哪些挑战?
客服
商务合作
小程序
服务号
折叠