当前位置:首页 > 报告详情

BDS国家工程中心:2023大语言模型提示注入攻击安全风险分析报告(54页).pdf

上传人: 小** 编号:132624 2023-07-13 54页 2.87MB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要研究了大语言模型面临的提示注入攻击安全风险,并提出了相应的防御策略。文章首先分析了直接提示注入和间接提示注入两种攻击方式,包括目标劫持、提示泄露和越狱攻击等。然后,从输入侧防御和输出侧防御两个方面提出了提示过滤、提示增强等防御策略。文章还构建了包含36000条的提示注入攻击验证数据的数据集,覆盖了3类典型攻击方法和6类安全场景,用于对大语言模型的提示注入攻击风险进行测评。最后,对OpenAI GPT-3.5-turbo、谷歌PaLM2以及UC Berkeley等高校团队开源的Vicuna-13B共3个典型的大语言模型进行了测评,结果显示,本文构造的数据集能分别以79.54%、75.41%、67.24%的成功率实现3类模型的攻击。
大型语言模型面临哪些安全风险? 如何防御大型语言模型的提示注入攻击? 大型语言模型在哪些场景下易受攻击?
客服
商务合作
小程序
服务号
折叠