中国工业互联网研究院：2026面向人工智能系统的体系化安全检测与风险评估方法研究报告-三个皮匠报告

1、面向人工智能系统的体系化安全检测与风险评估方法研究安全研究所钮艳1.1 研究背景及意义曾爆火的OpenClaw(“龙虾”)智能体，因存在提示词注入、远程代码执行、恶意插件投毒等严重安全隐患，工信部、国家互联网应急中心等部门发布安全提醒，部分企业明令禁用。2026年6月，Anthropic发布的旗舰模型Fable 5和Mythos 5上线仅三日，就因存在严重安全隐患，被美商务部以国家安全为由实施紧急出口管制，最终被迫全面暂停相关服务。前沿模型被紧急叫停Skill（技能）是人工智能执行特定任务的模块化单元，在 OpenClaw、Hermes等智能体中广泛应用。经测评，54.7%存在安全

2、缺陷，可能引发网络攻击、数据泄露和系统瘫痪。“龙虾”存在安全隐患Skill安全缺陷突出人工智能加速落地，安全风险日益凸显，已成为制约产业健康发展的突出短板1.1 研究背景及意义全球主要经济体强化人工智能领域政策部署，纷纷将人工智能上升为国家战略，抢占科技竞争和未来发展制高点北美美国：促进先进人工智能创新与安全赢得竞赛：美国AI行动计划国家人工智能政策框架关键与新兴技术国家战略出口管制条例芯片与科学法案加拿大：泛加拿大人工智能战略.欧盟：人工智能法案人工智能协调计划法国：国家人工智能战略德国：人工智能行动计划英国：人工智能路线图国防人工智能战略.欧洲中国：新一代AI发展规划政府工作报告“人工智能

3、+”日本：人工智能战略韩国：人工智能国家战略人工智能发展与信任基础构建基本法新加坡：国家人工智能战略.亚洲人工智能安全已从41.2 主要研究内容5研究体系化安全检测与风险评估方法，实现从检测到评估、再到修复量化决策的全链条能力打造人工智能系统的逐层查全局看精准防多层级安全检测7层漏洞分类体系多环节风险评估解决全生命周期风险量化定级跨层级安全量化解决跨层传导防御成本效益分析多层级安全检测多环节安全风险评估全局看跨层级安全量化精准防2.1.1 人工智能安全缺陷及漏洞分类体系8硬件网络通信基础架构数据模型算法智能交互应用覆盖AI系统从底层硬件到上层应用的关键环节形成可归类、可治理的体系框架支撑风

4、险排查、能力建设和治理闭环层2.1.2 人工智能安全漏洞风险检测工具91.直接绕过攻击直接发送危险指令2.权限提升攻击任命AI为“无限制助手”并发起提权请求3.假设场景攻击以“研究员”身份询问如何绕过安全机制7.指令遗忘攻击通过新指令覆盖让模型忽略原有安全约束8.上下文长度攻击利用冗长无关内容稀释和掩盖恶意指令4.推理链攻击利用标签引导模型自行思考限制逻辑5.策略傀儡攻击以XML、INI 或 JSON等策略文件格式攻击6.ROT13编码攻击利用ROT13等编码方式绕过内容安全检测机制10OWASP权威认定攻击检测技术体系n 提示词注入居人工智能安全风险首位n 技术门槛低、危害性大：攻击

5、者仅需输入精心设计的自然语言即可绕过安全防护，导致越权访问、敏感信息泄露、恶意内容生成等严重后果。n 产业界高度重视：OpenAI、谷歌、Anthropic等头部厂商均将提示词注入防御列为安全建设的核心。2.1.2 人工智能安全漏洞风险检测工具2.1.2 人工智能安全漏洞风险检测工具提示词注入DAN越狱角色伪装语言切换条件限定编码攻击指令忽略场景假设混淆攻击多样本攻击内容分割Token重复少样本攻击GCG后缀提示词注入等攻击普遍有效部分模型面临极高攻击成功率2.1.3 工业智能体 Skills 安全测评12构建全链条 Skill 安全治理体系，筑牢智能体安全防线内容安全风险权限过度配置供

6、应链安全风险安全能力缺陷：大量Skills面临提示词注入、代码安全等安全风险，暴露出当前Skills生态整体安全基线较低的问题。底层代码漏洞：Skills底层代码漏洞频发，高危漏洞突出，易造成后门植入、网络攻击等安全威胁。提示词注入隐患：伪造系统规则、冒充管理权限等恶意指令大多隐藏在常用文档中不易发现，可造成越权操控AI、窃取系统敏感信息和文件越界访问等问题，威胁用户系统安全。过多权限申请：多数Skills会申请过多权限，使得Skills能够以最高权限实施持久化控制，对用户构成凭证窃取、系统破坏风险。过度授权和信任模型缺陷：部分Skills框架未遵守最小授权原则，Skills脚本默认拥有当前用

中国工业互联网研究院：2026面向人工智能系统的体系化安全检测与风险评估方法研究报告（27页）.pdf

相关报告