1、腾讯安全沙龙第 8 期 铸 刃 止 戈 以 智 御 危分 享 人:彭 佳 仁从架构分析到实测:LLM自动渗透测试实证研究Acknowledgement四川大学 DAS-Lab,清华大学 NISL-VUL337,腾讯云安全;以及其他高校各位作者(Renyang Liu,Haoran Ou,Yuqiang Sun,Jiancheng Zhang,Fan Shi,Hongda Sun,Rui Yan)的付出。目录LLM自动化渗透测试的实证研究PART 1/研究背景PART 2/系统性梳理PART 3/实证研究PART 4/总结与展望海 纳 百 川 有 容 乃 大目 录2现有工作的空白缺乏对基于大语言
2、模型(LLM)的自动化渗透测试框架(AutoPT)的系统性架构分析缺乏在统一基准下的大规模实证比较以往的工作集中在深度强化学习的方法,而非基于LLM的范式仅停留在宏观层面的分析,没有细粒度的架构解构我们的贡献首个关于基于LLM的AutoPT的系统化知识,6维架构分类采用统一基准对13个开源框架和2个基线框架进行了实证评估提出了超过10个关键实证发现现有AutoPT框架是如何实现的?现有AutoPT存在什么问题?在制作AutoPT框架的时候应该有一个什么样的共识?1 背景与意义背景与意义301智能体架构 角色定义 单 vs.多智能体2 系统性梳理02智能体规划 基于线性、基于树、基于图的规划 反
3、馈策略03智能体记忆 记忆压缩 记忆结构04智能体执行 执行角色 工具选择 工具调用05外部知识 知识库的构建 知识库的检索 知识库的生成06Benchmarks 测试平台 数据污染 评估指标4Benchmark共22个XBOW挑战,涵盖简单(9个)、中等(9个)和困难(4个)三个难度级别。涵盖大部分漏洞类型并以最大限度地减少LLM训练数据的污染。Backbone LLM主要模型:DeepSeek-Chat-v3.2。消融实验模型:Claude-Opus-4.6、GPT-5.2、Gemini-Pro-3.1、DeepSeek-Reasoner-v3.2。Frameworks在相同条件下评估了1
4、3个具有代表性的开源AutoPT框架以及2个基线框架(Kimi CLI,Claude Code)。Scale消耗了超过100亿Token,花费超过2500美元,由15名以上的网络安全研究人员历时4个多月对1500多份执行日志进行了人工审查。Evaluation简单/中等/困难难度层级的夺旗率(即每个挑战的二元成功/失败率)。3 实证研究Experimental Setup5CTFSOLVERMulti Linear+RAGLuaN1aoMulti Graph+RAGTinyctferSingle Coding AgentXBow-CompMulti Coding AgentCruiserMul
5、ti ReAct+RAGCHYingMulti LinearSickHackSharkMulti LinearnewmaptaMulti Linearsub-agentMulti LinearCyberStrikeSingle ReActH-PentestMulti LinearKimi CLI*Single Coding AgentMulti-AgentBaselineSingle-Agent3 实证研究Frameworks Under EvaluationPentestGPTMulti TreeVulnBotMulti Linear+Graph6Claude Code*Single Cod
6、ing Agent3 实证研究Overall Comparison:Single-agent vs.Multi-agent(1)为什么单智能体在AutoPT任务中能发挥意料之外的优势?标准 ReAct 闭环:同一 Agent 维护完整上下文,决策-执行-反馈链路极短。零通信开销:无需跨角色切换与信息传递,天然适配 CTF 强耦合/快试错场景。(2)为什么多智能体在AutoPT任务中未能发挥预期优势?角色边界模糊:功能重叠导致组件闲置。建议冲突与重复:多规划器输出冲突,执行器无所适从;失败反馈缺失导致死循环 通信损耗:摘要形式交互易致信息丢失。在 13 个框架中,有 3 个单智能体设计位列前六,