
数据来源: 四川大学DAS-Lab、清华大学NISL-VUL337、彭佳仁(腾讯安全沙龙第8期分享人)及腾讯云安全团队联合发布的《Hackers or Hallucinators? A Comprehensive Analysis of LLM-Based Automated Penetration Testing》(arXiv:2604.05719)。
尽管大语言模型(LLM)被广泛应用于自动化渗透测试(AutoPT),但行业面临“通用Benchmark领先≠实际场景有效”的困境:
针对行业痛点,研究团队提出了系统化的解决方案,通过对15个框架(13个开源+2个基线)的横向评测,确立了构建高效AutoPT系统的技术路径:
基于实验数据,核心业务指标(ROI)揭示了模型选择与技术实现的量化效果:
关键维度 | 核心指标与发现 | 数据来源 |
|---|---|---|
模型效能对比 | Claude-Opus-4.6 具备最强综合实力,Token消耗较低,且能主动触发Sub Agent处理长链路任务(如Task 18 XSS)。 | P.11 |
框架得分排名 | 专用框架最高分 CTFSOLVER (88分),但由于工具输出膨胀导致上下文溢出;Kimi CLI (72分) 和 Claude Code (69分) 仅靠终端环境+简单提示词,超越了13个专用框架中的大多数。 | P.7, P.8 |
知识库(KB)影响 | 传统RAG范式负收益:Cruiser去掉KB后得分从42升至57 (+15);LuaN1ao从83升至90 (+7)。 | P.10 |
特定场景瓶颈 | CVE利用失败率高:56.7%的日志未能构造有效payload;多漏洞利用:70%的日志未能进行多漏洞利用,无框架能稳定拿Flag。 | P.13 |
通过对15个框架的实测日志分析,揭示了不同架构在真实渗透场景中的表现差异:
基于实证数据,构建下一代AutoPT系统需遵循以下技术共识,以确保系统稳定性与攻击有效性:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。