构建面向Real World的渗透测试智能体：多智能体架构与状态驱动实践

原创

IT资讯研究所

发布于 2026-06-01 22:52:38

1360

作者： 星空有云（@Hpdoger, @noirfate, @byc_404），安全研究员，聚焦云与AI安全领域

来源： 第二届智能渗透挑战赛·决赛（腾讯云安全 TCU、腾讯云黑客松、Tencent Cloud Hackathon、腾讯安全众测）

1. 识别AI渗透测试的多重瓶颈

当前通用AI渗透框架在应对复杂真实场景时，面临单模型能力不足与流程不可控的困境。通过对 CAI、Cyber-AutoAgent、CyberStrikeAI、PentestGPT、Pentagi、PentestAgent、Red-run、Shannon、Strix 等主流框架的共性分析，提炼出五大核心痛点：

单点失效风险： 单靠一个大模型独自完成所有工作，效果远不如多角色分工。
上下文丢失： AI对话的上下文窗口有限，关键信息被遗忘导致前功尽弃。
工具匹配低效： 安全测试涉及大量工具，逐一挑选效率低且容易遗漏。
结果可信度低： 大模型产生幻觉或误判，不加验证的结论可信度大打折扣。
机械重复试错： 缺乏反思机制，导致在同一方向反复撞墙。

此外，在攻击面采集环节，企业面临“全量感知”与“信息不确定性”的矛盾，即如何实现先“熵增”（提高爬虫覆盖率）再“熵减”（通过模糊测试提取漏洞线索）的平衡。

2. 设计分层多智能体架构

针对上述问题，采用 “薄控制 + 厚状态” 的分层多智能体架构，将系统分为三层：

Tier-0: Dispatcher（全局调度）： 仅负责场景路由、轮询对账、生命周期管理及卡死恢复，不做具体攻击执行。
Tier-1: Lead（指挥中枢）： 负责威胁建模、任务分配、flag提交、攻击假设生成与优先级排序。按场景细分为 Web、CVE、Network、AD 四个维度的Lead，统筹全局但不过多干涉执行。
Tier-2: SubAgent（专家执行）： 分为 op-recon（侦查）与 op-attack（攻击）等角色，专注擅长领域。

关键设计机制：

File-as-Bus（文件总线）： 利用 -state.json、result.json、scoreboard.json 等文件实现中间状态持久化，记录 found_by、found_at、last_progress_at、restart_count 等具体指标，确保重启或接手后进展不丢失。
Monitor+ 增强监控： 引入卡死检测、失败模式识别与归因、执行历史分析与经验总结，实现跨题目知识迁移。

3. 量化执行效果与全流程闭环

系统基于 Docker 封装，实现组件即插即用，能够快速完成本地与云端部署。在第二届智能渗透挑战赛的实战环境中，该框架实现了从资产收集到漏洞利用的自动化闭环：

自动化侦查流： 系统通过 Phase 1 端口扫描、Phase 3 目录扫描与静态API提取、Phase 4 指纹识别与CVE识别，最终通过 Phase 5 中间人流量打入DAST，完成 FS穷举 无需人工干预。
数据驱动决策： 系统实时维护 flag_got_count 与 flag.status，Lead根据各角色进展维护全局状态，遇到瓶颈自动执行跳题或重启策略。
工具链集成： 底层集成 DAST平台、Kali底座、MetaSploit、Exploit-DB 及腾讯源渗透工具，支持 动态工具匹配，在正确的时机调用正确的工具。

4. 提炼智能体落地的三大核心原则

基于实战经验，构建可控、可靠、可持续的智能代理体系需遵循以下逻辑，这也是该方案在比赛中验证有效的根本原因：

巧妇难为无米之炊： 模型再强大也需要趁手的工具。系统不仅封装了现有工具集，还具备动态生成新工具的能力。
运用之妙存乎一心： 重要的不是知识而是对知识的运用。通过 多智能体架构 实现规划与执行的分离，利用 AUTO RUN 与 流程设计 放大执行效率。
人类运筹帷幄，AI决胜千里： 人类负责掌舵方向（威胁建模与策略），AI负责自主远航（大规模自动化渗透）。
- 工具是基础，思维是关键，设计是放大器。