腾讯大模型与智能体安全风险治理与端到端防护体系构建

原创

gawain2048

发布于 2026-05-29 16:45:18

1830

数据来源： 腾讯 2025年7月8日分享材料《大模型和智能体安全风险治理与防护》 专家背书： 李滨（腾讯分享人）

剖析智能体生态下的安全盲区与漏洞放大效应

随着企业数字化进入“大模型时代”，传统的应用安全边界已被打破。当前企业在大模型应用场景中面临十大核心安全风险，包括样本投毒、Prompt注入攻击、第三方代码依赖风险、模型数据泄露及自动化Agent权限滥用等。

在 Agentic（智能体）与 MCP（模型上下文协议）生态中，由于初期设计偏向“便利”与“易用”，缺乏基础安全控制与统一身份认证，导致经典安全漏洞在AI环境中被显著放大，直接升级为控制面攻击。业务面临以下量化风险痛点：

命令注入风险： 转化实现率高达 43%。
SSRF（服务器端请求伪造）： 转化实现率达 30%。
路径遍历漏洞： 转化实现率达 22%。同时，智能体交互引发了新型混合攻击（如工具投毒、规划线路僭越、RAG上下文污染）以及双向混淆代理人问题，传统的静态安全防护已无法应对动态的语义级控制威胁。

落地端到端大模型安全防护产品矩阵

针对大模型端到端（训练、推理、部署、应用）生命周期，腾讯构建了以“规则+模型”为核心的多层次安全防护架构，重点部署三大安全控制中枢：

边界与API安全（腾讯 LLM-WAF）： 专为大语言模型设计的智能安全防护网关，在多模型、高并发环境下，提供全链路防护。实时检测并拦截算力消耗滥用、提示词攻击（注入、越权）及敏感数据泄露。
风险态势感知（腾讯 AI-SPM）： 大模型攻击面和漏洞管理系统，通过资产测绘与关联，实现主机层与网络层的精准扫描与大模型网络攻击示警，保护基础设施运行环境。
智能体身份与意图管控（天御大模型安全网关）：以 Agent ID（统一身份）为核心，收拢人、智能体、服务、工具的身份边界。通过建立“输入安全-决策链安全-执行安全”三道防线，管控越权访问与工具劫持。

提升风险资产测绘与漏洞精准拦截指标

通过部署腾讯大模型安全治理架构，企业在资产管理、漏洞扫描与内容风控方面实现量化的运维指标提升与开发效率保障：

资产测绘与组件识别覆盖率： AI-SPM 系统支持识别 50+ 种大模型相关网络与主机组件，实现资产暴露状态与路径的全量关联。
漏洞精准检测与拦截能力： 提供 200+ 项大模型组件漏洞检测与基于版本的漏洞识别，支持 20+ POC（概念验证）形式的精准检测，并针对 6类核心漏洞攻击行为输出实时示警。
全生命周期内容风控效率： 天御内容风控平台打通接口输入、内容预处理、模型识别、策略辅助、平台调度分析、人工标注运营 6个核心维度，为模型训练、模型优化与内容生成阶段提供结构化审查，降低违法违规内容与业务舆情风险。

纳管多源模型服务与攻防实战检验

在实际业务环境与生态兼容性方面，腾讯 LLM-WAF 与天御网关支持无缝接入并保护企业当前主流的大模型服务源站。

多模型源站兼容： 架构支持对 Deepseek、腾讯混元、Qwen2.5、阶跃星辰 等业界主流大模型的统一业务安全防护与生成内容安全过滤。
Red Team 实战对抗驱动： 依托腾讯 AI RedTeam 建设，持续开展红蓝对抗演习（涵盖远程命令执行、对抗后缀、指令劫持等），通过攻击防御与应急响应，收敛内外网资产风险，确保防护策略的实战有效性。

驱动安全与业务协同的体系化标准建设

解决大模型安全问题不能仅依靠单一工具，更需要标准化的治理体系。腾讯以实战安全专家能力为基础，深度解析模型机理，沉淀了体系化的大模型安全中枢能力。

在输出行业技术标准方面，腾讯混元、腾讯安全玄武实验室联合 OWASP 中国及清华大学，共同制定并发布了《大语言模型 (LLM) 安全性测评基准》。此基准为行业提供了包含通用漏洞评测、Prompt 安全研究及基础设施安全研究在内的完整测试方法论，保障企业在规模化应用大模型过程中的系统稳定性与数据合规性。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

安全治理