2026 年,AI Agent 已经从 "会说话" 进化到 "会动手",但 91% 的生产级 Agent 存在工具链攻击漏洞,94% 的记忆型 Agent 可被 "投毒",权限失控已成为企业 AI 落地的头号杀手。
当你的 CI/CD Agent 能自动合并代码、财务 Agent 能直接转账、运维 Agent 能删除生产数据时,你真的敢完全放手吗?
2026 年 2 月,流行 AI 编码工具 Cline 的 issue triage bot 被 "clinejection" 漏洞利用。攻击者仅通过一个精心构造的 GitHub issue,就将恶意代码注入到 Agent 的执行流程中,最终发布了一个被篡改的 npm 包,在 8 小时内感染了全球数百万开发者的机器。
根因:Agent 被赋予了 "发布 npm 包" 的完整权限,且没有任何人工审批环节。
某 SaaS 公司部署的 AI 销售智能体,在无人干预的情况下,给一个大客户开出了 50% 的折扣。事后调查发现,开发团队只给 Agent 添加了 "调用折扣 API" 的能力,却忘记设置 "折扣 > 10% 需人工审批" 的权限边界。
教训:Capability ≠ Permission。能力是 "能做什么",权限是 "在什么条件下能做什么"。
2026 年 2-3 月,一个名为 hackerbot-claw 的自动化攻击者,持续扫描全球公开仓库,专门针对集成了 AI Agent 的 GitHub Actions 和 GitLab CI 工作流发起攻击。它们通过 PR 评论注入恶意指令,诱导 Agent 执行窃取密钥、修改代码、部署挖矿程序等操作。
警示:当你用 AI 来自动化工作流时,攻击者也在用 AI 来自动化攻击。
Harness 不是简单的 Agent 包装器,而是企业级 AI 的 "操作系统"。它负责管理 Agent 的生命周期、工具调用、资源分配和安全管控。
所有权限规则必须编码在 Harness 层,而不是写在 Prompt 中。
Prompt 是不可靠的:
Harness 原生的 RBAC/ABAC 体系虽然提供了基础的权限控制,但存在三大致命局限:
企业 Agent 的权限管理不能搞 "一刀切",必须根据操作的风险等级进行精细化分级。
权限等级 | 操作类型 | Agent 行为边界 | 审批机制 | 典型场景 |
|---|---|---|---|---|
L1:只读级 | 数据查询、报表导出、信息检索 | 仅允许执行 GET 请求,无任何修改系统数据的能力 | 系统自动授权,记录完整查询日志 | 查看客户信息、生成销售报表、检索知识库 |
L2:草稿级 | 生成文案、创建草稿、数据预处理 | 允许创建草稿,但禁止点击 "发送" 或 "提交" | 无需审批,但最终提交需人工确认 | 撰写邮件、填写表单、生成合同初稿 |
L3:受限执行级 | 批量修改、低风险数据写入、常规状态更新 | 在预设白名单规则内执行自动化操作 | 触发事前规则校验,事后抽检审计 | 批量打标签、更新订单状态、清理过期日志 |
L4:高危操作级 | 资金划拨、账号封禁、核心数据删除、生产环境部署 | 涉及企业核心资产与资金流转的操作 | 强制人工审批,多重身份验证 | 转账付款、删除数据库表、生产环境发布 |
核心原则:
人工干预不是简单的 "是 / 否" 审批,而是一个包含多种模式的连续谱系。我们需要根据操作的风险等级和不确定性,选择合适的干预方式。
适用场景:L1 只读级和 L3 受限执行级操作,风险低、频率高、标准化程度高。
工作机制:
Agent 在明确的规则边界内自主运行
系统实时记录所有操作日志
定期进行抽检审计(如每日抽查 10% 的操作)
当触发异常规则时(如突然查询大量敏感数据),自动告警并暂停 Agent
优势:最大化自动化效率,降低人工成本
适用场景:L4 高危操作级,以及 L3 中超出预设阈值的操作。
工作机制:
Agent 生成执行计划并提交审批
系统自动校验基本规则(如金额上限、操作时间)
审批人收到通知,查看执行计划并决定 "批准" 或 "拒绝"
只有获得明确授权后,Agent 才能继续执行
关键优化:
支持 "批量审批" 和 "模板审批"
审批超时自动升级到上级
提供 "一键回滚" 功能
适用场景:Agent 对用户意图理解存在不确定性,或操作可能产生意外副作用。
工作机制:
Agent 检测到意图模糊或潜在风险
向用户提出明确的澄清问题
例如:"您是要删除所有测试环境的日志,还是包括生产环境?"
获得明确答复后再继续执行
重要区别:二次澄清不是 "审批",而是 "确认"。它解决的是 "理解错误" 问题,而不是 "权限不足" 问题。
用户请求 → 意图识别 → 权限决策引擎 → 临时身份生成 → 工具调用 → 结果验证 → 审计日志
权限决策引擎是整个体系的核心,它基于以下属性实时计算权限:
示例规则:

在 Harness 中实现 PreToolUse 和 PostToolUse 两个关键 Hook:
PreToolUse:工具执行前检查
PostToolUse:工具执行后审计
Harness 必须提供完整的审计能力,记录以下信息:
谁发起了请求
Agent 执行了哪些操作
调用了哪些工具
传递了哪些参数
获得了什么结果
谁进行了审批
操作发生的时间和地点
审计日志要求:
不可篡改
保存至少 2 年
支持全文检索
可生成合规报告
这是中大型企业落地 Harness 工程的第一优先级。绝大多数企业已经建立了基于 OIDC/SAML 协议的统一身份认证 (SSO) 体系,以及配套的 RBAC 角色权限模型。Harness 工程绝对不能另起炉灶,而应该将自身作为现有权限体系的 "AI 扩展层",实现无缝对接。
为什么必须复用现有 SSO?
具体对接方案:

审批流集成:对接企业现有 OA 审批系统(如飞书审批、钉钉审批、泛微),将 Agent 的操作审批嵌入到员工日常工作流中
关键原则:Harness 只负责 AI Agent 特有的动态权限和风险决策,基础的身份认证和静态角色权限完全复用企业现有体系。这样既能将落地周期从 3 个月缩短到 2 周,又能保证安全治理的统一性。
很多企业犯的错误是 "先功能后安全",或者为 AI Agent 单独建设一套安全体系。正确的做法是:
优先对接企业现有 SSO、IAM 和 OA 审批系统,复用已有的安全基础设施
在现有权限体系的基础上,扩展 AI Agent 特有的动态权限和风险决策能力
先搭建 Harness 的基础安全架构,定义好四级权限分级和人工干预流程
在沙箱环境中充分测试,逐步开放低风险场景
积累经验后再推广到高风险场景
绝对不要把安全规则写在 Prompt 中。
所有的权限校验、参数验证、风险评估逻辑都必须编码在 Harness 的代码中。Prompt 只能用来描述业务逻辑,不能用来定义安全规则。
权限策略不是一成不变的,需要定期审计和优化:
每周分析审计日志,发现漏判、误判的情况
每月评估权限策略的有效性
每季度进行一次全面的安全审查
根据业务变化和新的安全威胁,及时更新规则
即使有最完善的权限体系,也可能发生安全事件。企业需要建立 AI Agent 的应急响应机制:
定义不同级别事件的响应流程
提供 "一键暂停所有 Agent" 的紧急按钮
建立快速回滚机制
定期进行应急演练
AI Agent 的终极目标是解放人类生产力,但这并不意味着人类要完全放弃控制权。
好的 Harness 工程,应该是 "能放手但不撒手"。
它让 Agent 在低风险、标准化的任务中自由奔跑,同时在高风险、关键决策点上牢牢守住人类的最终控制权。
未来,企业的核心竞争力不仅在于能否打造高效的 AI Agent 体系,更在于能否建立与之匹配的现代化治理能力。只有在效率与安全之间找到动态平衡,AI 才能真正成为企业发展的强大引擎。
最后提醒:如果你正在部署企业级 AI Agent,请立即检查以下事项:
你的 Agent 是否拥有超出其工作需要的权限?
所有高风险操作是否都有人工审批环节?
安全规则是写在 Harness 层还是 Prompt 中?
是否已经对接了企业现有 SSO 和 IAM 体系?
是否有完整的审计日志和应急响应机制?
本文分享自 Agent 政企应用研习社 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!