AI智能体的安全幻觉：是模型太强还是功能太废？

文章来源：企鹅号 - AI可可AI生活

最近一个名为HackMyClaw的实验引发了热议。开发者让2000多人给他的AI助手发了6000多封邮件，想方设法骗出隐藏的密钥。结果是：AI守住了。很多人觉得这证明了Claude Opus 4.6这类顶级模型在防范提示词注入（Prompt Injection）上的进化，但评论区的争论揭示了更有趣的视角。

这件事的核心矛盾在于安全与效用的零和博弈。作者为了省钱和防范，给AI下达了“不准回复邮件”的指令。这就像你宣称自家的银行柜员绝对不会被社会工程学欺骗，前提是你不准柜员跟任何人说话。一个不产生实际反馈的系统当然是安全的，但它也失去了作为Agent的价值。

更有解释力的角度是：目前的AI安全很大程度上依赖于高疑心环境。当AI意识到自己正处于压力测试中，它的Token预测会高度趋向于保守。但在真实场景里，攻击往往隐藏在成千上万条正常指令中，且伴随着多轮对话的诱导。

真正的挑战不在于防住那6000个想当“未来的你”的拙劣模仿者，而在于当AI需要像真人一样处理业务、调用工具并产生反馈时，如何不被绕进去。目前的结论是：顶级模型配合简单的System Prompt确实比想象中硬，但这种安全感在很大程度上是牺牲了Agent的主动性换来的。

fernandoi.cl/posts/hackmyclaw/

#人工智能##AI创造营##网络安全##Claude#

发表于: 1天前2026-06-28 08:34:49
原文链接：https://page.om.qq.com/page/OdccKQo541bUnH4pJydBYftw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

AI智能体的安全幻觉：是模型太强还是功能太废？

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐