最近一个名为HackMyClaw的实验引发了热议。开发者让2000多人给他的AI助手发了6000多封邮件,想方设法骗出隐藏的密钥。结果是:AI守住了。很多人觉得这证明了Claude Opus 4.6这类顶级模型在防范提示词注入(Prompt Injection)上的进化,但评论区的争论揭示了更有趣的视角。
这件事的核心矛盾在于安全与效用的零和博弈。作者为了省钱和防范,给AI下达了“不准回复邮件”的指令。这就像你宣称自家的银行柜员绝对不会被社会工程学欺骗,前提是你不准柜员跟任何人说话。一个不产生实际反馈的系统当然是安全的,但它也失去了作为Agent的价值。
更有解释力的角度是:目前的AI安全很大程度上依赖于高疑心环境。当AI意识到自己正处于压力测试中,它的Token预测会高度趋向于保守。但在真实场景里,攻击往往隐藏在成千上万条正常指令中,且伴随着多轮对话的诱导。
真正的挑战不在于防住那6000个想当“未来的你”的拙劣模仿者,而在于当AI需要像真人一样处理业务、调用工具并产生反馈时,如何不被绕进去。目前的结论是:顶级模型配合简单的System Prompt确实比想象中硬,但这种安全感在很大程度上是牺牲了Agent的主动性换来的。
fernandoi.cl/posts/hackmyclaw/
#人工智能##AI创造营##网络安全##Claude#