业内讨论指出一个尖锐的共识:LLM的“强能力”与“越狱”共享同一套底层机制。
大模型要展现让人惊艳的推理能力,需要增加Width(维度)和Depth(层数),让整个模型在应对复杂Prompt时全负载“点亮”。而越狱正是利用了这一点。黑客通过构造复杂的语境绕过浅层的输入过滤器,诱导模型调用深层的推理网络,在神不知鬼不觉中拼凑出恶意结果。
当越狱和强大推理共享相同的神经通路,安全防线就陷入了悖论。这也是为什么目前的输入端过滤总是滞后,甚至容易把模型削弱成傻子。
如果能力和越狱是一枚硬币的两面,那么AI安全的终点就不是在Prompt上打补丁,而是必须在架构层面重新思考。
x.com/suchenzang/status/2066010626846232831
#人工智能##AI创造营##大模型安全##LLM#