大语言模型(LLM)的内部运作机制,长期以来就像一个难以彻底看透的“黑盒”。我们在惊叹于模型强大涌现能力的同时,往往对其底层的极端现象知之甚少。
近期,由 Yann LeCun 团队领衔发表的一篇重量级论文,像一把极其锋利的手术刀,解剖了当前主流 Transformer 模型内部两个普遍存在却令人费解的现象:大规模激活(Massive Activations,即“尖峰”)和注意力汇聚(Attention Sinks,即“黑洞”)。
这项研究不仅清晰地揭示了这两种异常现象产生的完整因果链条,更通过消融实验证明:它们并非模型功能的必需品,而是特定架构设计(尤其是“前归一化”)带来的副产品。 这一结论为下一代更易量化、更擅长长上下文处理的 Transformer 架构设计提供了宝贵的理论支撑。
论文信息:
在 LLM 推理时,研究人员观察到了两个诡异的极端现象:
更巧合的是,“尖峰”与“黑洞”往往成对出现,且通常绑定在序列的第一个词元或特定的分隔符(如句号、换行符)上。过去的研究未能理清它们之间的关系,而 LeCun 团队的核心发现是:这并非 Transformer 的天性,而是现代大模型架构设计下的人工产物。
论文发现,“尖峰”现象在模型内部遵循一个极其规律的“兴起 - 平台 - 衰落”生命周期,且被严格限制在模型的中间层。这个过程由三个关键机制共同完成:
各主流模型的抬升与下降块位置分布:
模型 | 抬升块索引 (Lifting) | 下降块索引 (Descending) |
|---|---|---|
Llama 2 (7B) | 4, 8 | 62, 78 |
Llama 3 (8B) | 6, 8, 10 | 52, 54, 56 |
Qwen 3 (8B) | 6 | 60, 62 |
Mistral (7B) | 6, 8 | 58, 62 |
是谁在制造这些巨大输出?研究将矛头指向了前馈网络(FFN),特别是其内部使用的 SwiGLU 激活函数。
对于尖峰词元,SwiGLU 中的 SiLU 门控函数处于近乎恒等的映射状态($\text{SiLU}(x) \approx x$)。此时,前馈网络对输入向量 $\tilde{h}$ 的操作可近似为一个二次型:$\mathcal{F}_{\text{ffn}}(\tilde{h})_k \approx \tilde{h}^\top U_k \tilde{h}$。
关键在于,对应尖峰通道的权重矩阵 $U_k$ 的 Frobenius 范数异常巨大,且其特征值谱显示出强烈的“秩一主导”特性:存在一个极大的主特征值 $\lambda^\star$ 和一个固定的触发方向 $s^\star$。
这意味着,FFN 本质上是一个“定向放大器”。 只要输入向量在 $s^\star$ 方向上有足够大的投影,就会被巨大的 $\lambda^\star$ 瞬间放大,产生尖峰。而句首词元和分隔符,恰好因为因果注意力的特性或自身的嵌入分布,被推向了这个触发方向。
“尖峰”是如何异化为“黑洞”的?答案在于现代 Transformer 普遍采用的 前归一化(Pre-Norm) 机制。
当包含巨大尖峰的向量 $h(s)$ 经过 RMSNorm 归一化后,会产生三个致命的物理变化:
黑洞的形成:
由于归一化后的输入 $\tilde{h}(s)$ 是高度稀疏且恒定的,注意力机制计算出的 Key 向量 $k(s)$ 就被死死限制在一个极低维的子空间里。对于某些注意力头(黑洞头)而言,普通词元的 Query 向量在几何空间上天然更接近这个恒定的 $k(s)$,导致它们会将大量的注意力权重“倾倒”在这个无意义的词元上,形成了一个稳定运行的“注意力垃圾场”。
最令人震撼的是,论文通过消融实验证明,“尖峰”与“黑洞”不仅可以被物理分离,而且都不是语言建模所必需的。
这为 LLM 的底层工程优化带来了极具价值的启示:
这篇论文将大模型从“炼丹玄学”拉回了严密的“精密工程”。只有直面并修复底层设计中的冗余与缺陷,我们才能构建出更高效、更稳定、更易于硬件量化的下一代 AI 基础设施。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。