LeCun 团队揭秘：Transformer 里的“尖峰”与“黑洞”，竟是设计缺陷？

原创

干饭第一名

发布于 2026-06-09 13:37:06

2090

文章被收录于专栏：s18s18

大语言模型（LLM）的内部运作机制，长期以来就像一个难以彻底看透的“黑盒”。我们在惊叹于模型强大涌现能力的同时，往往对其底层的极端现象知之甚少。

近期，由 Yann LeCun 团队领衔发表的一篇重量级论文，像一把极其锋利的手术刀，解剖了当前主流 Transformer 模型内部两个普遍存在却令人费解的现象：大规模激活（Massive Activations，即“尖峰”）和注意力汇聚（Attention Sinks，即“黑洞”）。

这项研究不仅清晰地揭示了这两种异常现象产生的完整因果链条，更通过消融实验证明：它们并非模型功能的必需品，而是特定架构设计（尤其是“前归一化”）带来的副产品。 这一结论为下一代更易量化、更擅长长上下文处理的 Transformer 架构设计提供了宝贵的理论支撑。

论文信息：

标题： The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks
机构： Meta (FAIR)
链接： https://arxiv.org/pdf/2603.05498v1.pdf

一、隐藏在模型深处的两个“怪象”

在 LLM 推理时，研究人员观察到了两个诡异的极端现象：

大规模激活（尖峰）： 针对某些特定的词元，隐藏层通道里的激活值会突然飙升，比普通词元高出几个数量级，如同平缓信号中突兀的“尖峰”。
注意力汇聚（黑洞）： 无论当前预测的内容是什么，模型的某些注意力头（Attention Heads）会像着了魔一样，将海量的注意力权重分配给某些特定词元（如句首词、标点符号）。这些词元就像引力极强的“黑洞”，吞噬了周围的注意力。

更巧合的是，“尖峰”与“黑洞”往往成对出现，且通常绑定在序列的第一个词元或特定的分隔符（如句号、换行符）上。过去的研究未能理清它们之间的关系，而 LeCun 团队的核心发现是：这并非 Transformer 的天性，而是现代大模型架构设计下的人工产物。

二、抽丝剥茧：“尖峰”的完整生命周期

论文发现，“尖峰”现象在模型内部遵循一个极其规律的“兴起 - 平台 - 衰落”生命周期，且被严格限制在模型的中间层。这个过程由三个关键机制共同完成：

抬升块（Lifting Block）： 在网络最前端的几个 Transformer 块中，其输出本身就异常巨大。这些块将巨大值“注入”到残差流中，拉开了尖峰的序幕。
残差累积（Residual Accumulation）： 由于 Transformer 的残差连接特性，早期注入的巨大激活值会像存款一样在中间层不断累积并维持。
下降块（Descending Block）： 在网络末端，会出现几个特定的块，产生与“尖峰”大小相等、符号相反的输出（负尖峰）。两者相加，精准抵消了之前累积的异常值，让输出回归正常范围。

各主流模型的抬升与下降块位置分布：

模型	抬升块索引 (Lifting)	下降块索引 (Descending)
Llama 2 (7B)	4, 8	62, 78
Llama 3 (8B)	6, 8, 10	52, 54, 56
Qwen 3 (8B)	6	60, 62
Mistral (7B)	6, 8	58, 62

三、罪魁祸首：作为“定向放大器”的前馈网络

是谁在制造这些巨大输出？研究将矛头指向了前馈网络（FFN），特别是其内部使用的 SwiGLU 激活函数。

对于尖峰词元，SwiGLU 中的 SiLU 门控函数处于近乎恒等的映射状态（$\text{SiLU}(x) \approx x$）。此时，前馈网络对输入向量 $\tilde{h}$ 的操作可近似为一个二次型：$\mathcal{F}_{\text{ffn}}(\tilde{h})_k \approx \tilde{h}^\top U_k \tilde{h}$。

关键在于，对应尖峰通道的权重矩阵 $U_k$ 的 Frobenius 范数异常巨大，且其特征值谱显示出强烈的“秩一主导”特性：存在一个极大的主特征值 $\lambda^\star$ 和一个固定的触发方向 $s^\star$。

这意味着，FFN 本质上是一个“定向放大器”。 只要输入向量在 $s^\star$ 方向上有足够大的投影，就会被巨大的 $\lambda^\star$ 瞬间放大，产生尖峰。而句首词元和分隔符，恰好因为因果注意力的特性或自身的嵌入分布，被推向了这个触发方向。

四、前归一化（Pre-Norm）：连接尖峰与黑洞的桥梁

“尖峰”是如何异化为“黑洞”的？答案在于现代 Transformer 普遍采用的 前归一化（Pre-Norm） 机制。

当包含巨大尖峰的向量 $h(s)$ 经过 RMSNorm 归一化后，会产生三个致命的物理变化：

有界化： 保证数值不溢出。
极度稀疏化： 巨大的尖峰通道主导了整个范数，导致非尖峰通道被极度压缩，归一化后的向量变成了一个近似的多重 One-Hot 向量。
趋同化： 这是最致命的一点。所有触发尖峰的词元，归一化后的表示几乎完全一样，与原本的词义彻底脱钩。

黑洞的形成：

由于归一化后的输入 $\tilde{h}(s)$ 是高度稀疏且恒定的，注意力机制计算出的 Key 向量 $k(s)$ 就被死死限制在一个极低维的子空间里。对于某些注意力头（黑洞头）而言，普通词元的 Query 向量在几何空间上天然更接近这个恒定的 $k(s)$，导致它们会将大量的注意力权重“倾倒”在这个无意义的词元上，形成了一个稳定运行的“注意力垃圾场”。

五、消融实验与工程启示：非必需的“架构缺陷”

最令人震撼的是，论文通过消融实验证明，“尖峰”与“黑洞”不仅可以被物理分离，而且都不是语言建模所必需的。

分离验证： 如果将架构改为“后归一化”（Post-Norm），“尖峰”现象会被显著抑制甚至消除，但“黑洞”依然存在。这证明两者共现完全是“前归一化”的人工产物。
非必需验证： 如果使用纯长序列数据训练模型，“黑洞”现象会急剧减少。无论抑制尖峰还是消除黑洞，模型的困惑度（Perplexity）都没有显著退化。

这为 LLM 的底层工程优化带来了极具价值的启示：

扫除量化障碍： 极端异常值（尖峰）是 INT8/INT4 低精度量化的头号天敌。理解其成因后，我们可以通过修改归一化层设计，主动抑制激活值飙升，让模型在边缘设备上的低精度部署变得异常简单。
释放长上下文能力： 注意力黑洞是对宝贵 Attention 预算的极大浪费。通过架构优化消灭“黑洞”，可以让模型的注意力完全聚焦于真实的语义依赖，大幅提升处理超长文档和复杂代码库的效率。
重估基础架构： 主流的 Pre-Norm 设计可能引入了有害的复杂性。虽然本文是逆向工程的分析，但它强烈暗示，未来的基础大模型预训练值得重新审视 Post-Norm 或其他更“纯净”的架构演进路径。

这篇论文将大模型从“炼丹玄学”拉回了严密的“精密工程”。只有直面并修复底层设计中的冗余与缺陷，我们才能构建出更高效、更稳定、更易于硬件量化的下一代 AI 基础设施。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S18

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S18

登录后参与评论

0 条评论

热度