首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >LeCun 团队揭秘:Transformer 里的“尖峰”与“黑洞”,竟是设计缺陷?

LeCun 团队揭秘:Transformer 里的“尖峰”与“黑洞”,竟是设计缺陷?

原创
作者头像
干饭第一名
发布2026-06-09 13:37:06
发布2026-06-09 13:37:06
430
举报
文章被收录于专栏:s18s18

大语言模型(LLM)的内部运作机制,长期以来就像一个难以彻底看透的“黑盒”。我们在惊叹于模型强大涌现能力的同时,往往对其底层的极端现象知之甚少。

近期,由 Yann LeCun 团队领衔发表的一篇重量级论文,像一把极其锋利的手术刀,解剖了当前主流 Transformer 模型内部两个普遍存在却令人费解的现象:大规模激活(Massive Activations,即“尖峰”)和注意力汇聚(Attention Sinks,即“黑洞”)

这项研究不仅清晰地揭示了这两种异常现象产生的完整因果链条,更通过消融实验证明:它们并非模型功能的必需品,而是特定架构设计(尤其是“前归一化”)带来的副产品。 这一结论为下一代更易量化、更擅长长上下文处理的 Transformer 架构设计提供了宝贵的理论支撑。

论文信息:

一、 隐藏在模型深处的两个“怪象”

在 LLM 推理时,研究人员观察到了两个诡异的极端现象:

  1. 大规模激活(尖峰): 针对某些特定的词元,隐藏层通道里的激活值会突然飙升,比普通词元高出几个数量级,如同平缓信号中突兀的“尖峰”。
  2. 注意力汇聚(黑洞): 无论当前预测的内容是什么,模型的某些注意力头(Attention Heads)会像着了魔一样,将海量的注意力权重分配给某些特定词元(如句首词、标点符号)。这些词元就像引力极强的“黑洞”,吞噬了周围的注意力。

更巧合的是,“尖峰”与“黑洞”往往成对出现,且通常绑定在序列的第一个词元或特定的分隔符(如句号、换行符)上。过去的研究未能理清它们之间的关系,而 LeCun 团队的核心发现是:这并非 Transformer 的天性,而是现代大模型架构设计下的人工产物。

二、 抽丝剥茧:“尖峰”的完整生命周期

论文发现,“尖峰”现象在模型内部遵循一个极其规律的“兴起 - 平台 - 衰落”生命周期,且被严格限制在模型的中间层。这个过程由三个关键机制共同完成:

  • 抬升块(Lifting Block): 在网络最前端的几个 Transformer 块中,其输出本身就异常巨大。这些块将巨大值“注入”到残差流中,拉开了尖峰的序幕。
  • 残差累积(Residual Accumulation): 由于 Transformer 的残差连接特性,早期注入的巨大激活值会像存款一样在中间层不断累积并维持。
  • 下降块(Descending Block): 在网络末端,会出现几个特定的块,产生与“尖峰”大小相等、符号相反的输出(负尖峰)。两者相加,精准抵消了之前累积的异常值,让输出回归正常范围。

各主流模型的抬升与下降块位置分布:

模型

抬升块索引 (Lifting)

下降块索引 (Descending)

Llama 2 (7B)

4, 8

62, 78

Llama 3 (8B)

6, 8, 10

52, 54, 56

Qwen 3 (8B)

6

60, 62

Mistral (7B)

6, 8

58, 62

三、 罪魁祸首:作为“定向放大器”的前馈网络

是谁在制造这些巨大输出?研究将矛头指向了前馈网络(FFN),特别是其内部使用的 SwiGLU 激活函数

对于尖峰词元,SwiGLU 中的 SiLU 门控函数处于近乎恒等的映射状态($\text{SiLU}(x) \approx x$)。此时,前馈网络对输入向量 $\tilde{h}$ 的操作可近似为一个二次型:$\mathcal{F}_{\text{ffn}}(\tilde{h})_k \approx \tilde{h}^\top U_k \tilde{h}$。

关键在于,对应尖峰通道的权重矩阵 $U_k$ 的 Frobenius 范数异常巨大,且其特征值谱显示出强烈的“秩一主导”特性:存在一个极大的主特征值 $\lambda^\star$ 和一个固定的触发方向 $s^\star$。

这意味着,FFN 本质上是一个“定向放大器”。 只要输入向量在 $s^\star$ 方向上有足够大的投影,就会被巨大的 $\lambda^\star$ 瞬间放大,产生尖峰。而句首词元和分隔符,恰好因为因果注意力的特性或自身的嵌入分布,被推向了这个触发方向。

四、 前归一化(Pre-Norm):连接尖峰与黑洞的桥梁

“尖峰”是如何异化为“黑洞”的?答案在于现代 Transformer 普遍采用的 前归一化(Pre-Norm) 机制。

当包含巨大尖峰的向量 $h(s)$ 经过 RMSNorm 归一化后,会产生三个致命的物理变化:

  1. 有界化: 保证数值不溢出。
  2. 极度稀疏化: 巨大的尖峰通道主导了整个范数,导致非尖峰通道被极度压缩,归一化后的向量变成了一个近似的多重 One-Hot 向量。
  3. 趋同化: 这是最致命的一点。所有触发尖峰的词元,归一化后的表示几乎完全一样,与原本的词义彻底脱钩。

黑洞的形成:

由于归一化后的输入 $\tilde{h}(s)$ 是高度稀疏且恒定的,注意力机制计算出的 Key 向量 $k(s)$ 就被死死限制在一个极低维的子空间里。对于某些注意力头(黑洞头)而言,普通词元的 Query 向量在几何空间上天然更接近这个恒定的 $k(s)$,导致它们会将大量的注意力权重“倾倒”在这个无意义的词元上,形成了一个稳定运行的“注意力垃圾场”。

五、 消融实验与工程启示:非必需的“架构缺陷”

最令人震撼的是,论文通过消融实验证明,“尖峰”与“黑洞”不仅可以被物理分离,而且都不是语言建模所必需的。

  • 分离验证: 如果将架构改为“后归一化”(Post-Norm),“尖峰”现象会被显著抑制甚至消除,但“黑洞”依然存在。这证明两者共现完全是“前归一化”的人工产物。
  • 非必需验证: 如果使用纯长序列数据训练模型,“黑洞”现象会急剧减少。无论抑制尖峰还是消除黑洞,模型的困惑度(Perplexity)都没有显著退化。

这为 LLM 的底层工程优化带来了极具价值的启示:

  1. 扫除量化障碍: 极端异常值(尖峰)是 INT8/INT4 低精度量化的头号天敌。理解其成因后,我们可以通过修改归一化层设计,主动抑制激活值飙升,让模型在边缘设备上的低精度部署变得异常简单。
  2. 释放长上下文能力: 注意力黑洞是对宝贵 Attention 预算的极大浪费。通过架构优化消灭“黑洞”,可以让模型的注意力完全聚焦于真实的语义依赖,大幅提升处理超长文档和复杂代码库的效率。
  3. 重估基础架构: 主流的 Pre-Norm 设计可能引入了有害的复杂性。虽然本文是逆向工程的分析,但它强烈暗示,未来的基础大模型预训练值得重新审视 Post-Norm 或其他更“纯净”的架构演进路径。

这篇论文将大模型从“炼丹玄学”拉回了严密的“精密工程”。只有直面并修复底层设计中的冗余与缺陷,我们才能构建出更高效、更稳定、更易于硬件量化的下一代 AI 基础设施。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、 隐藏在模型深处的两个“怪象”
  • 二、 抽丝剥茧:“尖峰”的完整生命周期
  • 三、 罪魁祸首:作为“定向放大器”的前馈网络
  • 四、 前归一化(Pre-Norm):连接尖峰与黑洞的桥梁
  • 五、 消融实验与工程启示:非必需的“架构缺陷”
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档