
Transformer 是由 Google 在 2017 年的论文《Attention is All You Need》中提出的。它彻底改变了机器处理语言的方式,也是如今 ChatGPT、Claude 和各种大语言模型(LLM)的底层架构。
核心是完全摒弃传统的循环神经网络(RNN)和卷积神经网络(CNN),转而提出一种仅仅依赖注意力机制(Attention Mechanism)的简单网络架构来建立输入序列和输出序列之间的全局依赖关系。
Transformer与传统循环神经网络RNN及卷积神经网络CNN在序列建模差异:

在 Transformer 出现之前,主流模型(如 RNN)处理文字就像听电话:必须听完第一个词,才能听第二个词。如果你说一句话有 100 个词,模型就得按顺序处理 100 次,速度慢且容易忘掉开头的细节。
Transformer 就像是看照片:它一眼就能看到整段文字。这种“全局视野”带来了两个巨大的优势:
Transformer 的精妙之处在于它通过三个绝妙的设计解决了语言理解的难题。
这是 Transformer 的灵魂。它让每个词在处理时,都会去询问句子中其他的词:“你和我有什么关系?”
架构设计Transformer采用了经典的编码器-解码器(Encoder-Decoder)结构,但内部构件完全由堆叠的自注意力层和全连接层组成

Transformer —— 模型架构
Transformer 的核心创新在于缩放点积注意力(Scaled Dot-Product Attention),其设计灵感可以追溯到信息检索系统 。在该机制中,输入的每个 Token 都会被映射为三个不同的向量:查询向量(Query, Q)、键向量(Key, K)和值向量(Value, V)

(左)缩放点积注意力。(右)多头注意力由多个并行运行的注意力层组成。
模型会为每个词计算三个向量:

类比:就像在一场社交舞会上,你想找会跳探戈的人(Q)。你观察每个人的名牌(K),发现只有张三名牌写着“探戈高手”。于是你走向张三,获取了他的跳舞技能(V)。
如果只用一组Q, K, V,模型可能只关注语法。但语言是复杂的,我们需要同时关注:
“多头”意味着模型同时开启多组注意力机制,就像派出了 8 个或 12 个观察员,有的盯着语法,有的盯着语义,最后汇总信息。
既然 Transformer 是“一眼看完”整句话,它就会丢失单词的先后顺序(“狗咬人”和“人咬狗”在它看来是一样的)。
为了解决这个问题,研究者给每个单词注入了一个位置标签。这个标签不是简单的 1, 2, 3,而是使用正弦和余弦函数生成的独特信号,让模型既知道词的绝对位置,也能感知词与词之间的相对距离。

传统的 Transformer 由两大部分组成:
注意:现在的 GPT 系列模型通常只使用“纯解码器”架构,而 BERT 则只使用“纯编码器”架构。
如果你向 Transformer 输入一句话,它会经历以下步骤:

验证方法:
Transformer 架构天生适合处理不同模态的数据对齐。CLIP 模型利用两个独立的 Transformer 编码器(一个视觉,一个文本),通过对比学习将它们映射到一个统一的语义空间 。在这种共享空间内,一幅“狗在草地上跑”的图像与这句话的文本向量会自然地靠拢,而与“汽车”的向量远离 。这种统一的表征方式不仅赋能了零样本(Zero-shot)图像分类,也成为了后续 DALL-E 等图像生成模型的核心灵魂 。
Transformer 架构自 2017 年诞生以来,已经从一个简单的翻译模型进化为现代人工智能的“通用处理器”。它的成功并非偶然,而是其核心设计理念与现代计算硬件发展趋势完美契合的结果:全自注意力的并行性解决了训练速度问题,残差连接与层归一化解决了深度堆叠问题,而缩放定律则揭示了模型表现随资源投入而单调提升的宏观规律 。
从理解人类语言到解析视觉信号,再到跨模态的创意生成,Transformer 展示了其作为一种通用计算范式的巨大潜力 。尽管目前仍面临着平方复杂度开销、数据质量瓶颈以及能效比挑战,但诸如 FlashAttention、RoPE 和混合专家架构(MoE)等创新技术的不断涌现,正在持续拓宽这一架构的边界 。在可预见的未来,Transformer 及其演进版本仍将是通往更高级别人工智能——乃至人工通用智能(AGI)——的核心路径
《Attention Is All You Need》https://arxiv.org/abs/1706.03762