大模型推理的本质是自回归文本生成:模型根据已有词元(Token)预测下一个最可能的词元,将新生成的词元追加到上下文中,再基于更新后的上下文预测下一个词元,如此循环直至生成结束标记(EOS)或达到最大长度限制。每一步的生成都依赖于前面所有词元的信息,这是 Transformer 注意力机制的核心设计。
Transformer 模型通过注意力机制(Attention)捕捉词元之间的依赖关系。在推理过程中,每个词元都会计算出对应的 Key(K)和 Value(V)向量,这些向量被缓存在 GPU 显存中,称为 KV Cache。如果没有 KV Cache,每生成一个新词元都需要重新计算所有历史词元的 K 和 V 向量,计算量将随序列长度呈平方级增长。KV Cache 的引入将这一复杂度降至线性级别,是大模型推理能够实用化的关键基础。
所有基于 Transformer 架构的大模型推理,均分为两个泾渭分明的阶段:Prefill(预填充)阶段和 Decode(解码)阶段。Prefill 阶段并行处理整个输入提示词,生成初始的 KV Cache 并输出第一个词元;Decode 阶段则逐词生成后续内容,每生成一个新词元,仅计算该词元对应的 KV 向量并追加到缓存中。这两个阶段在计算模式、资源瓶颈和优化方向上均有本质差异,是现代推理引擎设计的核心出发点。
模型对下一个词元的预测结果是一个概率分布(所有词表中词元的概率分数)。采样策略决定了如何从这一分布中选取最终输出的词元。**贪婪解码(Greedy Decoding)**始终选择概率最高的词元,输出确定性最强但容易陷入重复。**温度采样(Temperature Sampling)**通过调节概率分布的"尖锐程度"来控制输出随机性,温度越高输出越多样。Top-P / Top-K 采样则限制候选词元的范围,在多样性和质量之间取得平衡。不同采样策略适用于不同场景,例如代码生成倾向使用低温或贪婪解码,而创意写作则倾向使用较高温度。