首页
学习
活动
专区
圈层
工具
发布
技术百科首页 >大模型推理 >大模型推理的主要流程有哪些步骤?

大模型推理的主要流程有哪些步骤?

词条归属:大模型推理

1. 分词与嵌入处理

用户输入的自然语言文本首先经过分词器(Tokenizer)转换为模型词表中的整数编号序列(Token IDs)。随后,每个 Token ID 通过嵌入矩阵(Embedding Matrix)映射为高维向量表示(通常为 4096 维或更高),同时注入位置编码信息(Positional Encoding),使模型能够区分词元在序列中的位置。这一阶段是推理的数据准备步骤,输出将作为 Transformer 网络的首层输入。

2. Prefill 预填充阶段

Prefill 阶段将整个输入 Token 序列并行送入 Transformer 网络的每一层,逐层计算 Query(Q)、Key(K)、Value(V)向量。所有词元的 K 和 V 向量被写入 KV Cache,存储在 GPU 显存中。Prefill 阶段结束时,模型基于最后一个词元的隐藏状态,通过语言模型头(LM Head)输出第一个生成词元的概率分布,完成首次采样。由于输入序列的所有词元同时可用,Prefill 阶段可以充分并行计算,GPU 利用率通常在 70%–90%,属于计算密集型(Compute-bound)操作。

3. Decode 逐词解码阶段

从第二个词元开始,模型进入 Decode 阶段。每一轮 Decode 步骤中,模型将最新生成的词元作为输入,仅计算该词元对应的 KV 向量并追加到 KV Cache,然后基于完整的 KV Cache 计算注意力,输出下一个词元的概率分布并完成采样。Decode 阶段是逐词串行执行的,无法像 Prefill 那样并行处理,且每一步都需要从显存中读取完整的 KV Cache,属于显存带宽密集型(Memory-bound)操作,GPU 利用率通常仅为 10%–30%。整个推理过程中约 90% 的耗时集中在 Decode 阶段。

4. 停止判定与后置处理

每次 Decode 步骤完成后,模型检查最新生成的词元是否为序列结束标记(EOS)或是否达到预设的最大生成长度。若满足停止条件,则推理流程终止,将生成的词元序列通过反分词器(Detokenizer)还原为自然语言文本。后置处理步骤可能包括:格式解析(如提取 JSON、XML 结构)、工具调用指令识别、安全过滤(检测有害内容)、以及结果返回给调用方。在支持约束解码(Constrained Decoding)的推理引擎中,这一阶段还会验证输出格式是否符合预设的语法约束。

相关文章
企业网站测试流程有哪些步骤?
企业网站搭建好之后,为了更好的适应网络环境和平台环境,免不了要进行网站测试。比如说,如果网站上线后,在现有的浏览器或者说网络环境中出现页面乱码,报错等问题,网站测试的目的就是为了帮助帮助企业更好的发现网站上线后可能存在的问题并及时进行修复处理。
顾翔
2020-09-28
1.4K0
【大模型】大模型备案的限定领域有哪些?
大模型是一种机器学习中的模型,它通常用于处理大模型的数据集和复杂的任务。大模型因其出色的性能和表现备受关注。接下来就讨论以下大模型的一些限定领域都有哪些。
AI合规咨询专家
2025-08-26
4070
Java的主要特性有哪些?
Java语言的语法与C语言和C++语言很接近,使得大多数程序员很容易学习和使用。另一方面,Java丢弃了C++中很少使用的、很难理解的、令人迷惑的那些特性,如操作符重载、多继承、自动的强制类型转换。特别地,Java语言不使用指针,而是引用。并提供了自动的废料收集,使得程序员不必为内存管理而担忧。
用户7886150
2021-01-31
1.4K0
HDR的主要标准有哪些?
HDR ( High-Dynamic Range ) 高动态范围技术是一种在图像处理和显示领域中常用的技术,旨在提供更广泛的亮度范围和更丰富的色彩细节,通过在图像中捕捉和显示更多的亮度级别来提高图像的质量,让电影、图片、游戏画面都能呈现出极佳的效果,使用户在观影、玩游戏时感受更接近真实世界中的视觉体验。
微帧Visionular
2024-10-30
3.7K0
CRM营销的主要趋势有哪些
CRM客户关系管理软件是管理企业所有业务相关部门的一种工具,为企业提供客户分析,改善企业与客户之间的业务关系。
All in
2020-05-14
1.4K0
点击加载更多
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券