模型训练的目标是通过大量数据更新模型参数,使模型学会预测下一个词的能力。训练过程需要反向传播算法,计算损失函数对各参数的梯度,并通过优化器(如 Adam、SGD)持续更新权重。大模型推理的目标则是利用已训练好的固定权重模型,对用户输入的提示词执行前向计算,逐词生成输出结果。推理阶段不更新任何参数,每次推理的输出仅取决于输入和固定权重。
训练阶段需要极大规模的算力集群,以 GPT/混元等千亿参数级别模型为例,预训练通常需要数千张 GPU 持续运行数周,算力成本可达数千万美元级别。推理阶段的算力需求取决于部署规模,单张推理专用 GPU(如 NVIDIA L4、T4)即可支持中小规模的服务,但高并发场景仍需要多卡或集群部署。
训练阶段的数据流向是:输入数据 → 前向计算 → 计算损失 → 反向传播 → 更新权重,是一个循环迭代、持续优化参数的过程。推理阶段的数据流向是:输入提示词 → 前向计算(Prefill)→ 逐词生成(Decode)→ 输出结果,是一个单次前向计算、无参数更新的过程。
训练阶段的核心评估指标是训练损失(Training Loss)、验证集困惑度(Perplexity)以及下游任务准确率,关注模型是否充分学习了数据中的模式。推理阶段的核心评估指标是首词延迟(TTFT)、词间延迟(ITL)、吞吐量(Tokens/s)、以及输出质量(准确性、相关性、安全性),关注用户实际体验和服务成本。
训练优化聚焦于改进模型架构、优化数据配比、提升训练稳定性、降低显存占用(如梯度检查点、混合精度训练)。推理优化则聚焦于显存管理(如 PagedAttention)、计算加速(如量化、推测解码)、调度策略(如连续批处理)以及系统架构(如 PD 分离),目标是在保证输出质量的前提下,尽可能降低延迟、提升吞吐、压缩成本。