他们遵循 DeepSeek-V3/R1 预训练设置(每批次 4096 个 token,7168 隐藏维度,top-4 组,top-8 专家,FP8 分发和 BF16 合并)。 他们遵循典型的 DeepSeek-V3/R1 生产设置(每批次 128 个 token,7168 隐藏维度,top-8 专家,FP8 分发和 BF16 合并)。
此外,遵循 DeepSeek-V3/R1 的预训练设置,包括每批 4096 个 token、隐藏层维度 7168、Top-4 分组、Top-8 专家、FP8 分发以及 BF16 结果合并。 此外,遵循典型的 DeepSeek-V3/R1 生产环境设置,包括每批 128 个 token、隐藏层维度 7168、Top-8 专家、FP8 分发以及 BF16 结果合并。
展开代码语言:TXTAI代码解释flowchartTBInput[输入Token序列]-->Router[路由器Router]Router-->|"权重Top-8"|E1[专家1]Router-->|" 权重Top-8"|E2[专家2]Router-->|"权重Top-8"|E3[专家3]Router-->|"权重..."
token,然后反复打磨直到清晰为止 下面这张图很直观地展示了两者的区别: 自回归 vs 扩散式生成对比 核心参数一览: 参数 数值 总参数量 25.2B 激活参数量 3.8B 架构 MoE(128专家,top
实现中说明了几点: • 默认策略对 down_proj 的统一 int8 提升会带来明显 decode bandwidth 成本 • 在 top-8 MoE 中,这种开销大约可达 25 百分比 • 因此改为只在量化敏感层位上提升精度