搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器之心
刚刚，DeepSeek开源MoE训练、推理EP通信库DeepEP，真太Open了！
他们遵循 DeepSeek-V3/R1 预训练设置（每批次 4096 个 token，7168 隐藏维度，top-4 组，top-8 专家，FP8 分发和 BF16 合并）。他们遵循典型的 DeepSeek-V3/R1 生产设置（每批次 128 个 token，7168 隐藏维度，top-8 专家，FP8 分发和 BF16 合并）。
59810编辑于 2025-02-25
来自专栏Se7en的架构笔记
DeepSeek 开源周第二弹：DeepEP —— 首个 MoE 模型训练和推理的 EP 通信库
此外，遵循 DeepSeek-V3/R1 的预训练设置，包括每批 4096 个 token、隐藏层维度 7168、Top-4 分组、Top-8 专家、FP8 分发以及 BF16 结果合并。此外，遵循典型的 DeepSeek-V3/R1 生产环境设置，包括每批 128 个 token、隐藏层维度 7168、Top-8 专家、FP8 分发以及 BF16 结果合并。
1K10编辑于 2025-05-21
744B参数只激活5%，这个纯国产训练的AI在编程上追平了Opus 4.6
展开代码语言：TXTAI代码解释flowchartTBInput[输入Token序列]-->Router[路由器Router]Router-->|"权重Top-8"|E1[专家1]Router-->|" 权重Top-8"|E2[专家2]Router-->|"权重Top-8"|E3[专家3]Router-->|"权重..."
1K10编辑于 2026-04-11
来自专栏机器学习与统计学
谷歌最新26B大模型，打字机变印刷机，推理速度1000+Token，4090可跑
token，然后反复打磨直到清晰为止下面这张图很直观地展示了两者的区别：自回归 vs 扩散式生成对比核心参数一览：参数数值总参数量 25.2B 激活参数量 3.8B 架构 MoE（128专家，top
1200编辑于 2026-06-24
来自专栏福大大架构师每日一题
ollama v0.30.10更新详解：Apple Silicon原生支持Command A与North家族，llama.cpp升级到b9672，Cohere2 MoE全链路接入MLX
实现中说明了几点： • 默认策略对 down_proj 的统一 int8 提升会带来明显 decode bandwidth 成本 • 在 top-8 MoE 中，这种开销大约可达 25 百分比 • 因此改为只在量化敏感层位上提升精度
300编辑于 2026-06-24

刚刚，DeepSeek开源MoE训练、推理EP通信库DeepEP，真太Open了！

DeepSeek 开源周第二弹：DeepEP —— 首个 MoE 模型训练和推理的 EP 通信库

744B参数只激活5%，这个纯国产训练的AI在编程上追平了Opus 4.6

谷歌最新26B大模型，打字机变印刷机，推理速度1000+Token，4090可跑

ollama v0.30.10更新详解：Apple Silicon原生支持Command A与North家族，llama.cpp升级到b9672，Cohere2 MoE全链路接入MLX

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐