首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    刚刚,DeepSeek开源MoE训练、推理EP通信库DeepEP,真太Open了!

    他们遵循 DeepSeek-V3/R1 预训练设置(每批次 4096 个 token,7168 隐藏维度,top-4 组,top-8 专家,FP8 分发和 BF16 合并)。 他们遵循典型的 DeepSeek-V3/R1 生产设置(每批次 128 个 token,7168 隐藏维度,top-8 专家,FP8 分发和 BF16 合并)。

    59810编辑于 2025-02-25
  • 来自专栏Se7en的架构笔记

    DeepSeek 开源周第二弹:DeepEP —— 首个 MoE 模型训练和推理的 EP 通信库

    此外,遵循 DeepSeek-V3/R1 的预训练设置,包括每批 4096 个 token、隐藏层维度 7168、Top-4 分组、Top-8 专家、FP8 分发以及 BF16 结果合并。 此外,遵循典型的 DeepSeek-V3/R1 生产环境设置,包括每批 128 个 token、隐藏层维度 7168、Top-8 专家、FP8 分发以及 BF16 结果合并。

    1K10编辑于 2025-05-21
  • 744B参数只激活5%,这个纯国产训练的AI在编程上追平了Opus 4.6

    展开代码语言:TXTAI代码解释flowchartTBInput[输入Token序列]-->Router[路由器Router]Router-->|"权重Top-8"|E1[专家1]Router-->|" 权重Top-8"|E2[专家2]Router-->|"权重Top-8"|E3[专家3]Router-->|"权重..."

    1K10编辑于 2026-04-11
  • 来自专栏机器学习与统计学

    谷歌最新26B大模型,打字机变印刷机,推理速度1000+Token,4090可跑

    token,然后反复打磨直到清晰为止 下面这张图很直观地展示了两者的区别: 自回归 vs 扩散式生成对比 核心参数一览: 参数 数值 总参数量 25.2B 激活参数量 3.8B 架构 MoE(128专家,top

    1200编辑于 2026-06-24
  • 来自专栏福大大架构师每日一题

    ollama v0.30.10更新详解:Apple Silicon原生支持Command A与North家族,llama.cpp升级到b9672,Cohere2 MoE全链路接入MLX

    实现中说明了几点: • 默认策略对 down_proj 的统一 int8 提升会带来明显 decode bandwidth 成本 • 在 top-8 MoE 中,这种开销大约可达 25 百分比 • 因此改为只在量化敏感层位上提升精度

    300编辑于 2026-06-24
领券