
大家好,我是 Ai 学习的老章
老黄在 GTC San Jose 2026 上又放了个大招——NVIDIA 直接把自家最大的开源模型 Nemotron 3 Ultra 丢出来了,550B 总参数,55B 活跃参数,美国开源阵营的天花板,直接拉满

之前搞开源大模型,提到顶级选手,不是 Qwen 就是 DeepSeek,跟别说Kimi、GLM、Minimax了,美国这边一直缺一个真正能打的超大规模 base 模型,这次 NVIDIA 算是把底牌翻出来了
Nemotron 3 Ultra 是 NVIDIA 目前开源的最大模型:550B 总参数,通过 MoE 架构实际每个 token 只激活 55B 参数,稀疏度达到 90%
架构上用的是 Hybrid Mamba-Transformer MoE(混合 Mamba-Transformer 混合专家架构),预训练采用 NVFP4 精度,和之前的 Nemotron 3 Super 一脉相承,但规模直接翻了好几倍
关键定位:这是一个 base 模型(预训练检查点),没有做 instruction tuning,也没有做 alignment——也就是说,你不能直接拿来当 ChatGPT 用,它是给你拿来做二次训练的底座
适合谁?做垂直领域微调的团队、搞 RLHF 后训练的研究者、需要一个超强起点来构建自己产品的公司,如果你只想开箱即用聊天,等后训练版本发布再说
下面这张图把三大技术创新点的关系讲清楚了:

Nemotron 3 Ultra 三大核心技术架构
这个模型有三个技术创新点,每一个都相当硬核:
1. LatentMoE:低秩潜空间路由
传统 MoE 路由开销大,Nemotron 的做法是先把 token 压缩到一个低秩潜空间(latent space)里再做路由,好处是什么?同样的推理成本下,能塞进去 4 倍数量的专家
这意味着模型的"知识容量"远超同等推理开销的竞品,专家越多、分工越细、回答越精准
2. Multi-Token Prediction(MTP)
一次前向传播预测多个未来 token,带来两个直接收益:
3. 1M Token 上下文
Mamba-2 层提供线性时间复杂度,让 100 万 token 的上下文在实际部署中真的可行,对比纯 Transformer 的二次方复杂度,这是质的飞跃
长文档处理、多轮 Agent 对话、代码库级别的理解——这些场景终于不用担心上下文窗口不够用了
NVIDIA 在 GB200 NVL72 上做了基准测试,对手是 GLM-4.5-355B(智谱)和 Kimi-K2-1026B(月之暗面):
基准 | Nemotron 3 Ultra 550B-A55B | GLM-4.5-355B-A32B | Kimi-K2-1026B-A33B |
|---|---|---|---|
MMLU Pro | 79.0 | 65.6 | 69.3 |
MMLU | 89.1 | 86.3 | 88.0 |
Code | 85.3 | 76.2 | 75.3 |
Math | 85.4 | 72.1 | 79.5 |
Common Sense | 81.0 | 81.3 | 81.6 |
Multilingual | 89.0 | 83.3 | 84.2 |
Peak Throughput | 5× | 1× | ~2.5× |
几个关键看点:
Artificial Analysis(独立第三方评测机构)给出的评价:
要知道,Nemotron 3 Ultra 还没做后训练,分数就已经这么猛了,等 post-trained 版本出来,大概率要把 Intelligence Index 再往上推一截

目前不能
英伟达说法是权重将在 Nemotron 3 Ultra 正式版发布时开放,预期 2026 上半年,现在 GitHub 上只有 usage-cookbook 和 README,还没有模型权重可以下载
所以现在的状态是:NVIDIA 先亮了肌肉、给了跑分、建好了技术文档,但权重还在路上
如果你是做模型微调/后训练的,可以先开始准备:
维度 | Nemotron 3 Ultra | DeepSeek-V3 | Kimi-K2 | Llama 3.3 |
|---|---|---|---|---|
总参数 | 550B | 685B | ~1000B | 70B |
活跃参数 | 55B | ~37B | ~33B | 70B(Dense) |
上下文 | 1M | 128K | 128K | 128K |
架构 | Mamba+Transformer MoE | Transformer MoE | Transformer MoE | Dense Transformer |
后训练 | ❌ 未做 | ✅ 已做 | ✅ 已做 | ✅ 已做 |
推理速度 | 300+ t/s | 50-100 t/s | 50-100 t/s | 较快 |
核心优势:1M 上下文(Mamba 架构独有优势)、极高吞吐(5× GLM)、base 模型就有极强底座能力
核心劣势:还没后训练,不能直接用;需要 GB200 级别硬件;目前权重未发布