英伟达出手，美国参数量最大的大模型开源，强化Agent能力

Ai学习的老章

发布于 2026-06-02 14:34:38

2620

大家好，我是 Ai 学习的老章

老黄在 GTC San Jose 2026 上又放了个大招——NVIDIA 直接把自家最大的开源模型 Nemotron 3 Ultra 丢出来了，550B 总参数，55B 活跃参数，美国开源阵营的天花板，直接拉满

之前搞开源大模型，提到顶级选手，不是 Qwen 就是 DeepSeek，跟别说Kimi、GLM、Minimax了，美国这边一直缺一个真正能打的超大规模 base 模型，这次 NVIDIA 算是把底牌翻出来了

Nemotron 3 Ultra 是 NVIDIA 目前开源的最大模型：550B 总参数，通过 MoE 架构实际每个 token 只激活 55B 参数，稀疏度达到 90%

架构上用的是 Hybrid Mamba-Transformer MoE（混合 Mamba-Transformer 混合专家架构），预训练采用 NVFP4 精度，和之前的 Nemotron 3 Super 一脉相承，但规模直接翻了好几倍

关键定位：这是一个 base 模型（预训练检查点），没有做 instruction tuning，也没有做 alignment——也就是说，你不能直接拿来当 ChatGPT 用，它是给你拿来做二次训练的底座

适合谁？做垂直领域微调的团队、搞 RLHF 后训练的研究者、需要一个超强起点来构建自己产品的公司，如果你只想开箱即用聊天，等后训练版本发布再说

下面这张图把三大技术创新点的关系讲清楚了：

Nemotron 3 Ultra 三大核心技术架构

这个模型有三个技术创新点，每一个都相当硬核：

1. LatentMoE：低秩潜空间路由

传统 MoE 路由开销大，Nemotron 的做法是先把 token 压缩到一个低秩潜空间（latent space）里再做路由，好处是什么？同样的推理成本下，能塞进去 4 倍数量的专家

这意味着模型的"知识容量"远超同等推理开销的竞品，专家越多、分工越细、回答越精准

2. Multi-Token Prediction（MTP）

一次前向传播预测多个未来 token，带来两个直接收益：

3. 1M Token 上下文

Mamba-2 层提供线性时间复杂度，让 100 万 token 的上下文在实际部署中真的可行，对比纯 Transformer 的二次方复杂度，这是质的飞跃

长文档处理、多轮 Agent 对话、代码库级别的理解——这些场景终于不用担心上下文窗口不够用了

NVIDIA 在 GB200 NVL72 上做了基准测试，对手是 GLM-4.5-355B（智谱）和 Kimi-K2-1026B（月之暗面）：

基准	Nemotron 3 Ultra 550B-A55B	GLM-4.5-355B-A32B	Kimi-K2-1026B-A33B
MMLU Pro	79.0	65.6	69.3
MMLU	89.1	86.3	88.0
Code	85.3	76.2	75.3
Math	85.4	72.1	79.5
Common Sense	81.0	81.3	81.6
Multilingual	89.0	83.3	84.2
Peak Throughput	5×	1×	~2.5×

几个关键看点：

Artificial Analysis（独立第三方评测机构）给出的评价：

要知道，Nemotron 3 Ultra 还没做后训练，分数就已经这么猛了，等 post-trained 版本出来，大概率要把 Intelligence Index 再往上推一截

目前不能

英伟达说法是权重将在 Nemotron 3 Ultra 正式版发布时开放，预期 2026 上半年，现在 GitHub 上只有 usage-cookbook 和 README，还没有模型权重可以下载

所以现在的状态是：NVIDIA 先亮了肌肉、给了跑分、建好了技术文档，但权重还在路上

如果你是做模型微调/后训练的，可以先开始准备：

维度	Nemotron 3 Ultra	DeepSeek-V3	Kimi-K2	Llama 3.3
总参数	550B	685B	~1000B	70B
活跃参数	55B	~37B	~33B	70B（Dense）
上下文	1M	128K	128K	128K
架构	Mamba+Transformer MoE	Transformer MoE	Transformer MoE	Dense Transformer
后训练	❌ 未做	✅ 已做	✅ 已做	✅ 已做
推理速度	300+ t/s	50-100 t/s	50-100 t/s	较快