昨天有点忙,没有第一时间测 MiniMax M3,也看到网上很多声音,说实话让我对 M3 的预期没那么高。不过我是 MiniMax 的老用户,之前一直在用 M2.7 蹬 Hermes,感觉还是够用的。
今天空出时间,上手玩了一下 M3,在低预期的情况下,反倒是有点惊喜的,我觉得 M3 本身主打的三个亮点:1M 上下文、多模态、Agentic Coding 能力还是 OK 的。

M3 的口碑问题,更多在于 Token Plan 的商业运营改动的问题,昨天晚上给出老用户的补偿方案后,我是愿意继续留下来用 M2.7 养马养虾,并用 M3 做一些事情的。先看测评吧,Token Plan 的部分留到后面聊。
我用几个我真实需求的 case 实际上手测试了一下 M3,大家可以根据场景评价一下效果。
我之前用 MiniMax M2.7 最大的遗憾就是没有多模态,会有一些工作流跑不通,需要单独配置多模态模型。这次 M3 补齐了多模态的短板之后,适用性显然更广了。
我在 MiniMax Code 里尝试了一下,直接把一份 MP4 的讲座视频完整地发给 M3,让它从中帮我截取 PPT 图片并标注时间戳。
M3 会调用「理解视频」和「描述图片」的能力,通览全部内容后,再调用本地 ffmpeg 的工具进行截图,截图之后还会检查图片的效果和质量并校准纠正。

最终一遍成功地得到了这样的结果:

得到的图文笔记的效果:

这两年长视频播客火了起来,但说实话,中文播客我还能在通勤的时候挂在后台听完,英文播客实在是没功夫再去练听力了。
特别是 Lex Fridman 的播客,很多都超过了 4 个小时,好在他每次都提供 Transcript 文本。我们就拿最近他和 VLC 作者、FFmpeg 维护者 JBK 的访谈来测试一下。

我把 Lex 自己做的视频章节删掉,只把时间戳+对话内容发给 M3,让它「帮我看看里面主要聊了哪些话题,生成带时间戳的目录大纲方便。然后根据播客内容,转写为一篇4000字的科技博客文章。」

对比一下 Lex 自己给出的时间戳大纲,我觉得 M3 拆分的准确度是相当高的,在一些关键时间戳上几乎完全对齐,并且给出了更细粒度的拆分:

在没有可以优化提示词的情况下,M3 写出来的博客也是比较直给的,我通读了一遍,是能很快抓住播客里的重点的,给自己看足够用了。

如果想达到在社交平台发布的水准,可以根据个人风格再优化提示词,或者搭配多模态能力做一些插图。
MiniMax M3 这次的另一个亮点就是 1M 上下文。不过我个人还是建议大家把上下文控制在 200K~500K 以内,并在接近上下文窗口前主动切换对话。
我的工作场景里,真正能打满 1M 上下文的其实并不多。不过我最近发现了一个蛮有用的项目,叫做 「Understand Anything」,我会在 Token Plan 比较空闲的时候,找一些感兴趣的代码仓库,交给 Agent 去自动化分析。
比如我们把 PewDiePie 前两天开源的 Odysseus 整个交给 M3 去分析。第一次的分析要很久,我运行了两个多小时。首次分析结束后,就会得到一个可交互的前端页面,便于理解项目结构。

在此基础上,如果对项目还有什么问题,也可以继续在 Claude Code 里针对代码库进行提问。

这样的理解分析还是比较烧 Token 的,适合在 Token Plan 空闲的时候跑。
最后来一个编程场景吧。我不知道大家日常工作体验如何,我现在电脑上装着一大堆不同的 Agent,从 Claude Code 到 Codex,包括 OpenClaw、Hermes,还有 Pi、OpenCode 等等。
一方面是体验尝鲜过程中保留下来的代码债,另一方面不同的 Agent 的确有其擅长的场景,把不同的 Agent 固化在一个角色、分工里,根据需求挑选合适的数字员工,也可以让他们分工协作。
我其实一直想把这些工具整合到一个类似斯坦福小镇的工作台里,只不过一直没有开工去做。
前段时间的 Marvis 其实有点像这个理念,不过它是一个商业化产品,并不能灵活地接入管理各种 Agent Gateway。
接下来我在 Claude Code 里把一张 Marvis 截图发给 M3,让它复刻一个能自定义接入的本地项目。先是在 Plan mode 下澄清了一些需求:

然后全程自行完成了 Coding 和搭建,期间我没有给出任何修改指令。

最终运行了 20 多分钟后,我得到的结果如下:

我挨着点了点,完成度是很高的,里面的各种按钮、菜单都是可以正常交互的。
在配置了 API key 之后,大模型也能正常交互对话。

总的来说,除了 SVG 的前端画的比较抽象外,M3 在这个项目的表现我还是很满意的。之后可以用不同的 gateway 或者 API_SERVER 把其他 Agent 接入进来,配置一些角色和分工。
其实 UI 只是一个前端呈现,不管是叫马厩、虾笼,还是叫「三省六部」,又或者套个三国武将的壳,底子都是 Agent 通信和协作。如果谁知道比较好的类似的开源项目也可以讲一下。
从我的测试看,MiniMax M3宣传的核心能力基本都兑现了。综合来看,Agent+长上下文+原生多模态,三者组合起来,M3 是有自己的生态位的。
这背后的技术细节大家看了很多解读了,我就不再赘述了。
最后聊聊 Token Plan 吧。
对于习惯了 MiniMax 量大管饱的用户来说,这次的 M3 性价比肯定是不如原来的 M2.7 的。但开门做生意,肯定不会一直赔钱补贴下去的,对老用户的迁移方案虽然迟到了,但好过没有。

类似的问题,所有模型公司都会遇到。这也是在走向成熟道路上不可避免的。MiniMax M3 这次的发布,有技术上的高光,也有运营上的失误和补救。
这也说明,一个好的AI模型想要真正赢得用户认可,需要把技术、产品、商业这三件事都理顺了,缺一不可。
M3 的技术实力是过关的。它用新的 MSA 解决了长文本处理的效率和成本问题,同时在代码和多模态理解上也做得不错。
虽然经历了一些风波,但最终还是给出了一个有竞争力的定价和补偿方案。大家可以根据自己的实际需求测试一下 M3 的表现,也可以继续用 M2.7 养虾,都是不错的选择。
不论如何,MiniMax 依然在坚持开源路线,为开发者提供除少数几家闭源巨头之外的、更具性价比的高性能选择。对于MiniMax来说,M3 这张答卷已经交出,剩下的就看市场和开发者们的认可了。