首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Claude Fable 5:把它当水电用的时代结束了

Claude Fable 5:把它当水电用的时代结束了

原创
作者头像
二哥聊运营工具
发布2026-06-10 09:43:57
发布2026-06-10 09:43:57
100
举报
文章被收录于专栏:子木聊出海子木聊出海

Claude Fable 5:把它当水电用的时代结束了

2026 年 6 月 9 日,Anthropic 放出 Claude Fable 5——第一个普通用户能摸到的“加了安全护栏的 Mythos 级模型”。它和受限的 Mythos 5 同源,只是在网络安全、生物、化学、模型蒸馏这几个敏感方向上会拒答或改道。

image.png
image.png

发布两天,社区的赞美和吐槽几乎同时刷屏。但真正值得记下来的,不是“它有多强”,而是一句被反复说起、却没人讲透的话:

把前沿模型当成固定费率的水电用,这个时代结束了。

这才是 Fable 5 的真正分水岭。下面拆开讲。

来源:https://nanoskill.ai/blog/claude-fable-5

一、强,是真的强,但“强”有个星号

先认账。Fable 5 在长周期、复杂、多模态任务上是实打实地拉开了差距:

  • SWE-Bench Pro 80.3% vs Opus 4.8 的 69.2%,差 11 个点
  • SWE-Bench Verified 95.0% vs 88.6%
  • Stripe 用它在一天内迁移了 5000 万行的 Ruby 代码库——原计划要一个团队干两个多月,时间压缩约 60 倍
  • 视觉上,它能只看截图就重建一个 web app 的源码,还自己玩通了《宝可梦 火红》

但这里有个容易被忽略的星号:Anthropic 的跑分表常把 Fable 5 和 Mythos 5 的分数混在一起。你看到的 95.0%,是安全护栏没触发时的上限。一旦任务落进网络/生物/化学/蒸馏这几个域,Fable 5 会拒答、改道到 Opus 4.8,或者表现得比不受限的 Mythos 5 保守得多。

所以正确的读法是:这些跑分代表 Fable 5 的天花板,不是它在所有领域的保证值。软件工程、知识工作、视觉、通用推理——你拿到的是满血 Mythos 级;碰到敏感域,你拿到的可能只是 Opus 4.8 套了个壳。

二、它最独特的能力:会自己做笔记的记忆

跑分之外,Fable 5 有一个被低估的质变——它能在一个长任务里真正“学习”

不是上下文窗口大(两者都是 1M token),而是它会自己记笔记、回查、提炼规则,然后把教训用到后面的决策里。

最生动的证据是《杀戮尖塔》实验:给它基于文件的持久记忆后,它的表现是 Opus 4.8 的三倍,通关到最终章的次数也是三倍。它记的不是“哪张牌好用”,而是从一局局失败里蒸馏出的策略原则。在持续学习基准上,它做到了 73% 的验证覆盖率——失败 → 调查 → 验证 → 提炼 → 应用,跑完了完整闭环。Opus 4.7 的中位数只有 17%。

这件事的实际含义:跨天、跨会话的复杂项目,Fable 5 能逐步攒出对你代码库、你的约定、你过去决策的理解。Opus 4.8 则每次开局都得你重新喂上下文。

三、代价:它是个 token 黑洞

强的另一面是贵,而且贵两次。

第一次贵在标价:输入 $10/百万 token、输出 $50,正好是 Opus 4.8 的两倍。

第二次贵在胃口:同一个任务,Fable 5 比 Opus 4.8 多烧 1.5–2 倍的 token,因为它会跑更长的推理循环、做更多自我修正。一个复杂编码对话轻松烧掉 $10–20。有 Max 20x 用户实测,密集使用时每分钟掉 2% 配额

合起来,一个任务的成本可能是 Opus 4.8 的 2–4 倍

但要分清“烧得多”和“效率低”。在 FrontierCode 上,Fable 5 中等努力档就拿了最高分——每个推理 token 的产出更高。它单 token 慢,但单任务快:在表格任务上比 Opus 4.8 快 25–30% 完成,因为它少走弯路、少要人工介入。

一句用户原话精准:“Fable 5 处理每个 token 更慢,处理每个任务更快。”

测评原文:https://nanoskill.ai/blog/claude-fable-5

四、真正的新规则:成本感知路由是必修课

这就回到开头那句话了。

当模型贵两倍、还多烧两倍 token,把 Fable 5 设成默认模型,在经济上对绝大多数应用都不成立。生产环境从此必须做路由——这不再是“锦上添花”,是“不做就亏”。

Anthropic 自己也清楚,所以发布前两个月就铺好了工具:

  • Advisor 顾问架构:让 Sonnet/Haiku 做执行,Fable 5 只当随叫随到的顾问。官方数据,Sonnet+Opus 顾问能在 SWE-bench 上提 2.7 个点、同时降 11.9% 成本;Haiku+Opus 顾问在 BrowseComp 上把分数从 19.7% 拉到 41.2%,成本还比纯 Sonnet 低 85%
  • Fallback API:遇到限流或安全改道时自动回落 Opus 4.8,按实际响应的模型计费
  • 激进缓存:缓存命中时输入价能压到 $1/百万 token
  • 批处理:非实时任务打五折

信号很直白:Fable 5 不是你的默认模型,是你战略性动用的高价值资源。

五、两个容易踩的政策坑

除了贵,还有两件事注重的人必须提前看清:

1. 强制 30 天数据保留。 从 Fable 5 起,所有 Mythos 级流量强制保留 30 天(第一方、第三方都算),用于检测越狱和跨请求攻击,不用于训练。但医疗、法律、金融这些当初就是冲着“零保留”才选 Anthropic 的团队,这是个需要走合规评审的破坏性变更。注意:Opus 4.8 和其他非 Mythos 级模型仍然提供零保留

2. 订阅免费窗口很短。 6 月 9–22 日,Pro/Max/Team/Enterprise 免费试用 Fable 5;6 月 23 日起要按 API 价另买额度。想认真测的,这两周是窗口期。

六、一张表说清:什么时候用谁

11931c8055499adf429c4ccbbf23f9cd.jpg
11931c8055499adf429c4ccbbf23f9cd.jpg

决策其实就三个问题:任务够不够复杂?产出值不值 2–4 倍成本?是否踩到敏感域或零保留要求? 前两个“是”、第三个“否”,就上 Fable 5,否则用 Opus 4.8。

场景

选谁

大型代码库重构、迁移

Fable 5

跨天的自主项目

Fable 5

基于视觉的 UI 开发

Fable 5

高风险最终生产代码

Fable 5

单个明确功能、改 bug、code review

Opus 4.8(诚实度 3.7% vs 4.6%,反而略好)

文档摘要、简单 OCR

Opus 4.8

快速原型、日常迭代

Opus 4.8

隐私敏感 / 要零保留

Opus 4.8(唯一可行)

安全 / 生物医学研究

Opus 4.8(Fable 5 多半拒答或改道)

高流量生产 API

Opus 4.8

小结

Fable 5 是一次真能力跃迁,Anthropic 自 Claude 4 以来最重要的一次发布。但它不是全面升级。

对 80% 的日常活,Opus 4.8 用一半成本给你 90% 的价值。Fable 5 该留给那些“够复杂、够值钱、不碰红线”的硬骨头。

如果只记一句话:别再把前沿模型当水电,按任务复杂度去配模型。 学会这套打法,Fable 5 是力量放大器;不学,你要么日常多花冤枉钱,要么在真该上重武器时没把它用足。

来源:Anthropic Fable 5 发布文、Claude 模型文档、Opus 4.8 发布说明,以及公开客户引述与早期社区反馈。涉及用户体感与第三方跑分的说法,未附可复现方法的,均按方向性证据看待。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Claude Fable 5:把它当水电用的时代结束了
    • 一、强,是真的强,但“强”有个星号
    • 二、它最独特的能力:会自己做笔记的记忆
    • 三、代价:它是个 token 黑洞
    • 四、真正的新规则:成本感知路由是必修课
    • 五、两个容易踩的政策坑
    • 六、一张表说清:什么时候用谁
    • 小结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档