Claude百万token上下文实测窗口变大不等于效果变好

原创

用户12477230

发布于 2026-06-02 17:43:05

1170

日常做不同AI模型的长文档处理对比时，我在leadhi.cn这类AI模型聚合平台上切换模型跑测试效率高很多，一个界面搞定不用反复切窗口。Anthropic把Claude的上下文窗口一路从100K拉到200K再到100万token，今年4月发布的Claude 4.7更是达到了150万token。数字越来越好看，但用了一个多月之后的真实感受是：窗口大了，脑子不一定好使。

100万token的数字怎么理解

100万token大约等于750万个英文单词。放在实际工作场景里，你可以把一整个代码库、数百页合同、数千篇论文一股脑塞进去，不需要分块、不需要摘要。

定价方面，Opus 4.6每百万token输入5美元、输出25美元。此前超过20万token的请求输入价格翻倍，现在200K以内统一定价了。对比一下，GPT-5.5的上下文窗口上限只有100万token，而Claude 4.7已经达到150万。

但这个数字有个前提——Anthropic自己在公告里写的是"测试版百万token上下文窗口"。测试版三个字很关键，意味着它知道自己还没完全搞定。

检索能力确实有明显进步

在专门考验超长文本检索能力的MRCR v2测试中，Opus 4.6拿到76%，上一代Sonnet 4.5只有18.5%。这个进步是实打实的。

放到"大海捞针"测试里看更直观：Claude 4.7在100万token处的召回准确率是99.4%，GPT-5.5是97.2%。长文本摘要的幻觉率Claude只有1.8%，GPT-5.5是3.5%。

Opus 4.6在长文本连贯性测试Vending-Bench 2中也大幅领先，在计算生物学测试中同样排名第一。单次请求最多支持600张图片或600页PDF，比之前的100个媒体文件翻了6倍。

但"上下文腐烂"是真实存在的问题

这是大多数人不知道的事。Anthropic自己在官方博客中明确提出了"上下文腐烂"这个概念——上下文越长，模型越蠢。

机制不复杂。模型的注意力是有限资源。你两小时前读的那个配置文件、一小时前调试失败的那段日志、半小时前试过的一条死胡同，全都还在窗口里，全都在抢注意力。信息过载导致注意力稀释，这与能力无关，是带宽问题。

更要命的是自动压缩的翻车时刻。当上下文快撑到上限时，系统会自动触发压缩——这恰恰是上下文最长、模型表现最差的时候。你让一个已经"走神"的模型来决定什么信息重要、什么可以丢掉。博客里举了个例子：很长的调试会话触发了自动压缩，然后你突然说"修一下那个warning"，但那个warning只是中途顺带看到的一眼，压缩时已经被丢掉了。

从成本角度看更触目惊心：有分析发现超过80%的成本可能被浪费在完全无关的臃肿上下文上。一次40000个输入token的请求，最终只为了生成30个token的有效输出。系统提示本身就可能高达2万到3万token，这是你每次请求的固定"起步价"。

Anthropic官方给出的五条救命路径

Anthropic自己也意识到这个问题，给出了完整的会话管理方案。

继续对话：上下文还相关时直接聊，大多数时候够用。

回退：连按两下Esc跳回之前的某条消息，从那个节点重新来。官方博客有个精准判断——与其纠正不如回退。失败尝试的全部中间过程留在上下文里会继续污染后续判断。

清除：开启全新会话，附带简要说明。好处是零腐烂，坏处是费事。

压缩：让模型总结当前对话，用摘要替换历史。省事但有损。可以附上引导指令告诉它什么该留什么该扔。注意清除和压缩截然不同——压缩由模型决定什么重要，清除由你自己写关键内容。

子智能体：把工作交给拥有独立上下文的子智能体，干完活只把结论带回来。Anthropic内部的判断标准就一条——我之后还需要这些工具输出本身，还是只需要最终结论？它更像你的"一次性调查员"，工作簿扔掉就行，你只需要拿走最后那页报告。

实际使用中的省钱要点

除了上下文管理，token消耗也是必须算的账。日常开发坚决用Sonnet，只有啃硬骨头时才请Opus。Opus的token价格是Sonnet的数倍。

几个实操建议：为每个独立任务多开终端窗口，任务完成立刻关闭；善用.gitignore划定禁区，阻止模型扫描node_modules等无关文件；只给模型预期会更改的代码加周边20到40行上下文，而不是整个文件。

用最清醒的时候做压缩，而不是等到最糊涂的时候被动挨打。提前手动执行压缩并附上说明，比等自动触发靠谱得多。

趋势判断

Anthropic把百万上下文从实验功能变成默认能力，信号很明确：长上下文不再是奢侈品，而是标配。但窗口大小的军备竞赛已经接近尾声。

真正的问题不再是你一次能喂给AI多少东西，而是你懂不懂管理它那块昂贵、健忘又极不稳定的"工作内存"。GPT-5.5在上下文预热速度上快了约33%，Claude在召回准确率上更稳。选谁取决于你的场景——追求极致准确率选Claude，追求响应速度选GPT。

100万token是安全气囊，不是日常主干道。核心推理控制在30万token以内，该开新会话就开新会话——这才是真正高效利用长上下文窗口的方式。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能

登录后参与评论

0 条评论

热度