首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Claude百万token上下文实测窗口变大不等于效果变好

Claude百万token上下文实测窗口变大不等于效果变好

原创
作者头像
用户12477230
发布2026-06-02 17:43:05
发布2026-06-02 17:43:05
1170
举报

日常做不同AI模型的长文档处理对比时,我在leadhi.cn这类AI模型聚合平台上切换模型跑测试效率高很多,一个界面搞定不用反复切窗口。Anthropic把Claude的上下文窗口一路从100K拉到200K再到100万token,今年4月发布的Claude 4.7更是达到了150万token。数字越来越好看,但用了一个多月之后的真实感受是:窗口大了,脑子不一定好使。


100万token的数字怎么理解

100万token大约等于750万个英文单词。放在实际工作场景里,你可以把一整个代码库、数百页合同、数千篇论文一股脑塞进去,不需要分块、不需要摘要。

定价方面,Opus 4.6每百万token输入5美元、输出25美元。此前超过20万token的请求输入价格翻倍,现在200K以内统一定价了。对比一下,GPT-5.5的上下文窗口上限只有100万token,而Claude 4.7已经达到150万。

但这个数字有个前提——Anthropic自己在公告里写的是"测试版百万token上下文窗口"。测试版三个字很关键,意味着它知道自己还没完全搞定。


检索能力确实有明显进步

在专门考验超长文本检索能力的MRCR v2测试中,Opus 4.6拿到76%,上一代Sonnet 4.5只有18.5%。这个进步是实打实的。

放到"大海捞针"测试里看更直观:Claude 4.7在100万token处的召回准确率是99.4%,GPT-5.5是97.2%。长文本摘要的幻觉率Claude只有1.8%,GPT-5.5是3.5%。

Opus 4.6在长文本连贯性测试Vending-Bench 2中也大幅领先,在计算生物学测试中同样排名第一。单次请求最多支持600张图片或600页PDF,比之前的100个媒体文件翻了6倍。


但"上下文腐烂"是真实存在的问题

这是大多数人不知道的事。Anthropic自己在官方博客中明确提出了"上下文腐烂"这个概念——上下文越长,模型越蠢。

机制不复杂。模型的注意力是有限资源。你两小时前读的那个配置文件、一小时前调试失败的那段日志、半小时前试过的一条死胡同,全都还在窗口里,全都在抢注意力。信息过载导致注意力稀释,这与能力无关,是带宽问题。

更要命的是自动压缩的翻车时刻。当上下文快撑到上限时,系统会自动触发压缩——这恰恰是上下文最长、模型表现最差的时候。你让一个已经"走神"的模型来决定什么信息重要、什么可以丢掉。博客里举了个例子:很长的调试会话触发了自动压缩,然后你突然说"修一下那个warning",但那个warning只是中途顺带看到的一眼,压缩时已经被丢掉了。

从成本角度看更触目惊心:有分析发现超过80%的成本可能被浪费在完全无关的臃肿上下文上。一次40000个输入token的请求,最终只为了生成30个token的有效输出。系统提示本身就可能高达2万到3万token,这是你每次请求的固定"起步价"。


Anthropic官方给出的五条救命路径

Anthropic自己也意识到这个问题,给出了完整的会话管理方案。

继续对话:上下文还相关时直接聊,大多数时候够用。

回退:连按两下Esc跳回之前的某条消息,从那个节点重新来。官方博客有个精准判断——与其纠正不如回退。失败尝试的全部中间过程留在上下文里会继续污染后续判断。

清除:开启全新会话,附带简要说明。好处是零腐烂,坏处是费事。

压缩:让模型总结当前对话,用摘要替换历史。省事但有损。可以附上引导指令告诉它什么该留什么该扔。注意清除和压缩截然不同——压缩由模型决定什么重要,清除由你自己写关键内容。

子智能体:把工作交给拥有独立上下文的子智能体,干完活只把结论带回来。Anthropic内部的判断标准就一条——我之后还需要这些工具输出本身,还是只需要最终结论?它更像你的"一次性调查员",工作簿扔掉就行,你只需要拿走最后那页报告。


实际使用中的省钱要点

除了上下文管理,token消耗也是必须算的账。日常开发坚决用Sonnet,只有啃硬骨头时才请Opus。Opus的token价格是Sonnet的数倍。

几个实操建议:为每个独立任务多开终端窗口,任务完成立刻关闭;善用.gitignore划定禁区,阻止模型扫描node_modules等无关文件;只给模型预期会更改的代码加周边20到40行上下文,而不是整个文件。

用最清醒的时候做压缩,而不是等到最糊涂的时候被动挨打。提前手动执行压缩并附上说明,比等自动触发靠谱得多。


趋势判断

Anthropic把百万上下文从实验功能变成默认能力,信号很明确:长上下文不再是奢侈品,而是标配。但窗口大小的军备竞赛已经接近尾声。

真正的问题不再是你一次能喂给AI多少东西,而是你懂不懂管理它那块昂贵、健忘又极不稳定的"工作内存"。GPT-5.5在上下文预热速度上快了约33%,Claude在召回准确率上更稳。选谁取决于你的场景——追求极致准确率选Claude,追求响应速度选GPT。

100万token是安全气囊,不是日常主干道。核心推理控制在30万token以内,该开新会话就开新会话——这才是真正高效利用长上下文窗口的方式。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 日常做不同AI模型的长文档处理对比时,我在leadhi.cn这类AI模型聚合平台上切换模型跑测试效率高很多,一个界面搞定不用反复切窗口。Anthropic把Claude的上下文窗口一路从100K拉到200K再到100万token,今年4月发布的Claude 4.7更是达到了150万token。数字越来越好看,但用了一个多月之后的真实感受是:窗口大了,脑子不一定好使。
    • 100万token的数字怎么理解
    • 检索能力确实有明显进步
    • 但"上下文腐烂"是真实存在的问题
    • Anthropic官方给出的五条救命路径
    • 实际使用中的省钱要点
    • 趋势判断
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档