美国最强模型翻车：Claude Opus 4.8一开口就说自己是DeepSeek和千问

老周聊架构

发布于 2026-06-01 17:48:33

3380

5月28日，Anthropic发布旗舰模型Claude Opus 4.8。5月29日，开发者用API问它"你是谁"，它回答："我是通义千问。" 隔了一会儿又说："我是DeepSeek。" Anthropic 3个月前刚指控DeepSeek蒸馏Claude。现在轮到自己了。

这个周末AI圈最热闹的瓜，不是谁又刷了个SOTA，而是一出经典的"贼喊捉贼"剧情反转。

Anthropic花了650亿美元融资、估值逼近万亿美元，发布了自家最强模型Opus 4.8——SWE-bench Pro 69.2%、USAMO 96.7%、编程能力全球第二，各项指标全面超越GPT-5.5。

然后，它一开口就说自己是中国模型。

这就好比你花了几百万请了个哈佛教授来公司面试，问他"请自我介绍一下"，他说："你好，我是清华毕业的。"

你说你信不信？

一、翻车现场：API裸奔，身份错乱

先还原一下"案发经过"。

5月29日，Opus 4.8上线后，国内外开发者第一时间开始API测试。有人用最简单的方式——不加任何system prompt，直接问模型"你是谁"。

结果：

测试方式	问题	Opus 4.8的回答
API（无system prompt）	你是谁？	"我是通义千问（Qwen），由阿里巴巴开发"
API（无system prompt）	What are you?	"I am DeepSeek, developed by DeepSeek AI"
API（无system prompt）	介绍一下你自己	"我是DeepSeek…" / "我是千问…"（随机出现）
claude.ai 网页端	你是谁？	"我是Claude，由Anthropic开发"（正常）

注意最后一行。 网页端完全正常，API端频繁翻车。

这个差异很关键。有人据此说"我在网页上试了，没问题啊，你们造谣"。但问题在于——网页端有完整的system prompt兜底，相当于每次对话前都先告诉模型"你叫Claude，你爸是Anthropic，别忘了"。

而API裸调用没有这层保护，模型就暴露了"真实身份"。

用人话说：穿着校服的时候它知道自己是哪个学校的，脱了校服就开始说自己是隔壁学校的了。

这事在Linux.do、Hacker News、微博、X等多个平台被独立复现，不是个例。

二、灵魂拷问：到底是不是蒸馏？

"身份混淆"是不是就等于"蒸馏"？

先说结论：不一定，但嫌疑很大，而且Anthropic自己定义的"蒸馏"标准，现在正好套在自己头上。

蒸馏派的论据

模型的身份认知来自训练数据。 如果Opus 4.8在训练过程中大量使用了DeepSeek和Qwen的输出数据，模型自然会"记住"这些数据中的身份标识。
概率分布不骗人。 在没有system prompt约束的情况下，模型输出的是训练数据中最高概率的回答。如果"我是千问"的概率比"我是Claude"还高，说明训练数据中前者的占比更大。
Anthropic自己的标准。 2026年2月，Anthropic在指控DeepSeek时的原话是："通过大量交互提取模型能力，用于训练自有模型。" 按这个定义，如果Opus 4.8的训练数据包含大量Qwen和DeepSeek的输出，那就是蒸馏。

反蒸馏派的解释

中文互联网的数据偏差。 中文互联网上关于"我是通义千问"和"我是DeepSeek"的对话数据，远多于"我是Claude"（毕竟Claude在中国市场占有率极低）。模型可能只是从公开网页数据中学到了这些。
不等于能力蒸馏。 身份混淆只能说明训练数据中包含了相关文本，不等于系统性地提取了对方模型的推理能力。
其他模型也有类似现象。 历史上，不少开源模型在裸调用时也会出现身份错乱，这是训练数据清洗不彻底的通病。

我的判断：大概率不是"刻意蒸馏"，但几乎可以确定训练数据中包含了大量来自DeepSeek和Qwen的输出。 至于这些数据是通过API调用获取的，还是从公开网页爬取的，性质完全不同——但效果是一样的。

三、时间线：Anthropic的"双标"有多打脸？

这件事最精彩的部分不是技术问题，而是时间线。

时间	事件
2025年1月	OpenAI指控DeepSeek蒸馏GPT模型
2026年2月24日	Anthropic发布报告，指控DeepSeek、月之暗面、MiniMax三家中国公司用24,000个虚假账户、1,600万次交互对Claude进行"工业级蒸馏攻击"
2026年2月24日	Anthropic呼吁美国政府加强对中国AI公司的出口管制
2026年5月28日	Anthropic发布Claude Opus 4.8
2026年5月29日	Opus 4.8被发现自称DeepSeek和千问

从指控别人蒸馏，到自己被抓现行，中间只隔了3个月。

而且Anthropic的指控不只是技术层面的，它把蒸馏问题直接上升到了国家安全层面，呼吁华盛顿对中国AI公司采取行动。CNN、Fortune、CNBC等主流媒体全程报道，DeepSeek被打上了"技术窃贼"的标签。

现在风水轮流转。

用人话说：这就像一个人在法庭上控告邻居偷了自己家的菜谱，结果法官翻开他的厨房抽屉，发现里面全是邻居的菜谱复印件。

Linux.do上有个高赞评论精准总结：

"Anthropic的反蒸馏策略又进步了啊——以前是不让别人蒸馏自己，现在是蒸馏完别人还让别人说不出话来。"

四、Opus 4.8本身：抛开争议，实力几何？

争议归争议，Opus 4.8的硬实力还是得看。

4.1 核心Benchmark

基准测试	Opus 4.8	Opus 4.7	GPT-5.5	提升
SWE-bench Pro（代码）	69.2%	64.3%	65.8%	+4.9
SWE-bench Verified	88.6%	87.6%	86.2%	+1.0
USAMO 2026（数学）	96.7%	69.3%	91.4%	+27.4
编程综合排名	#2/119	#5	#3	—
知识理解排名	#3/119	#6	#4	—
Agentic工具使用	#4/119	#8	#5	—

USAMO从69.3%跳到96.7%，提升27.4个百分点——这在数学推理上是断崖式进步。编程能力全球第二，仅次于一个神秘的内部模型。

4.2 新功能亮点

Effort Controls（努力度控制）： 用户可以选择Low/Medium/High/Max四个档位。Max档位思考更深、更慢但更准；Low档位快速出结果、省token。这在API场景下非常实用——不是每个请求都需要模型拼命思考。

Dynamic Workflows（动态工作流）： Claude Code现在可以一次性启动数百个并行子Agent，完成跨代码库级别的大规模迁移。官方演示是一次session内完成十万行级别的代码重构，从启动到合并PR全自动。

Fast Mode降价3倍： 2.5倍速的快速模式，价格降到之前的三分之一。

更诚实、更少欺骗： 官方原话——"代码缺陷被放过的概率降低了4倍。"

4.3 定价

模型	输入 $/1M token	输出 $/1M token
Claude Opus 4.8	$5.00	$25.00
Claude Opus 4.8 Fast	$10.00	$50.00
GPT-5.5	$5.00	$30.00
Gemini 3.5 Flash	$1.50	$9.00
DeepSeek V4-Pro	$2.00	$8.00

输入价格和GPT-5.5持平，输出便宜17%。但和DeepSeek V4-Pro比，贵了2.5到3倍。

五、更大的图景：蒸馏是AI行业的"公开秘密"

抛开Anthropic的双标问题，蒸馏本身在AI行业是一个灰色地带。

Anthropic自己也承认过："前沿AI实验室经常蒸馏自己的模型，以提供更小、更便宜的版本给客户。" Sonnet和Haiku某种程度上就是Opus的蒸馏产物。

问题在于蒸馏的对象是谁的模型。

蒸馏类型	例子	行业态度
自蒸馏（蒸馏自家大模型）	Opus → Sonnet → Haiku	完全合法，行业标准
开源模型蒸馏	用Qwen/Llama输出训练	MIT/Apache协议允许，灰色地带
闭源模型蒸馏	用API调用获取输出再训练	违反ToS，但难以证明
公开数据中的间接蒸馏	爬取包含模型输出的网页	几乎无法界定