
AI 能力在很长一段时间里看似在贴地飞行,让人误以为进步缓慢。
但实际上,它一直在积蓄力量,准备迎接那个垂直起飞的时刻。
Anthropic 于2026年2月发布了 Claude Opus 4.6。
由于其 COBOL 代码的强大能力,导致IBM股价在2月23日暴跌超过13%,总市值蒸发了超过316亿美元。
从2026年1月开始,由 Anthropic 一系列产品的发布,所触发的美股市值损失,累计达到了万亿美元级别。
而且,在未来12-18个月内,我们将目睹软件生产力及复杂任务处理能力发生质变。
一旦80%成功率曲线突破 4 小时,大多数白领的中层工作将被替代。
你以为你还有时间适应,但实际上没有。

图中的METR(Model Evaluation and Threat Research),是一家专注于评估 AI 模型风险和能力的机构。
Linear 表示当前使用的是线性坐标,而非对数坐标。
50% Success 表示数据的标准是 50% 的成功率。
X轴LLM Release Date,是模型发布日期。
Y轴Effective Time Horizon,是有效任务时长。
这里的时长是模型能够独立、连贯地执行任务的时间长度。
如果Y轴显示为 1 小时,意味着该模型能够以 50% 的成功率完成一个人类专家需要花费 1 小时才能完成的复杂软件任务。
绿色或灰色圆点,每一个点代表一个具体的 AI 模型。
点上的垂直细线是误差线,代表不确定性范围。
例如 Claude Opus 4.6 虽然点在15小时,但线向下延伸到9小时,向上延伸出画面。
这意味着最可能是15小时,但也可能是9小时,或者更高。
绿色的虚线是拟合趋势线,用来展示 AI 能力增长的总体轨迹。
在2024年之前,线是平的,表示长时程任务这一指标上不明显。
在2024年之后,线开始抬起。
在2026年之后,呈指数级垂直上升。
这预示着我们正处于一个技术爆发的拐点。
AI的能力将不再是线性增长(1, 2, 3...),而是爆发式增长(1, 10, 100...)。

然而,大众对AI的感觉往往是滞后的。
似乎什么都没发生…… 然后突然之间,一切都变了。
因为人类只对小时级尺度的工作开始有明显的感知,对于分钟级别的进步几乎没有感觉。
在2024年之前,尽管技术在快速进步,从30秒翻倍到1分钟,再翻倍到2分钟,但是这些进步对于人们几乎不可见。
一旦基数变大,达到1小时后,情况就不一样了。
下一次翻倍是2小时、再下一次4小时、再再下一次8小时,甚至更多,而且可能在极短的时间内发生。

这张对数图告诉我们:
进步是稳定的,规律是存在的,每4个月(123天)翻一番。
图表顶部的标注Implement complex protocol from multiple RFCs(实现复杂协议)是一个标志性门槛。
这不仅仅是写代码,而是需要阅读长文档、理解抽象逻辑、规划架构、编写代码、调试错误并最终交付。
2026年的顶级模型 Claude Opus 4.6 已经能处理 16小时 级别的任务。
这代表了模型的认知上限。
说明 AI 已经具备了处理人类两天工作量的逻辑深度和记忆广度,虽然这还处于实验室或辅助阶段。
对于企业和开发者而言,这意味着必须尽快开始构建适应长时程AI代理的工作流。

在AI评估中,Scaffold指的是包裹在模型外层的代码结构或代理策略。
例如,Reflection、Tool Use、 ReAct、Few-Shot、Plan and Solve、Multi-Agent Collaboration等。
这四张图都是典型的 S 形曲线:
并且,通过对比 Claude Opus 4.5 和 GPT-5 在 Codex 和 Triframe 脚手架下的表现, 说明:
模型智力是决定性因素, Agent 是辅助性因素。
如果任务太长,必须拆解。

但是,我们依然需要保持一些冷静。
当成功率被设定为 80% , 有效任务时长从 15 小时骤降至 1 小时。
Train Classifier 是一道分水岭。
说明对于数据清洗、写API接口、代码编写、报错调试、参数微调这类任务。
在2026年的今天,你只要下个指令,去喝杯咖啡,回来AI已经搞定了,而且不仅做完了,还做对了。
这意味着 AI 真正具备了商业落地价值。
它正式从 Copilot(副驾驶)晋升为 Intern(实习生)甚至 Junior Engineer(初级工程师)。
人类的角色已经完全转变为架构师和审查者。

在2025年一整年里,AI的处理时长翻了近 3 倍。
今天,它已经接管了小时级的工作。
按照这个趋势,不远的未来,它将接管天级甚至周级的工作。
这种速度超越了人类组织的适应能力。
对于企业,不要再把AI当聊天窗口了。
未来,你们招聘的不再是使用AI工具的员工,而是AI员工。
企业的组织架构需要为不知疲倦、偶尔犯错、但速度极快的数字劳动力进行重构了。
对于个人,如果你还在练手速、敲代码,请立刻停止。
你需要磨练的是定义问题、拆解长任务以及评估AI产出的能力。
AI 能搞定16小时的执行工作,但它需要有人告诉它这16小时该干什么。
人类如果不升级为系统设计者或战略决策者,就会掉队!
本文分享自 magicyuan的AI随笔记 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!