垂直起飞

用户11705094

发布于 2026-07-02 09:23:29

AI 能力在很长一段时间里看似在贴地飞行，让人误以为进步缓慢。

但实际上，它一直在积蓄力量，准备迎接那个垂直起飞的时刻。

Anthropic 于2026年2月发布了 Claude Opus 4.6。

由于其 COBOL 代码的强大能力，导致IBM股价在2月23日暴跌超过13%，总市值蒸发了超过316亿美元。

从2026年1月开始，由 Anthropic 一系列产品的发布，所触发的美股市值损失，累计达到了万亿美元级别。

而且，在未来12-18个月内，我们将目睹软件生产力及复杂任务处理能力发生质变。

一旦80%成功率曲线突破 4 小时，大多数白领的中层工作将被替代。

你以为你还有时间适应，但实际上没有。

图中的METR（Model Evaluation and Threat Research），是一家专注于评估 AI 模型风险和能力的机构。

Linear 表示当前使用的是线性坐标，而非对数坐标。

50% Success 表示数据的标准是 50% 的成功率。

X轴LLM Release Date，是模型发布日期。

Y轴Effective Time Horizon，是有效任务时长。

这里的时长是模型能够独立、连贯地执行任务的时间长度。

如果Y轴显示为 1 小时，意味着该模型能够以 50% 的成功率完成一个人类专家需要花费 1 小时才能完成的复杂软件任务。

绿色或灰色圆点，每一个点代表一个具体的 AI 模型。

点上的垂直细线是误差线，代表不确定性范围。

例如 Claude Opus 4.6 虽然点在15小时，但线向下延伸到9小时，向上延伸出画面。

这意味着最可能是15小时，但也可能是9小时，或者更高。

绿色的虚线是拟合趋势线，用来展示 AI 能力增长的总体轨迹。

在2024年之前，线是平的，表示长时程任务这一指标上不明显。

在2024年之后，线开始抬起。

在2026年之后，呈指数级垂直上升。

这预示着我们正处于一个技术爆发的拐点。

AI的能力将不再是线性增长（1, 2, 3...），而是爆发式增长（1, 10, 100...）。

然而，大众对AI的感觉往往是滞后的。

似乎什么都没发生…… 然后突然之间，一切都变了。

因为人类只对小时级尺度的工作开始有明显的感知，对于分钟级别的进步几乎没有感觉。

在2024年之前，尽管技术在快速进步，从30秒翻倍到1分钟，再翻倍到2分钟，但是这些进步对于人们几乎不可见。

一旦基数变大，达到1小时后，情况就不一样了。

下一次翻倍是2小时、再下一次4小时、再再下一次8小时，甚至更多，而且可能在极短的时间内发生。

这张对数图告诉我们：

进步是稳定的，规律是存在的，每4个月（123天）翻一番。

图表顶部的标注Implement complex protocol from multiple RFCs（实现复杂协议）是一个标志性门槛。

这不仅仅是写代码，而是需要阅读长文档、理解抽象逻辑、规划架构、编写代码、调试错误并最终交付。

2026年的顶级模型 Claude Opus 4.6 已经能处理 16小时 级别的任务。

这代表了模型的认知上限。

说明 AI 已经具备了处理人类两天工作量的逻辑深度和记忆广度，虽然这还处于实验室或辅助阶段。

对于企业和开发者而言，这意味着必须尽快开始构建适应长时程AI代理的工作流。

在AI评估中，Scaffold指的是包裹在模型外层的代码结构或代理策略。

例如，Reflection、Tool Use、 ReAct、Few-Shot、Plan and Solve、Multi-Agent Collaboration等。

这四张图都是典型的 S 形曲线：

短任务（<15分钟）：成功率几乎锁定在 100%。
中任务（15分钟 - 1小时）：开始出现抖动，但仍维持高位（>80%）。
长任务（>4小时）：成功率呈断崖式下跌。

并且，通过对比 Claude Opus 4.5 和 GPT-5 在 Codex 和 Triframe 脚手架下的表现，说明：

模型智力是决定性因素， Agent 是辅助性因素。

如果任务太长，必须拆解。

但是，我们依然需要保持一些冷静。

当成功率被设定为 80% ，有效任务时长从 15 小时骤降至 1 小时。

Train Classifier 是一道分水岭。

说明对于数据清洗、写API接口、代码编写、报错调试、参数微调这类任务。

在2026年的今天，你只要下个指令，去喝杯咖啡，回来AI已经搞定了，而且不仅做完了，还做对了。

这意味着 AI 真正具备了商业落地价值。

它正式从 Copilot（副驾驶）晋升为 Intern（实习生）甚至 Junior Engineer（初级工程师）。

人类的角色已经完全转变为架构师和审查者。

在2025年一整年里，AI的处理时长翻了近 3 倍。

今天，它已经接管了小时级的工作。

按照这个趋势，不远的未来，它将接管天级甚至周级的工作。

这种速度超越了人类组织的适应能力。

对于企业，不要再把AI当聊天窗口了。

未来，你们招聘的不再是使用AI工具的员工，而是AI员工。

企业的组织架构需要为不知疲倦、偶尔犯错、但速度极快的数字劳动力进行重构了。

对于个人，如果你还在练手速、敲代码，请立刻停止。

你需要磨练的是定义问题、拆解长任务以及评估AI产出的能力。

AI 能搞定16小时的执行工作，但它需要有人告诉它这16小时该干什么。

人类如果不升级为系统设计者或战略决策者，就会掉队!

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-02-25，如有侵权请联系 cloudcommunity@tencent.com 删除

架构

本文分享自 magicyuan的AI随笔记微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

垂直起飞

垂直起飞

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐