首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >垂直起飞

垂直起飞

作者头像
用户11705094
发布2026-07-02 09:23:29
发布2026-07-02 09:23:29
30
举报

AI 能力在很长一段时间里看似在贴地飞行,让人误以为进步缓慢。

但实际上,它一直在积蓄力量,准备迎接那个垂直起飞的时刻。

Anthropic 于2026年2月发布了 Claude Opus 4.6。

由于其 COBOL 代码的强大能力,导致IBM股价在2月23日暴跌超过13%,总市值蒸发了超过316亿美元

从2026年1月开始,由 Anthropic 一系列产品的发布,所触发的美股市值损失,累计达到了万亿美元级别。

而且,在未来12-18个月内,我们将目睹软件生产力及复杂任务处理能力发生质变

一旦80%成功率曲线突破 4 小时,大多数白领的中层工作将被替代。

你以为你还有时间适应,但实际上没有。

图中的METR(Model Evaluation and Threat Research),是一家专注于评估 AI 模型风险和能力的机构。

Linear 表示当前使用的是线性坐标,而非对数坐标。

50% Success 表示数据的标准是 50% 的成功率。

X轴LLM Release Date,是模型发布日期。

Y轴Effective Time Horizon,是有效任务时长。

这里的时长是模型能够独立、连贯地执行任务的时间长度。

如果Y轴显示为 1 小时,意味着该模型能够以 50% 的成功率完成一个人类专家需要花费 1 小时才能完成的复杂软件任务。

绿色或灰色圆点,每一个点代表一个具体的 AI 模型

点上的垂直细线是误差线,代表不确定性范围。

例如 Claude Opus 4.6 虽然点在15小时,但线向下延伸到9小时,向上延伸出画面。

这意味着最可能是15小时,但也可能是9小时,或者更高。

绿色的虚线是拟合趋势线,用来展示 AI 能力增长的总体轨迹。

在2024年之前,线是平的,表示长时程任务这一指标上不明显。

在2024年之后,线开始抬起。

在2026年之后,呈指数级垂直上升。

这预示着我们正处于一个技术爆发的拐点。

AI的能力将不再是线性增长(1, 2, 3...),而是爆发式增长(1, 10, 100...)。

然而,大众对AI的感觉往往是滞后的。

似乎什么都没发生…… 然后突然之间,一切都变了。

因为人类只对小时级尺度的工作开始有明显的感知,对于分钟级别的进步几乎没有感觉。

在2024年之前,尽管技术在快速进步,从30秒翻倍到1分钟,再翻倍到2分钟,但是这些进步对于人们几乎不可见。

一旦基数变大,达到1小时后,情况就不一样了。

下一次翻倍是2小时、再下一次4小时、再再下一次8小时,甚至更多,而且可能在极短的时间内发生。

这张对数图告诉我们:

进步是稳定的,规律是存在的,每4个月(123天)翻一番。

图表顶部的标注Implement complex protocol from multiple RFCs(实现复杂协议)是一个标志性门槛。

这不仅仅是写代码,而是需要阅读长文档、理解抽象逻辑、规划架构、编写代码、调试错误并最终交付。

2026年的顶级模型 Claude Opus 4.6 已经能处理 16小时 级别的任务。

这代表了模型的认知上限。

说明 AI 已经具备了处理人类两天工作量的逻辑深度和记忆广度,虽然这还处于实验室或辅助阶段

对于企业和开发者而言,这意味着必须尽快开始构建适应长时程AI代理的工作流。

在AI评估中,Scaffold指的是包裹在模型外层的代码结构或代理策略。

例如,Reflection、Tool Use、 ReAct、Few-Shot、Plan and Solve、Multi-Agent Collaboration等。

这四张图都是典型的 S 形曲线:

  • 短任务(<15分钟):成功率几乎锁定在 100%。
  • 中任务(15分钟 - 1小时):开始出现抖动,但仍维持高位(>80%)。
  • 长任务(>4小时):成功率呈断崖式下跌。

并且,通过对比 Claude Opus 4.5 和 GPT-5 在 Codex 和 Triframe 脚手架下的表现, 说明:

模型智力是决定性因素, Agent 是辅助性因素。

如果任务太长,必须拆解。

但是,我们依然需要保持一些冷静。

当成功率被设定为 80% , 有效任务时长从 15 小时骤降至 1 小时。

Train Classifier 是一道分水岭。

说明对于数据清洗、写API接口、代码编写、报错调试、参数微调这类任务。

在2026年的今天,你只要下个指令,去喝杯咖啡,回来AI已经搞定了,而且不仅做完了,还做对了。

这意味着 AI 真正具备了商业落地价值。

它正式从 Copilot(副驾驶)晋升为 Intern(实习生)甚至 Junior Engineer(初级工程师)。

人类的角色已经完全转变为架构师和审查者。

在2025年一整年里,AI的处理时长翻了近 3 倍。

今天,它已经接管了小时级的工作。

按照这个趋势,不远的未来,它将接管天级甚至周级的工作。

这种速度超越了人类组织的适应能力。

对于企业,不要再把AI当聊天窗口了。

未来,你们招聘的不再是使用AI工具的员工,而是AI员工。

企业的组织架构需要为不知疲倦、偶尔犯错、但速度极快的数字劳动力进行重构了。

对于个人,如果你还在练手速、敲代码,请立刻停止。

你需要磨练的是定义问题、拆解长任务以及评估AI产出的能力。

AI 能搞定16小时的执行工作,但它需要有人告诉它这16小时该干什么。

人类如果不升级为系统设计者战略决策者,就会掉队!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 magicyuan的AI随笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档