🎬 开篇:一个激进的实验
2025 年 8 月,OpenAI 团队启动了一个激进实验:
完全由 AI 智能体编写代码,构建并维护一个拥有百万行代码的软件产品。
人类工程师的角色从"编写者"转变为"设计者"和"指挥者"。
指标 | 数值 | 含义 |
|---|---|---|
时间 | 5 个月 | 从 0 到 100 万行代码 |
代码量 | 100 万行 | 应用逻辑、测试、CI、文档 |
人工编写 | 0 行 | 完全由 Codex 生成 |
团队规模 | 3-7 人 | 小团队驱动大产出 |
PR 吞吐量 | 3.5 PR/人/天 | 1500 个 PR 合并 |
效率提升 | 1/10 时间 | 相比传统手工编写 |
"人类掌舵,智能体执行。"
这不是未来愿景,而是已经发生的现实。
驾驭工程不是孤立存在的,它处于 AI 工程化链条的顶层:

层级 | 名称 | 解决问题 | 核心关注 |
|---|---|---|---|
L1 | 提示词工程 | "怎么说清楚" | 指令表达、角色设定、输出格式 |
L2 | 上下文工程 | "喂给模型什么" | 消息历史、外部数据、长期记忆 |
L3 | 智能体工程 | "怎么让模型动起来" | 模型、工具、记忆、护栏和控制流编排 |
L4 | 驾驭工程 | "制度化执行环境" | 契约、权限、回滚、审计和熵控制 |
驾驭工程不是把提示词写长一点,而是围绕高自治 AI 模型构建整套可持续执行环境。
它是对前三者的上卷和封装,处于操作系统层。

维度 | 传统方式 | 驾驭工程 |
|---|---|---|
关注点 | 单次对话质量 | 可持续执行环境 |
知识库 | 大 Prompt | 版本化文档仓库 |
验证 | 人工检查 | 机器可验证契约 |
状态管理 | 聊天窗口 | System of Record |
回滚机制 | 无 | Git 回滚点 |
过去的瓶颈:
现在的瓶颈:

2026 年初里程碑:

核心原则:
"Done"不是漂亮的回答,而是可验证的完成。
契约必须包含:
OpenAI 实践:
核心原则:
知识必须离开聊天窗口,进入可发现、可维护、可验证的记录系统。
错误做法:
正确做法:
核心原则:
Agent 不能只读代码,必须能读 UI、看日志、跑测试。
Anthropic 实践:
能力清单:
[ ] 读取 UI(截屏、DOM 快照)
[ ] 查看日志(LogQL 查询)
[ ] 运行测试(自动化测试套件)
[ ] 验证指标(PromQL 查询)
核心问题:
解决方案:
Anthropic 实践:
核心原则:
不能让主 Agent 既当运动员又当裁判。
错误做法:
正确做法:
Anthropic 三智能体架构:
Planner(规划者)→ Generator(生成者)→ Evaluator(评估者)
核心原则:
必须机械化地设定边界,防止系统失控。
关键措施:
OpenAI 实践:
错误:认为长 Prompt=驾驭工程
真相:长 Prompt 只是入口,不是知识库本体
正确做法:
错误:
正确做法:

错误:堆砌工具,认为工具多=能力强
真相:工具过多会提高选择噪声
正确做法:
错误:高风险场景直接上完全自治
正确做法:
错误:依赖 Agent 的口头声明
正确做法:

错误:长时运行系统必有失误,但无恢复机制
正确做法:
错误:过早优化和过度工程
真相:简单结构往往更稳健
正确做法:
中国落地窗口
独特优势:
落地场景广阔:

场景 | 特点 | 优先级 |
|---|---|---|
软件研发 | 证据最强,Harness 方法最先验证 | P0 |
客服与运营 | ROI 最清晰,适合预处理和路由 | P0 |
销售运营 | 典型的"半自动驾驶"场景 | P1 |
制造现场 | 指标硬、验证强,适合岗位能力单元 | P1 |
财务与合规 | 适合做强辅助,最终裁决权在人 | P2 |
企业知识运营 | System of Record 的练兵场 | P2 |

级别 | 名称 | 特征 |
|---|---|---|
L1 | 演示型使用 | 单点任务,人工全程介入 |
L2 | 辅助型使用 | Agent 预处理,人类放行 |
L3 | 半自动驾驶 | 特定场景完全自治 |
L4 | 高度自动驾驶 | 多场景自治,人类监督 |
L5 | 智能共生 | 人机协同,智能体自主决策 |
前 30 天:单 Agent 最小闭环
[ ] 跑通任务切片
[ ] 建立基础契约
[ ] 验证可行性
31-60 天:加状态、回退、接管阈值
[ ] 实现 100 次稳定完成
[ ] 建立外置验证回路
[ ] 定义人工接管阈值
90 天后:扩展至多 Agent 协同
[ ] 关注系统级经营指标
[ ] 多 Agent 协同
[ ] 持续优化熵控制
不再只看"写得像不像",而是关注:
指标 | 说明 | 目标 |
|---|---|---|
高频场景完成率 | 核心任务完成比例 | ≥90% |
异常率 | 需要人工介入的比例 | ≤10% |
人工接管率 | 人类接管任务比例 | ≤5% |
夜间无人值守比例 | 自动化运行比例 | ≥80% |
恢复时长 | 从异常到恢复的时间 | ≤30 分钟 |
过去:
现在:
真正稀缺的不再是模型能力,而是:

驾驭工程的核心在于将人类判断制度化。
学习完成时间: 2026-04-07 21:12
报告撰写: 九章智库 · 半山听雨