Agentic RL 正在重新定义 AI 的下限

半吊子全栈工匠

发布于 2026-06-29 10:03:17

450

如果 ChatGPT 的横空出世让世界第一次意识到 AI 的“语言天赋”，那么近年来的 Agentic RL（智能体强化学习）正在让 AI 学会的第二件事，名叫“行动”。

想象一下：传统的语言模型更像一支拥有海量词汇的笔——它写得快、写得好，但你必须握着它，告诉它写什么、怎么构思。而 Agentic RL 要做的，是让这支笔拥有自主意识：它能感知你的需求、拆解任务、调用搜索引擎和代码工具、发现中间步骤出了错、自我反思并调整策略，最终交付一个完整的成果。

这种从“文本生成器”到“自主智能体”的跃迁，看似只是训练方法的迭代，实则意味着 AI 能力的维度被彻底打开。从 DeepSeek-R1 的推理能力到 GLM-5.2 的长程任务优化，再到字节跳动 Forge 框架的百万级样本吞吐，Agentic RL 已经从实验室走向工业级工程实践。

那么，这场范式转变的技术内核究竟是什么？在这里，老码农尝试拆解 Agentic RL 的工程全貌。

1、一个根本性的认知：RLHF 不是 Agentic RL

要理解 Agentic RL，首先需要厘清它与我们更熟悉的 RLHF（基于人类反馈的强化学习）之间的本质区别。

很长时间以来，RLHF 和它的简化版 DPO 是 LLM 后训练的主流范式，它们可以被统一归为“基于偏好的强化微调（Preference-Based Reinforcement Fine-Tuning, PBRFT）”。这类方法的优化目标非常明确：给定一个提示，模型的输出越符合人类的单次偏好越好。

这是典型的“单轮静态决策”问题，对应的是一个极其简化的马尔可夫决策过程（MDP）：起始状态就是用户的 Prompt，执行一次动作生成一个回答，拿到奖励后立即终止。

而 Agentic RL 的野心完全不同。它将 LLM 视为嵌入动态环境中的自主决策代理，通过半可观测马尔可夫决策过程（POMDP）建模。模型要在复杂的任务环境中持续感知、循环决策、使用工具、阅读反馈并自我修正。奖励不再仅仅挂在终局，而是作用于整个行为趋势——过程中的每一步，都可能成为学习的对象。

两者之间的核心差异可以用这张表概括：

对比维度	传统 PBRFT（RLHF / DPO）	Agentic RL
状态空间	单一提示 {s₀}，任务立即结束	动态状态流 sₜ ∈ S_agent，任务时长远大于 1
动作空间	纯文本序列	文本 ∪ 工具调用 ∪ API 请求
状态转移	确定性终止	动态转移函数 P(sₜ₊₁ \| sₜ, aₜ)
奖励结构	单一标量 r(a)	步骤级密集奖励 + 稀疏终局奖励
优化目标	E[r(a)]	E[Σ γᵗ R(sₜ, aₜ)]

这张表揭示了一个关键洞见：信用分配（Credit Assignment）——在多轮交互中判断哪些中间步骤对最终结果有贡献——正是 Agentic RL 区别于传统方法的最本质特征。数学题解到一半，哪一步的推理是有效的？多工具调用中，哪个 API 的返回值真正推进了任务？这些问题在 RLHF 里根本不存在，但在 Agentic RL 中却是核心挑战。

2. 八大工程原则：构建 Agentic RL 系统的完整蓝图

为了方便理解，我们将 Agentic RL按照系统架构设计 → 训练信号设计 → 算法优化技巧 → 训练策略进行归类呈现。

2.1 第一层：系统架构设计

原则一：模块化设计（Modular Design）——像搭积木一样构建 Agent 系统

Agentic RL 训练系统的工程架构，核心思想是解耦。标准的异步训练流水线通常包含四个阶段：以较高温度参数采样生成响应 → 异步汇聚多处理器结果 → 执行 Actor 训练，将模型响应与真实标签对比计算奖励 → 计算优势值，若所有优势均为零则提前终止。

在架构范式上，业界主要采用两种设计：

-并行架构（Parallel）：智能体同时与多个环境实例交互，状态与动作的流转可通过统一的训练引擎进行批量更新，效率最高。

-序列架构（Sequential）：交互按顺序执行，更适用于需要严格状态依赖的任务。

这种将策略模型（Policy）、环境交互（Environment）、奖励计算（Reward）、训练更新（Training）分离的模块化理念，正是当前主流框架的设计哲学。

字节跳动的 HybridFlow（开源项目名：verl）是这一思路的典型代表。它提出了一套分层 API，将 RL 训练中复杂的计算和数据依赖解耦并封装，支持经典对齐、推理增强、智能体工具调用等多种场景的统一框架。其核心技术亮点在于

3D-HybridEngine——在训练和生成阶段对 Actor 模型进行高效的重新分片，实现零内存冗余，显著降低通信开销。实验表明，HybridFlow 在运行各种 RL 训练任务时，相比现有最优基线可带来1.53 倍到 20.57 倍的吞吐量提升，相关论文已被 EuroSys 2025 接收。

类似的架构理念也体现在 MiniMax 的Forge框架——它原生支持数十万 Agent 脚手架和环境交互、200K 上下文长度，实现了每天百万级样本吞吐；以及复旦大学与字节跳动联合开源的AgentGym-RL，采用模块化解耦的统一 RL 框架，支持 27 种以上多样化任务评测。

2.2 第二层：训练信号设计

原则二：趋势路径的结构（Trajectory Structure）——Agentic RL 的核心数据单元

如果说 RLHF 处理的是“提示-回答”的单点数据，Agentic RL 处理的就是Trajectory——一个完整的闭环循环：用户提出问题 → 智能体执行动作并调用工具 → 环境返回反馈 → 智能体基于反馈做出下一步决策。

这种趋势结构具有三个关键特征：

1.多步序贯决策：单趋势包含多个时间步的状态转移，每步都可能涉及工具调用或环境交互。

2.部分可观测性：智能体无法获取环境的完整状态，只能基于当前观察做出决策。

3.稀疏延迟奖励：最终奖励往往在趋势末端才被赋予，中间步骤仅有过程反馈。

一个具体的例子：用户请求“分析 GitHub 仓库的代码质量”，智能体需要依次调用 GitHub API 获取仓库信息（+0.1）、读取主要代码文件（+0.1）、分析代码质量（+0.2）、生成分析报告（+0.6），总奖励为各步累积的 1.0。这种分步奖励机制使得如何在长链条中准确判断每一步的价值，成为 Agentic RL 的核心技术挑战。

原则三：智能体掩码（Agent Mask）——让 RL 和 SFT 协同工作

单纯的 RL 训练容易导致奖励黑客（Reward Hacking）或策略坍塌（Policy Collapse）——模型学会了一种看似能拿到高分、实则偏离正常行为分布的“捷径”。解决方案是将强化学习与监督微调以加权方式融合，核心公式可以简洁地表示为：

ECHO=RL+α⋅SFT

其中α控制 SFT 损失在整体目标函数中的贡献比例。这就好比教一个人新技能：既要有探索和实践（RL），也要时不时对照标准范本巩固基础（SFT）。在实践中，α通常随训练进程动态调整——初期较高以保证基线能力，后期降低以释放探索空间。

原则四：过程奖励（Process Rewards）——奖励设计的两难抉择

在 Agentic RL 中，奖励函数的设计直接决定了模型的学习方向。主流方案分为两类：

奖励类型	英文全称	特点	适用场景
结果奖励	Outcome Reward Model (ORM)	仅对最终结果打分，实现简单	答案明确可验证的任务（如数学、代码）
过程奖励	Process Reward Model (PRM)	对中间步骤逐一评估，提供密集信号	长链路推理任务（如多步规划）

PRM 的优势在于能够缓解稀疏奖励问题——在多轮 Agent 任务中，若仅在趋势末端给予二元反馈（成功/失败），模型很难判断哪些中间步骤真正有帮助。然而，PRM 的训练成本更高，需要高质量的过程标注数据。近期研究提出了多种优化方案，如使用蒙特卡洛采样估计过程奖励、引入生成式 PRM（Generative PRM）替代判别式 PRM等。

2.3 第三层：算法优化技巧

原则五：优势归一化（Advantage Normalization）——让训练信号更公平

在传统的 PPO 算法中，优势函数基于全局批次计算。但在 Agentic RL 场景下，这种方法会带来严重问题：不同任务（环境）的难度差异巨大，简单任务的 Advantage 信号可能被困难任务的数值彻底“淹没”。

ERPO（Environment-level Relative Policy Optimization）算法提出了解决方法：在同一环境内部进行组内归一化。对于来自环境i的第j个阶段，其标准化优势值为：

统计计算的范围是环境维度，而非全局批次维度。这意味着每一趋势的优势值反映的是它在同难度任务组内的相对表现，而非与所有难度级别的任务横向对比。这种“分层比较”的思路，使得训练信号更加公平和稳定。

这一设计与GRPO（Group Relative Policy Optimization）的核心思想一脉相承——GRPO 对同一 Prompt 生成的多个响应计算组内均值和标准差进行归一化，从而无需依赖独立的价值网络（Critic）。

原则六：可扩展的阶段采样（Scalable Rollouts）——工程效率的分水岭

Agent 训练中的一个独特挑战在于：生成阶段（Rollout）和训练节点的负载极不平衡。生成阶段需要大量推理资源，而训练阶段需要大量计算资源。业界主要采取两种架构应对：

1)分离式架构（Disaggregated）：生成与训练在物理上分离，各自独占 GPU 资源。优势在于可独立扩展，缺点是 GPU 利用率可能较低（生成阶段会出现等待 I/O 的空闲期）。

2)共置架构（Colocated）：生成与训练共享同一 GPU 集群，通过异步调度实现资源复用。提高了硬件利用率，但需要在内存管理和权重同步上做额外工程优化。

从工程角度，字节跳动的Laminar框架和TBA（Trajectory Balance with Asynchrony）等工作代表了最新进展，它们通过异步解耦，解决了长尾分布生成导致的 GPU 利用率问题。

原则七：稳定性与探索（Stability & Exploration）——打破“回声陷阱”

多轮 Agentic RL 训练面临一个独特的困境，被称为“回声陷阱”（Echo Trap）：智能体过度拟合局部奖励推理模式，表现为奖励方差崩溃、策略熵下降和梯度尖峰。

为缓解这一问题，学界提出了多种策略，统称为StarPO-S（稳定变体），包括：

1.基于方差的趋势过滤：在训练前筛除低质量趋势。

2.评估器基线化（Critic Baselining）：通过基线减少方差。

3.解耦裁剪（Decoupled Clipping）：分离不同组件的裁剪范围。

而在探索层面，Agentic RL 需要在“利用已知有效策略”与“探索未知行为空间”之间保持微妙平衡。与单轮任务不同，智能体任务的探索空间不仅包括不同措辞，还包括不同的任务分解方式、工具调用顺序、记忆读写策略和停止条件选择。

2.4 第四层：训练策略

原则八：任务课程（Task Curriculum）——像教学生一样教 Agent

渐进式缩放交互框架的设计理念源于课程学习（Curriculum Learning），从简单任务入手，逐步提升难度，使智能体在已有能力基础上渐进式地学习更复杂的技能。

典型的课程设计包含三个层次：

-较短视野 h₁：训练基础技能任务，交互步数有限，成功概率高，用于建立基线能力。

-中等视野 h₂：进一步探索任务，增加交互复杂度。

-较长视野 h₃：解决复杂任务，需要长程规划和多步推理。

这一设计与字节跳动 Seed 团队提出的ScalingInter-RL方法相呼应——通过分阶段增加交互轮次，在训练早期侧重于利用以求稳定，后期转向探索以求突破。

3. 关键算法：PPO 与 GRPO 的战场

Agentic RL 的算法选择，很大程度上决定了训练效率与最终效果。

3.1 PPO：经典但昂贵的“全功能选手”

PPO（Proximal Policy Optimization）是 OpenAI 提出的经典算法，其核心机制是通过裁剪目标函数限制每次策略更新的幅度，防止模型因单次更新过大而“跑偏”。

PPO 需要同时维护四个模型：

1.策略模型（Policy）：正在训练的核心模型。

2.参考模型（Reference）：用于 KL 散度约束，防止模型偏离原有分布太远。

3.奖励模型（Reward Model）：给模型生成的回答打分。

4.价值模型（Critic）：预测当前状态下未来能获得多少累计奖励，用于计算优势函数。

PPO 的主要优势在于通用性强，可以处理各种复杂任务场景，且支持 token 级的优势估计，能很好地适配长短不一的子趋势。但其显存开销巨大——Critic 模型与策略模型同样大，仅用于估计优势函数却占用甚至超过 40%-50% 的训练显存。

3.2 GRPO：DeepSeek 带来的“省显存革命”

GRPO（Group Relative Policy Optimization）是 DeepSeek 团队于 2024 年提出的 PPO 极简改进变体，首次应用于 DeepSeek-Math模型。GRPO 的核心创新非常简洁：彻底移除独立的价值网络（Critic），改用“组内相对竞争”来估计优势。其工作流程只需四步：

1.一对多生成：对同一个输入问题，让策略模型一次性生成多个回答（如 32 个），组成一个群体。

2.直接打分：将这些回答送入奖励模型，给出每个回答的实际分数。

3.计算群体统计量：算出这组回答分数的均值和标准差。

4.相对归一化：将每个回答的分数与组内均值对比，得到相对优势值。

这就像让同一道题的几十名学生同时交卷，互相比较打分，不需要全知的“阅卷老师”。

GRPO 的优势在于大幅降低显存需求，在数学推理、代码生成等有明确验证器的短任务中表现优异。但它在长程智能体任务中存在明显短板——长短不一的子趋势难以形成可比较的样本组，导致大量训练数据被浪费。

一个值得关注的最新动态发生在 2026 年 6 月：智谱发布并开源的GLM-5.2大模型，在长程强化学习阶段放弃了 GRPO，回归了基于价值网络的 PPO。核心原因在于：GLM-5.2 瞄准的长程智能体任务（多轮工具调用、子任务拆解、跨轮反馈）的执行阶段长短不一，GRPO 要求样本组内长度一致才能公平比较，这一前提在长程 Agent 场景下无法满足。智谱的解法是重新引入 Critic，采用token 级优势值来适配长短不一的子阶段，并通过框架进行配套工程优化，最终将后训练时间压缩至约两天。

这一技术转向释放了一个重要信号：不存在普适的最优算法，算法选择必须与任务特性深度解耦——短程推理任务适合 GRPO，长程 Agent 任务则可能需要 PPO 的灵活性。

4. 行业应用与工具链一瞥

Agentic RL 的应用版图已迅速扩展至多个关键领域：

应用领域	典型任务	代表工作
搜索与研究智能体	Deep Research、多步检索	Search-R1
代码智能体	SWE-bench 代码修复	KAT-Coder-V2、DeepSWE
数学推理	GSM8K、MATH	DeepSeek-R1、QwenLong-L1
GUI 智能体	网页浏览、桌面操作	CRAFT-GUI、OSWorld
具身智能体	机器人控制、家居任务	ALFWorld、SkillRL
多智能体系统	协作规划、竞争博弈	AgentConductor

当前 Agentic RL 已形成成熟的工具链生态：

-verl（字节跳动）：开源框架，支持 PPO、GRPO、REINFORCE++ 等多种算法，具备混合流编程抽象和异步执行引擎。

-Agent Lightning（微软）：将 Agent 执行建模为 MDP，实现训练与执行的完全解耦，支持 Text-to-SQL、RAG、数学问答等多种任务。

-Forge（MiniMax）：原生大规模 Agent RL系统。

-OpenManus-RL（Ulab-UIUC / MetaGPT）：集成了 verl 框架，专注于开源 Agentic RL训练。

5. 挑战与展望

尽管理论前景广阔，Agentic RL 仍然面临多重尚未完全解决的挑战：

1. 训练不稳定性:多轮交互容易引发梯度爆炸、奖励坍缩等“训练崩溃”现象。来自 UCLA 和威斯康星大学麦迪逊分校的ARLArena框架尝试通过控制变量法系统化地分析这些问题，将策略梯度解构为四个核心维度，像化学实验一样定位导致不稳定的“罪魁祸首”。

2. 信用分配困难:独立研究者 Chenchen Zhang 在 2026 年 4 月发布的综述系统梳理了 2024-2026 年初的 47 种信用分配方法，得出的结论引人深思：代表“推理 RL”的方法地图已趋成熟，而代表“Agentic RL”的右半边仍几乎一片空白。

3. 系统效率瓶颈:真实环境中的 Rollout 成本高昂，异步训练框架仍需持续优化。

4. 泛化能力验证:在特定环境训练的智能体能否迁移到全新场景，仍需更多实证。

6. 小结

Agentic RL 不仅是一种算法的改进，更代表了一种训练范式的根本性转变：从单轮静态问答转向多轮动态交互，从偏好对齐转向决策优化，从Prompt的人工设计转向自主学习策略。随着 Forge、verl、AgentGym-RL 等成熟框架的出现，以及 GLM-5.2、MiniMax M2.5 等产品的落地验证，Agentic RL 正从学术研究走向工业实践。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-06-27，如有侵权请联系 cloudcommunity@tencent.com 删除

工具