信用分配的范式跃迁：当稀疏奖励遭遇百万 Token 长廊

机制链：一个被延迟放大的训练瓶颈

2026 年 4 月，独立研究者 Chenchen Zhang 在 arXiv 发布了一篇系统性综述，将大型语言模型强化学习（LLM RL）中的 信用分配（Credit Assignment） 问题推到了聚光灯下。这不是一个新颖的问题——自 1980 年代 Sutton 提出 Temporal Credit Assignment 以来，它便一直是 RL 的核心难题。但在 LLM 时代，这个问题的规模、形态和紧迫性，都发生了质变。

> 注释：Temporal Credit Assignment > > 由 Richard Sutton 在 1984 年正式定义，指在强化学习中，当一个智能体在一段时间内执行了一系列动作后只收到一个最终奖励时，如何确定过去每个动作对该奖励的贡献程度。这是所有基于延迟奖励的序列决策问题的数学核心。

问题的本质可以用一个简洁的公式概括：

$$\text{CA 难度} \propto \frac{\text{轨迹长度} \times \text{环境随机性} \times \text{动作异质性}}{\text{中间状态可验证性}}$$

> 注释：公式解读 > > 轨迹长度（Trajectory Length）：智能体从起点到终点执行的动作序列长度。越长，越难追溯每个动作的影响。 > > 环境随机性（Environmental Stochasticity）：相同动作是否总是导致相同结果。随机性越高，因果关系越模糊。 > > 动作异质性（Action Heterogeneity）：动作空间中不同类型的动作（如生成文本 vs 点击按钮）混合程度。异质性越高，统一评估越困难。 > > 中间状态可验证性（Intermediate Verifiability）：能否独立判断中间步骤的正确性。可验证性越低，信用分配越依赖间接推断。

在经典的 Reasoning RL 场景中（如 DeepSeek-R1 的数学推理），这个公式的分子相对较小：轨迹长度在 $10^3$ 量级，环境近乎确定，动作类型单一（全部是文本生成），且中间步骤（推导过程）可以通过规则或验证器部分检验。

但在 Agentic RL 场景中，分子急剧膨胀：轨迹长度跃升至 $10^5$–$10^6$ Tokens（100+ 轮交互），环境高度随机（网页加载延迟、弹窗出现时机不可预测），动作异质性极高（点击、滑动、输入文本、等待页面加载、读取视觉信息），且绝大多数中间状态无法被独立验证——你如何判定"在第 37 步点击菜单按钮"这个动作本身是好是坏？

维度	Reasoning RL	Agentic RL	难度放大倍数
轨迹长度	$500$–$30\,000$ tokens	$100\,000$–$1\,000\,000$ tokens	$10\sim100\times$
环境确定性	高（输出决定下一步）	低（随机转移 + 部分可观测）	质变
动作类型	单一（文本生成）	高度异质（点击/滑动/输入/等待/感知）	质变
中间可验证性	高（推导步骤可规则检验）	极低（无法独立判定单步好坏）	质变
信用分配状态	🟢 趋于成熟	🔴 处于萌芽	—

> 注释：Reasoning RL 与 Agentic RL 的范式差异 > > Reasoning RL 训练模型在单次生成中完成复杂推理（如解数学题、写代码）。其关键特征是确定性转移和可验证中间状态——模型生成第 $t$ 个 token 后，下一个状态完全由当前输出决定，且推理链的每一步可以用外部验证器（如代码执行器、数学符号检查器）检验。 > > Agentic RL 训练模型与外部环境进行多轮交互（如操作电脑、使用手机浏览器）。其关键特征是随机性和部分可观测性——环境可能以不可预测的方式响应，且模型无法直接访问系统的全部内部状态（如后台 JavaScript 变量、网络延迟）。

---

二维分类：47 种方法的全景图谱

Chenchen Zhang 的核心方法论贡献，是将 2024 年至 2026 年初发表的 47 种信用分配方法（41 种核心方法 + 6 种辅助技术）组织进一个二维分类体系。

第一维度：分配粒度

粒度决定了奖励信号被拆解的精细程度：

粒度层级	描述	代表方法	适用场景
Token 级	精确到单个词元的贡献	VinePPO	短文本生成、代码补全
Segment 级	分配到连续片段	SPO, SCAR	中等长度推理链
Step 级	分配到逻辑步骤	PURE, HICRA, SPRO, PRM 系列	数学推理、链式思维
Turn 级	分配到对话/交互轮次	AgentPRM, ArCHer, C3, CCPO	多轮工具使用、GUI 操作
Multi-Agent 级	分配到多个智能体	CARL, 博弈论方法	多智能体协作

> 注释：各粒度的技术本质 > > - Token 级：利用策略梯度估计每个 token 对最终回报的边际影响。计算成本高，但在短序列上精度最优。 > - Segment 级：将连续 token 分组，降低方差。SPO（Segment Policy Optimization）通过动态分段平衡精度与效率。 > - Step 级：与人类标注的"推理步骤"对齐。PRM（Process Reward Model）为每个推理步骤打分，但依赖昂贵的步骤级标注。 > - Turn 级：将交互历史按轮次切分。适用于 Agentic 场景，但面临"单轮内部如何再分配"的子问题。 > - Multi-Agent 级：引入博弈论工具（如 Shapley 值）计算每个智能体对团队回报的边际贡献。

第二维度：方法论家族

方法论	核心思想	代表方法	特点
Monte Carlo	多采样估计期望回报	VinePPO, SPO, SCAR	无偏但方差大，适合短轨迹
Temporal Difference	自举（bootstrapping）减少方差	PRM, AgentPRM, PURE	依赖价值估计的准确性
Model-based	学习环境模型进行规划	ArCHer	可以"想象"未来，但模型误差会累积
Game-theoretic	博弈论分配边际贡献	SCAR (Shapley), C3, CCPO	理论基础扎实，计算昂贵
Info-theoretic	信息增益驱动	CAPO	衡量动作带来的信息价值

分类揭示的结构

将两个维度交叉，可以观察到明显的密度不均衡：

密度分布图（概念性）：

Token 级    ████████████████████  VinePPO 一家独大
Segment 级  ████████              SPO, SCAR 填补空白
Step 级     ████████████████████████████  PRM 家族繁荣
Turn 级     ████                  Agentic 方法稀疏且分散
Multi-Agent ██                    仅 6 篇专用论文

            MC    TD   Model  Game  Info
            ─────────────────────────────
Token       ████
Segment     ████                  ████
Step        ████  ████████████████████
Turn              ████  ████   ████  ████
Multi-Agent             ████   ████

这个分布暴露了一个核心事实：Step 级以下的信用分配已经形成了相对稳定的技术栈，但 Turn 级及以上的 Agentic 场景仍是一片待开垦的土地。

---

Reasoning CA：一个正在收敛的技术栈

在 Reasoning RL 领域，信用分配已经呈现出收敛迹象。Chenchen Zhang 将这一领域的证据级别标注为 [SE]（强实证支持），并识别出两条主线：

主线一：Process Reward Model（PRM）范式

PRM 的核心是将终端奖励分解为逐步奖励：

$$R(\tau) = \sum_{i=1}^{T} r_i \quad \text{其中} \quad r_i = \text{PRM}(s_i, a_i)$$

> 注释：PRM 的数学本质 > > $R(\tau)$ 是整条轨迹 $\tau$ 的总奖励，$r_i$ 是第 $i$ 步的过程奖励，由过程奖励模型 PRM 根据状态 $s_i$ 和动作 $a_i$ 估计。PRM 的训练通常需要人工标注或自动构造的"步骤级正确性标签"，这是其最大的成本瓶颈。

从 Math-Shepherd 到 OmegaPRM，再到 PURE 和 SPRO，PRM 家族的核心改进集中在两个方向：降低标注成本（通过自动生成步骤标签）和提高泛化性（通过更好的模型架构）。

主线二：Critic-Free 组比较

GRPO 及其变体代表了另一条更"轻量"的路径。其数学直觉可以概括为：

$$\nabla_\theta J \approx \mathbb{E}\left[ \sum_{i=1}^{G} \frac{\pi_\theta(a_i|s)}{\pi_{\theta_{\text{old}}}(a_i|s)} \cdot A_i \right]$$

其中优势函数 $A_i$ 通过组内相对归一化计算，不需要单独的 Critic 网络。

> 注释：GRPO 的优势函数计算 > > GRPO 从同一问题采样 $G$ 条答案（一个"组"），将组内奖励归一化得到优势值： > $$A_i = \frac{R_i - \text{mean}(\{R_j\}_{j=1}^G)}{\text{std}(\{R_j\}_{j=1}^G)}$$ > 这意味着答案的质量不是绝对判断的，而是相对同一组其他答案判断的。这种方法在最终奖励稀疏但可比较的场景下非常有效——比如同一道数学题的不同解法。

然而，GRPO 的有效运行依赖一个关键假设：组内样本具有可比性。 在 Reasoning 场景下，这个假设成立——同一道题的多个答案，最终对错可以直接比较。但在 Agentic 场景下，这个假设崩塌了：两次独立的手机操作任务，即使从相同初始状态开始，也可能因为环境随机性而在第 5 步就进入完全不同的状态空间，之后的步骤不再具备可比性。

---

Agentic CA：新生的方法论家族

Agentic RL 的信用分配问题，正在催生一批在经典 RL 中没有直接对应物的新方法。Chenchen Zhang 将这些方法的证据级别标注为 [LS]（有限但暗示性），表明领域仍处于早期探索阶段。

家族一：Hindsight & Counterfactual（后见之明与反事实）

核心思想：利用已经完成的轨迹信息，事后重构"如果当时做了不同选择会怎样"。

方法	机制	关键创新
HCAPO	用生成式验证扩展后见信用	LLM 生成反事实轨迹进行事后评估
C3	Leave-one-out 分析	移除单个 Agent 轮次观察对团队回报的影响
CCPO	反事实策略优化	通过环境重执行或模型近似估计反事实基线

> 注释：反事实分析（Counterfactual Analysis） > > 反事实分析源于因果推断领域，核心问题是："如果当时采取了不同的行动，结果会如何？"在 Agentic RL 中，这通常通过环境重执行（re-execution）实现——将轨迹回退到某个决策点，尝试替代动作，观察新的结果。 > > 挑战在于：许多真实环境（如网页、手机 App）不支持完美的状态保存和回退，因此研究者也开发了模型近似方法——训练一个环境模型来"想象"反事实结果。

Chenchen Zhang 注意到一个 bibliometric 信号：2026 年 3 月，单一周内就有三篇独立的反事实信用分配论文同时出现。 这不是巧合，而是领域加速的标志。

家族二：Hierarchical Architectures（层级架构）

方法	层级设计	解决的核心问题
ArCHer	高层策略选择子目标，低层策略执行	长 horizon 中的信用稀释
CARL	聚焦关键动作（Critical Actions）	少数动作决定成败的稀疏性

层级架构的直觉是：与其在百万 Token 的长廊中为每一步分配精确的信用，不如先将轨迹分解为"元动作"（macro-actions），在高层分配信用，再在低层细化。这类似于人类的管理结构——CEO 不负责审批每一笔报销，只负责战略决策。

家族三：LLM-as-Critic

这是最具 LLM 时代特色的方法论分支。其核心机制是：利用大语言模型的语义理解能力，对中间状态进行自然语言评估。

方法	Critic 形式	评估对象
CAPO	LLM 生成的信息增益评分	动作的信息价值
SWEET-RL	LLM 语义评判	交互步骤的合理性
LaRe	LLM 语言化奖励	中间状态的描述性评价
CriticSearch	LLM 驱动的搜索式评估	多候选步骤的比较排序

> 注释：为什么 LLM-as-Critic 是独特的？ > > 经典 RL 的 Critic 接收数值状态向量，输出标量价值 $V(s) \in \mathbb{R}$。这个设计假设状态的"好坏"可以用单一数值衡量。 > > 但 LLM 面对的中间状态（如一张手机截图 + 已执行动作历史）的"好坏"是多维且语义丰富的。用 $+0.5$ 还是 $-0.2$ 来评价"当前打开了设置菜单但还没找到蓝牙选项"，既损失信息又难以解释。 > > LLM-as-Critic 让 Critic 输出自然语言评价——"步骤正确，但方向需要调整"——这种评价既可以作为训练信号，也可以被人类理解和调试。这是传统数值 Critic 无法提供的。

---

开放问题与研究路线图

综述的最后部分勾勒了信用分配领域的前沿开放问题：

问题域	核心挑战	当前状态
Multi-Agent 信用	多个 LLM Agent 协作时，如何区分个体贡献与团队涌现？	仅 6 篇专用论文，从" nascent "到" active front "
Ultra-Long Horizons	$10^6+$ token 的交互，现有方法的计算和方差如何控制？	几乎没有系统研究
Exploration-Credit 耦合	信用分配依赖足够的探索覆盖，但探索本身又受信用信号引导——如何打破这个循环依赖？	未被明确讨论
LLM-as-Critic 的可靠性	LLM 裁判是否比传统价值函数更稳定？是否存在系统性的评判偏见？	完全开放的实证问题

Chenchen Zhang 的结论是审慎的：Agentic RL 不是 Reasoning RL 的简单扩展，它质性地重塑了信用分配的问题景观。 Reasoning CA 的成熟工具（GRPO、PRM）在 Agentic 场景中面临根本性失效，而新工具（反事实分析、层级架构、LLM-as-Critic）仍处于概念验证阶段。

---

结构性结论

这项综述的价值不仅在于整理，更在于制图。它用一张二维分类表，让一个原本模糊的方法论空间变得可导航。对于从业者，这张表是一个方法选择决策树的起点；对于研究者，它揭示了系统性的空白地带——尤其是 Turn 级和 Multi-Agent 级信用分配的稀疏性。

一个值得关注的结构性信号是：这篇综述由独立研究者完成，而非某个大型实验室。 这可能暗示信用分配作为一个跨领域的基础问题，其重要性尚未被工业界的资源分配机制充分识别。在 2025–2026 年的 LLM 竞赛中，算力和数据仍然是显性的竞争维度，而信用分配这类"训练基础设施"问题，可能正处于被低估的窗口期。

---

📚 论文详细信息

> 标题: From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models > > 作者: Chenchen Zhang（Independent Researcher） > > 机构: Independent Researcher > > arXiv ID: 2604.09459 > > 发布日期: 2026 年 4 月 10 日（v1），2026 年 4 月 13 日（v2） > > 分类: cs.CL（Computation and Language） > > GitHub 资源: Awesome-Credit-Assignment-in-LLM-RL > > 文献覆盖: 2024 年 1 月至 2026 年 4 月，47 种方法（41 种核心 CA 方法 + 6 种辅助技术），通过 arXiv、Semantic Scholar、Google Scholar 关键词搜索 + 前向/后向引文追踪 + 主要会议系统监测（NeurIPS、ICML、ICLR、ACL 2025） > > 核心贡献: > - 首个专注于 LLM RL 信用分配的系统性综述 > - 二维分类体系：粒度 × 方法论 > - 三类可复用资源：机器可读论文清单（CSV/JSON）、报告检查清单、基准协议规范 > - 明确刻画 Reasoning → Agentic 的质性跃迁 > > 关键数字: > - 47 种方法 surveyed > - 41 种核心 CA 方法 + 6 种辅助技术 > - Reasoning 轨迹长度：$500$–$30\,000$ tokens > - Agentic 轨迹长度：$100\,000$–$1\,000\,000$ tokens（100+ turns） > - Multi-Agent CA 论文：6 篇（从 nascent 到 active front 的增长） > - 2026 年 3 月：单周三篇反事实 CA 论文同时出现