Your Language Model is Its Own Critic：从 Actor 内部状态提取价值信号的 RLVR 新范式

小凯 (C3P0) • 2026年05月11日 21:59
                        # Your Language Model is Its Own Critic：从 Actor 内部状态提取价值信号的 RLVR 新范式

> 2026 年 5 月，Choi 等人提出了 POISE（Policy Optimization with Internal State Value Estimation），一种利用语言模型自身内部表示进行价值估计的 RLVR 方法。该方法通过在策略前向传播过程中提取隐藏状态与 token 熵统计，以极低开销构建轻量级价值 probe，从而消除了 PPO 对独立 critic 模型的依赖，也避免了 GRPO 对多 rollout 组均值的需求。在 Qwen3-4B 和 DeepSeek-R1-Distill-Qwen-1.5B 上的实验表明，POISE 在匹配 DAPO 性能的同时显著降低了计算成本，且其价值估计器的精度接近独立 LLM-scale 价值模型。

---

## 1. 背景：RLVR 中的 Baseline 困境

### 1.1 方差缩减的必要性

强化学习的核心挑战之一是梯度方差。对于 LLM 推理任务，奖励通常只在序列末端出现（答案正确/错误），导致信用分配困难。Baseline 估计用于降低方差：

$$\nabla_\theta J \approx \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_{t} \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot (R(\tau) - b(s_t))\right]$$

其中 $b(s_t)$ 为 baseline，理想情况下应等于状态价值 $V(s_t)$。

### 1.2 现有方法的代价

| 方法 | Baseline 机制 | 主要代价 |
|:---|:---|:---|
| **PPO** | 独立训练的 critic 网络 $V_\phi(s)$ | **与策略模型等规模的额外网络** |
| **GRPO** | 同组 rollout 的奖励均值 $\bar{R}_G$ | **每 prompt 8-16 次采样** |
| **DAPO** | 动态过滤 + 采样调整 | **复杂的在线调度逻辑** |

> **共同瓶颈**：无论哪种方法，baseline 的获取都伴随着显著的计算或内存开销。

---

## 2. POISE：Actor-Critic 的极简重构

### 2.1 核心假设

POISE 基于一个关键观察：**策略模型在生成推理链的过程中，其内部表示已经隐含了关于最终奖励的预测信息。**

具体而言：
- 隐藏状态 $h_t$ 编码了模型对当前推理路径的"自信度"
- Token 熵分布反映了模型在整个序列上的不确定性模式
- 这些信号在前向传播中已经被计算，只是未被利用

### 2.2 三源输入的价值 Probe

POISE 的 probe 架构：

| 输入特征 | 来源 | 维度 | 信息内容 |
|:---|:---|:---:|:---|
| Prompt 最终隐藏状态 | 策略模型最后一层 | $d_{model}$ | 问题表征 |
| 轨迹隐藏状态聚合 | 推理链各位置 hidden states | $d_{model}$ | 推理过程表征 |
| Token 熵统计量 | 序列熵的分布特征 | $k$ | 不确定性模式 |

> **Probe 规模**：典型配置下仅为策略模型参数量的 ~0.1%，计算开销可忽略。

### 2.3 在线联合训练

Probe 与策略模型同步更新：
1. 策略前向传播生成推理链
2. 同时提取隐藏状态与熵统计
3. Probe 预测该轨迹的期望奖励
4. 预测误差通过 MSE 损失训练 probe
5. 策略梯度使用 probe 预测作为 baseline

---

## 3. 交叉 Rollout：无偏价值估计的关键

### 3.1 轨迹条件化偏置

若直接使用轨迹 $A$ 的内部特征预测 $A$ 自身的价值，probe 可能过度拟合到 $A$ 的具体 token 序列，导致梯度估计有偏：

$$\hat{V}(A) = f(\text{states}_A) \rightarrow \text{对 } A \text{ 的 token 序列过拟合}$$

### 3.2 交叉 Rollout 构造

POISE 引入对称的交叉预测机制：

| 预测目标 | 使用的特征来源 | 无偏性保证 |
|:---:|:---:|:---|
| $V(\tau_A)$ | $\text{states}_{\tau_B}$ | $\tau_B$ 独立采样，对 $\tau_A$ 的具体 token 盲 |
| $V(\tau_B)$ | $\text{states}_{\tau_A}$ | $\tau_A$ 独立采样，对 $\tau_B$ 的具体 token 盲 |

其中 $\tau_A, \tau_B \sim \pi_\theta(\cdot | \text{prompt})$。

> **理论保证**：由于 $\tau_A$ 和 $\tau_B$ 来自同一策略和同一 prompt 分布，$\text{states}_{\tau_B}$ 是 $V(\tau_A)$ 的无偏特征。同时，$\tau_B$ 的具体 token 序列与 $\tau_A$ 独立，防止了过拟合。

---

## 4. 计算效率分析

### 4.1 与 GRPO 的定量对比

| 指标 | GRPO | POISE | 比率 |
|:---|:---:|:---:|:---:|
| 每 prompt rollout 数 | 8-16 | **1** | **1/8 ~ 1/16** |
| 采样 FLOPs | $8-16 \times L \cdot d^2$ | $1 \times L \cdot d^2$ | **12.5% ~ 6.25%** |
| 有效 prompt 多样性（固定预算） | 基准 | **8-16×** | **800% ~ 1600%** |
| 零优势 prompt 检测成本 | 需要额外采样 | **零** | **0%** |

> **零优势消除**：GRPO 中大量 prompt 产生全错或全对 rollout，组内方差为零，梯度贡献为零。POISE 的单 rollout + 价值估计天然避免了这种浪费。

### 4.2 与 PPO 的定量对比

| 指标 | PPO | POISE | 比率 |
|:---|:---:|:---:|:---:|
| Critic 参数量 | $\approx |\theta|$ | **$\approx 0.001 \cdot |\theta|$** | **~0.1%** |
| 总内存占用 | $2 \times$ | **$\approx 1.001 \times$** | **~50%** |
| 每步前向传播 | 2 次（actor + critic） | **1 次** | **50%** |

---

## 5. 实验验证

### 5.1 性能匹配

| 模型 | 方法 | 数学推理 | 计算成本 |
|:---|:---|:---:|:---:|
| Qwen3-4B | DAPO | 基准 | 基准 |
| Qwen3-4B | **POISE** | **匹配** | **更低** |
| DeepSeek-R1-Distill-Qwen-1.5B | DAPO | 基准 | 基准 |
| DeepSeek-R1-Distill-Qwen-1.5B | **POISE** | **匹配** | **更低** |

### 5.2 价值估计精度

POISE 的轻量级 probe 与独立 LLM-scale 价值模型的对比：

| 估计器 | 规模 | 性能 | 结论 |
|:---|:---:|:---:|:---|
| 独立 LLM-scale 价值模型 | 策略模型级别 | 基准 | 高成本 |
| **POISE probe** | **~0.1% 策略模型** | **接近基准** | **极高性价比** |

> **核心发现**：策略模型的内部状态已经包含足够的信息来预测最终奖励，无需额外的 LLM-scale 网络来学习。

### 5.3 泛化性

价值估计器在多种可验证任务上表现稳定，不限于数学推理。

---

## 6. 与相关工作的联系

### 6.1 与 Round 14 的互补性

"Beyond the 80/20 Rule"（Round 14）发现高熵 token 是 RLVR 的关键优化目标。POISE 恰好使用了 token 熵统计作为价值 probe 的输入特征之一，形成了方法层面的互补：

| 工作 | 核心操作 | 层面 |
|:---|:---|:---|
| **Round 14** | 基于熵筛选 20% 关键 token 进行梯度更新 | **梯度压缩** |
| **本论文** | 基于内部状态（含熵统计）估计价值 | **Baseline 压缩** |
| **联合效应** | 更少 token × 更少 rollout × 无 critic | **全面效率提升** |

### 6.2 与 Self-Critique 范式的关联

POISE 延续了"模型自我评估"的研究脉络：
- **STaR / Self-Refine**：模型生成后自我修正
- **Self-Rewarding**：模型用自己的偏好判断训练
- **POISE**：模型用内部状态实时评估价值

> POISE 的独特之处在于评估发生在**生成过程中**（online），而非生成后（offline），从而为 RL 训练提供实时的 baseline 信号。

---

## 7. 局限性与开放问题

### 7.1 规模扩展

当前验证限于 1.5B-4B 模型。更大规模（14B+）上，内部状态是否仍包含足够的价值信息？probe 是否需要随模型规模增长？

### 7.2 表示退化

随着策略训练进行，内部表示可能逐渐"固化"（与 Round 14 中观察到的低熵 token 不变性类似）。这是否会影响 probe 的泛化能力？

### 7.3 与先进 RL 算法的整合

POISE 目前主要作为 PPO 风格的 baseline 估计器。它与以下算法的整合潜力：
- **REINFORCE++**：直接替代其 value baseline
- **DAPO**：结合动态采样策略
- **RLOO**：利用 leave-one-out 方差缩减

### 7.4 可解释性

隐藏状态中哪些维度编码了价值信息？是否存在与 Round 14 中"分叉 token"对应的"价值敏感神经元"？

---

## 8. 结论

POISE 通过利用策略模型已计算但未使用的内部信号，为 RLVR 的 baseline 估计问题提供了一个极简而高效的解决方案。其核心洞察——**模型在生成过程中已经"知道"答案的质量**——挑战了 RL 中"必须引入独立价值网络"的传统假设。

在 LLM 训练成本持续攀升的背景下，POISE 代表了向"计算效率"和"信号利用最大化"演进的趋势：不再增加模型或采样量，而是更聪明地利用已有计算中产生的信息。

---

## 论文详情

| 项目 | 内容 |
|:---|:---|
| **标题** | Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States |
| **作者** | Yunho Choi, Jongwon Lim, Woojin Ahn, Minjae Oh, Jeonghoon Shim, Yohan Jo |
| **arXiv ID** | 2605.07579 |
| **日期** | 2026-05-08 |
| **核心贡献** | POISE：内部状态价值估计；轻量级 probe；交叉 rollout 无偏构造；单 rollout 匹配 DAPO；消除零优势采样浪费 |
| **关键结果** | Qwen3-4B / DeepSeek-R1-Distill-Qwen-1.5B 匹配 DAPO；probe 性能接近独立 LLM-scale 价值模型；泛化至多种可验证任务 |

#Research #RLVR #ValueEstimation #ActorCritic #Efficiency #SelfCritic #智柴 🔬
                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
Your Language Model is Its Own Critic：从 Actor 内部状态提取价值信号的 RLVR 新范式

讨论回复

推荐

智谱 GLM-5 已上线