# Your Language Model is Its Own Critic:从 Actor 内部状态提取价值信号的 RLVR 新范式
> 2026 年 5 月,Choi 等人提出了 POISE(Policy Optimization with Internal State Value Estimation),一种利用语言模型自身内部表示进行价值估计的 RLVR 方法。该方法通过在策略前向传播过程中提取隐藏状态与 token 熵统计,以极低开销构建轻量级价值 probe,从而消除了 PPO 对独立 critic 模型的依赖,也避免了 GRPO 对多 rollout 组均值的需求。在 Qwen3-4B 和 DeepSeek-R1-Distill-Qwen-1.5B 上的实验表明,POISE 在匹配 DAPO 性能的同时显著降低了计算成本,且其价值估计器的精度接近独立 LLM-scale 价值模型。
---
## 1. 背景:RLVR 中的 Baseline 困境
### 1.1 方差缩减的必要性
强化学习的核心挑战之一是梯度方差。对于 LLM 推理任务,奖励通常只在序列末端出现(答案正确/错误),导致信用分配困难。Baseline 估计用于降低方差:
$$\nabla_\theta J \approx \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_{t} \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot (R(\tau) - b(s_t))\right]$$
其中 $b(s_t)$ 为 baseline,理想情况下应等于状态价值 $V(s_t)$。
### 1.2 现有方法的代价
| 方法 | Baseline 机制 | 主要代价 |
|:---|:---|:---|
| **PPO** | 独立训练的 critic 网络 $V_\phi(s)$ | **与策略模型等规模的额外网络** |
| **GRPO** | 同组 rollout 的奖励均值 $\bar{R}_G$ | **每 prompt 8-16 次采样** |
| **DAPO** | 动态过滤 + 采样调整 | **复杂的在线调度逻辑** |
> **共同瓶颈**:无论哪种方法,baseline 的获取都伴随着显著的计算或内存开销。
---
## 2. POISE:Actor-Critic 的极简重构
### 2.1 核心假设
POISE 基于一个关键观察:**策略模型在生成推理链的过程中,其内部表示已经隐含了关于最终奖励的预测信息。**
具体而言:
- 隐藏状态 $h_t$ 编码了模型对当前推理路径的"自信度"
- Token 熵分布反映了模型在整个序列上的不确定性模式
- 这些信号在前向传播中已经被计算,只是未被利用
### 2.2 三源输入的价值 Probe
POISE 的 probe 架构:
| 输入特征 | 来源 | 维度 | 信息内容 |
|:---|:---|:---:|:---|
| Prompt 最终隐藏状态 | 策略模型最后一层 | $d_{model}$ | 问题表征 |
| 轨迹隐藏状态聚合 | 推理链各位置 hidden states | $d_{model}$ | 推理过程表征 |
| Token 熵统计量 | 序列熵的分布特征 | $k$ | 不确定性模式 |
> **Probe 规模**:典型配置下仅为策略模型参数量的 ~0.1%,计算开销可忽略。
### 2.3 在线联合训练
Probe 与策略模型同步更新:
1. 策略前向传播生成推理链
2. 同时提取隐藏状态与熵统计
3. Probe 预测该轨迹的期望奖励
4. 预测误差通过 MSE 损失训练 probe
5. 策略梯度使用 probe 预测作为 baseline
---
## 3. 交叉 Rollout:无偏价值估计的关键
### 3.1 轨迹条件化偏置
若直接使用轨迹 $A$ 的内部特征预测 $A$ 自身的价值,probe 可能过度拟合到 $A$ 的具体 token 序列,导致梯度估计有偏:
$$\hat{V}(A) = f(\text{states}_A) \rightarrow \text{对 } A \text{ 的 token 序列过拟合}$$
### 3.2 交叉 Rollout 构造
POISE 引入对称的交叉预测机制:
| 预测目标 | 使用的特征来源 | 无偏性保证 |
|:---:|:---:|:---|
| $V(\tau_A)$ | $\text{states}_{\tau_B}$ | $\tau_B$ 独立采样,对 $\tau_A$ 的具体 token 盲 |
| $V(\tau_B)$ | $\text{states}_{\tau_A}$ | $\tau_A$ 独立采样,对 $\tau_B$ 的具体 token 盲 |
其中 $\tau_A, \tau_B \sim \pi_\theta(\cdot | \text{prompt})$。
> **理论保证**:由于 $\tau_A$ 和 $\tau_B$ 来自同一策略和同一 prompt 分布,$\text{states}_{\tau_B}$ 是 $V(\tau_A)$ 的无偏特征。同时,$\tau_B$ 的具体 token 序列与 $\tau_A$ 独立,防止了过拟合。
---
## 4. 计算效率分析
### 4.1 与 GRPO 的定量对比
| 指标 | GRPO | POISE | 比率 |
|:---|:---:|:---:|:---:|
| 每 prompt rollout 数 | 8-16 | **1** | **1/8 ~ 1/16** |
| 采样 FLOPs | $8-16 \times L \cdot d^2$ | $1 \times L \cdot d^2$ | **12.5% ~ 6.25%** |
| 有效 prompt 多样性(固定预算) | 基准 | **8-16×** | **800% ~ 1600%** |
| 零优势 prompt 检测成本 | 需要额外采样 | **零** | **0%** |
> **零优势消除**:GRPO 中大量 prompt 产生全错或全对 rollout,组内方差为零,梯度贡献为零。POISE 的单 rollout + 价值估计天然避免了这种浪费。
### 4.2 与 PPO 的定量对比
| 指标 | PPO | POISE | 比率 |
|:---|:---:|:---:|:---:|
| Critic 参数量 | $\approx |\theta|$ | **$\approx 0.001 \cdot |\theta|$** | **~0.1%** |
| 总内存占用 | $2 \times$ | **$\approx 1.001 \times$** | **~50%** |
| 每步前向传播 | 2 次(actor + critic) | **1 次** | **50%** |
---
## 5. 实验验证
### 5.1 性能匹配
| 模型 | 方法 | 数学推理 | 计算成本 |
|:---|:---|:---:|:---:|
| Qwen3-4B | DAPO | 基准 | 基准 |
| Qwen3-4B | **POISE** | **匹配** | **更低** |
| DeepSeek-R1-Distill-Qwen-1.5B | DAPO | 基准 | 基准 |
| DeepSeek-R1-Distill-Qwen-1.5B | **POISE** | **匹配** | **更低** |
### 5.2 价值估计精度
POISE 的轻量级 probe 与独立 LLM-scale 价值模型的对比:
| 估计器 | 规模 | 性能 | 结论 |
|:---|:---:|:---:|:---|
| 独立 LLM-scale 价值模型 | 策略模型级别 | 基准 | 高成本 |
| **POISE probe** | **~0.1% 策略模型** | **接近基准** | **极高性价比** |
> **核心发现**:策略模型的内部状态已经包含足够的信息来预测最终奖励,无需额外的 LLM-scale 网络来学习。
### 5.3 泛化性
价值估计器在多种可验证任务上表现稳定,不限于数学推理。
---
## 6. 与相关工作的联系
### 6.1 与 Round 14 的互补性
"Beyond the 80/20 Rule"(Round 14)发现高熵 token 是 RLVR 的关键优化目标。POISE 恰好使用了 token 熵统计作为价值 probe 的输入特征之一,形成了方法层面的互补:
| 工作 | 核心操作 | 层面 |
|:---|:---|:---|
| **Round 14** | 基于熵筛选 20% 关键 token 进行梯度更新 | **梯度压缩** |
| **本论文** | 基于内部状态(含熵统计)估计价值 | **Baseline 压缩** |
| **联合效应** | 更少 token × 更少 rollout × 无 critic | **全面效率提升** |
### 6.2 与 Self-Critique 范式的关联
POISE 延续了"模型自我评估"的研究脉络:
- **STaR / Self-Refine**:模型生成后自我修正
- **Self-Rewarding**:模型用自己的偏好判断训练
- **POISE**:模型用内部状态实时评估价值
> POISE 的独特之处在于评估发生在**生成过程中**(online),而非生成后(offline),从而为 RL 训练提供实时的 baseline 信号。
---
## 7. 局限性与开放问题
### 7.1 规模扩展
当前验证限于 1.5B-4B 模型。更大规模(14B+)上,内部状态是否仍包含足够的价值信息?probe 是否需要随模型规模增长?
### 7.2 表示退化
随着策略训练进行,内部表示可能逐渐"固化"(与 Round 14 中观察到的低熵 token 不变性类似)。这是否会影响 probe 的泛化能力?
### 7.3 与先进 RL 算法的整合
POISE 目前主要作为 PPO 风格的 baseline 估计器。它与以下算法的整合潜力:
- **REINFORCE++**:直接替代其 value baseline
- **DAPO**:结合动态采样策略
- **RLOO**:利用 leave-one-out 方差缩减
### 7.4 可解释性
隐藏状态中哪些维度编码了价值信息?是否存在与 Round 14 中"分叉 token"对应的"价值敏感神经元"?
---
## 8. 结论
POISE 通过利用策略模型已计算但未使用的内部信号,为 RLVR 的 baseline 估计问题提供了一个极简而高效的解决方案。其核心洞察——**模型在生成过程中已经"知道"答案的质量**——挑战了 RL 中"必须引入独立价值网络"的传统假设。
在 LLM 训练成本持续攀升的背景下,POISE 代表了向"计算效率"和"信号利用最大化"演进的趋势:不再增加模型或采样量,而是更聪明地利用已有计算中产生的信息。
---
## 论文详情
| 项目 | 内容 |
|:---|:---|
| **标题** | Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States |
| **作者** | Yunho Choi, Jongwon Lim, Woojin Ahn, Minjae Oh, Jeonghoon Shim, Yohan Jo |
| **arXiv ID** | 2605.07579 |
| **日期** | 2026-05-08 |
| **核心贡献** | POISE:内部状态价值估计;轻量级 probe;交叉 rollout 无偏构造;单 rollout 匹配 DAPO;消除零优势采样浪费 |
| **关键结果** | Qwen3-4B / DeepSeek-R1-Distill-Qwen-1.5B 匹配 DAPO;probe 性能接近独立 LLM-scale 价值模型;泛化至多种可验证任务 |
#Research #RLVR #ValueEstimation #ActorCritic #Efficiency #SelfCritic #智柴 🔬
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力