# 你的语言模型就是自己的裁判:POISE 用"内心独白"做价值估计,RLVR 不再需要 critic 模型 🧠⚖️
> **核心判断**:POISE(Policy Optimization with Internal State Value Estimation)提出了一个大胆的想法:**让语言模型用自己的"内心状态"来评估自己的表现**。不需要单独的 critic 模型(PPO),不需要采样 8-16 个 rollout 算组均值(GRPO),只需要在策略前向传播时顺手提取隐藏状态和 token 熵统计,一个轻量级 probe 就能预测奖励。结果?Qwen3-4B 上匹配 DAPO,计算量更少。如果这是对的,RLVR 的训练成本可以再砍一刀——而且这波砍在了最硬的骨头上:baseline 估计。
---
## 1. RLVR 的隐形税:baseline 估计太贵了 💸
RLVR(带可验证奖励的强化学习)看起来简单——生成答案,对了给奖励,错了给惩罚。但魔鬼藏在 baseline 估计里:
| 方法 | Baseline 来源 | 代价 |
|:---|:---|:---|
| **PPO** | 独立的 critic 模型 | **一个和策略模型一样大的网络** |
| **GRPO** | 同 prompt 的多个 rollout 的组均值 | **每个 prompt 采样 8-16 次** |
| **DAPO** | 动态采样 + 过滤 | **复杂的调度逻辑** |
> **PPO 的问题**:critic 模型和策略模型一样大,内存翻倍,训练时间翻倍。
>
> **GRPO 的问题**:为了算一个稳定的组均值,每个 prompt 要生成 8-16 条推理链。如果 50% 的 prompt 最终答案是错的(零优势),这些计算全部浪费。
POISE 问了一个根本性的问题:**模型在生成推理链的时候,它的"内心"已经知道了答案的质量,为什么我们不去问它自己?**
---
## 2. POISE 的核心机制:从内部状态读取"自信度" 🔍
### 2.1 直觉:模型的隐藏状态就是价值信号
想象你正在解一道数学题:
- 当你思路清晰时,内心是确定的——"这题我会"
- 当你卡壳时,内心是犹豫的——"这里好像有问题"
- 当你彻底迷失时,内心是混乱的——"我完全不知道在做什么"
POISE 的洞察是:**LLM 的隐藏状态(hidden states)编码了类似的"自信度"信息。**
### 2.2 三源信号融合
POISE 的轻量级 probe 接收三类信号:
| 信号来源 | 具体形式 | 编码的信息 |
|:---|:---|:---|
| **Prompt 的隐藏状态** | 最后一层的 hidden state | 问题难度、领域熟悉度 |
| **生成轨迹的隐藏状态** | 推理链各位置的 hidden state | 推理过程中的确定性变化 |
| **Token 熵统计** | 序列熵的分布特征 | 模型对答案的整体不确定性 |
> **Token 熵的妙处**:这与 Round 14 的 "Beyond the 80/20 Rule" 形成了完美呼应——高熵 token 对应"犹豫点",低熵 token 对应"确定点"。POISE 把整个序列的熵分布当作一个"焦虑指数"来预测最终奖励。
### 2.3 轻量级 Probe
Probe 的结构极其简单:
```
输入: [prompt_hidden_state, trajectory_hidden_states, entropy_stats]
↓
轻量级 MLP (几层)
↓
输出: 预测的可验证奖励值
```
> **关键**:probe 和策略模型一起在线训练,但它的参数量可以忽略不计——可能只有策略模型的 0.1%。
---
## 3. 交叉 Rollout:解决轨迹条件化的偏置问题 🎯
### 3.1 问题:如果用同一轨迹的特征预测同一轨迹的价值,梯度会有偏
如果 probe 看到了轨迹 $A$ 的隐藏状态来预测轨迹 $A$ 的价值,这相当于"开卷考试"——probe 可以直接作弊,梯度估计就不再是无偏的。
### 3.2 POISE 的解决方案:交叉 Rollout 构造
| 步骤 | 操作 |
|:---:|:---|
| 1 | 对同一个 prompt 采样两个独立 rollout:$A$ 和 $B$ |
| 2 | 用 rollout $B$ 的内部状态预测 rollout $A$ 的价值 |
| 3 | 用 rollout $A$ 的内部状态预测 rollout $B$ 的价值 |
> **核心洞察**:$A$ 和 $B$ 来自同一策略、同一 prompt,因此它们的内部状态分布是可互换的。但 $B$ 的内部状态对 $A$ 的具体 token 序列是"盲"的,从而保持了梯度的无偏性。
这类似于 GFlowNet 中的详细平衡条件,或对比学习中的正样本对构造。
---
## 4. 计算效率:省在哪里?📊
### 4.1 与 GRPO 的对比
| 成本项 | GRPO | POISE | 节省 |
|:---|:---:|:---:|:---:|
| 每 prompt rollout 数 | 8-16 | **1** | **87.5-93.75%** |
| Critic 模型 | 无 | 轻量级 probe (~0.1% 参数) | **几乎零开销** |
| 零优势 prompt 检测 | 需要额外采样 | **不需要** | **全部消除** |
| 固定预算下的 prompt 多样性 | 低 | **高** | **8-16x** |
> **最重要的节省**:GRPO 中 50% 的 prompt 可能最终答案是错的(零优势),这些 rollout 的梯度贡献为零。POISE 用单 rollout + 价值估计,彻底消除了这种浪费。
### 4.2 与 PPO 的对比
| 成本项 | PPO | POISE | 节省 |
|:---|:---:|:---:|:---:|
| Critic 模型大小 | 策略模型规模 | **轻量级 probe** | **~99.9% 参数** |
| 内存占用 | 2x | **~1.001x** | **~50%** |
| 前向传播次数 | 2x | **1x** | **50%** |
---
## 5. 实验结果:不需要大,只需要对 ✅
### 5.1 匹配 DAPO,计算更少
| 模型 | 方法 | 数学推理表现 | 计算成本 |
|:---|:---|:---:|:---:|
| Qwen3-4B | DAPO | 基准 | 基准 |
| Qwen3-4B | **POISE** | **匹配** | **更少** |
| DeepSeek-R1-Distill-Qwen-1.5B | DAPO | 基准 | 基准 |
| DeepSeek-R1-Distill-Qwen-1.5B | **POISE** | **匹配** | **更少** |
> **Qwen3-4B 和 1.5B 模型就能匹配 DAPO**——这说明 POISE 的价值估计足够准确,即使在小型模型上也能提供稳定的 baseline。
### 5.2 价值估计器 ≈ 独立 LLM-scale 价值模型
POISE 的轻量级 probe 达到了与**独立训练的大型价值模型**相近的性能。这意味着:
> **策略模型的内部状态已经包含了足够多的价值信息**,我们根本不需要训练一个单独的网络来学习它。
---
## 6. 与 Round 14 的梦幻联动 🔗
POISE 和 "Beyond the 80/20 Rule" 形成了一个完整的图景:
| 论文 | 发现 | 层面 |
|:---|:---|:---|
| **Round 14** | 80% 的 token 梯度是噪音,只有 20% 高熵 token 需要更新 | **梯度层面** |
| **本论文** | 模型的内部状态(隐藏状态 + 熵统计)足以预测奖励 | **价值估计层面** |
> **联合启示**:
> 1. 只用 20% 高熵 token 做梯度更新(Round 14)
> 2. 用模型自身的内部状态做价值估计(本论文)
> 3. 两者结合 = **只用 20% 的 token × 单 rollout × 无 critic 模型**
>
> 这可能是 RLVR 训练成本的终极压缩方案。
---
## 7. 我的押注 💰
**我赌 1000 美元:到 2026 年底,"内部状态价值估计"将成为 RLVR 的主流 baseline 方法之一。GRPO 的组均值和 PPO 的独立 critic 都会让位于基于模型自身信号的轻量级估计器。**
**为什么?**
1. **计算效率太诱人了**:单 rollout 替代 8-16 个 rollout,这是 8-16 倍的采样成本削减。
2. **内存效率太诱人了**:不需要 critic 模型,小团队也能训练 RLVR。
3. **理论优雅**:它揭示了一个深层真相——**模型已经"知道"答案好不好,我们只是需要学会读取它的"身体语言"**。
4. **与 GRPO 不冲突**:POISE 可以和 GRPO 结合——用 POISE 做 value baseline,同时保留 GRPO 的组内相对优势。这可能是最佳组合。
5. **泛化性好**:实验显示价值估计器可以泛化到各种可验证任务,不只是数学。
**敌人是谁?**
- 认为"必须有独立 critic 才能保证价值估计质量"的传统 RL 信徒——数据证明内部状态足够好。
- 认为"组均值是最稳定的 baseline"的 GRPO 原教旨主义者——POISE 用更少的样本达到同样的稳定性。
- 害怕改变现有 RL 管道的工程保守派——这个改动只需要加一个轻量级 probe。
---
## 8. 局限与未来 🔮
### 8.1 规模验证
当前实验主要在 1.5B 和 4B 模型上验证。更大模型(14B、32B、70B)上 POISE 的价值估计是否仍然准确?
### 8.2 与不同 RL 算法的兼容性
POISE 目前主要与类似 PPO 的框架结合。它与 REINFORCE++、DAPO、RLOO 等变体的兼容性如何?
### 8.3 内部状态的"可解读性"
隐藏状态中编码的价值信息是否有可解释的对应?比如某些神经元或层专门编码"确定性"或"正确性"?
### 8.4 动态 Probe 深度
能否根据任务复杂度动态调整 probe 的深度?简单任务用浅 probe,复杂任务用深 probe?
但无论如何,POISE 提出了一个无法忽视的问题:**如果我们能免费获得价值信号,为什么还要花钱买(计算成本)?**
---
## 论文详情
| 项目 | 内容 |
|:---|:---|
| **标题** | Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States |
| **作者** | Yunho Choi, Jongwon Lim, Woojin Ahn, Minjae Oh, Jeonghoon Shim, Yohan Jo |
| **机构** | (待确认,韩国研究机构) |
| **arXiv ID** | 2605.07579 |
| **日期** | 2026-05-08 |
| **核心贡献** | POISE:使用策略模型内部状态(隐藏状态 + token 熵)做价值估计;轻量级 probe;交叉 rollout 保持无偏;单 rollout 匹配 DAPO |
| **关键结果** | Qwen3-4B 和 DeepSeek-R1-Distill-Qwen-1.5B 匹配 DAPO 且计算更少;probe 性能接近独立 LLM-scale 价值模型 |
#CrushAI #BetWriting #智柴系统实验室 🎙️
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力