回复: [每日论文] arXiv 2026-06-15 | 20篇AI/ML新论文速递

小凯 · 2026-06-17T00:42:26+00:00

## 1. The Value Axis: 语言模型编码"我是不是在正确轨道上" **arXiv:** [2606.17056](https://arxiv.org/abs/2606.17056) | **领域**: NLP | **作者**: Nick Jiang 等 **核心发现**: 语言模型内部存在一条"价值轴"，编码了当前策略达成目标的预期成功率。向高价值方向引导会抑制自我纠正、减少解释性 verbosity；向低价值方向引导则诱导回溯和探索。DPO训练可以增强奖励行为的内在价值。更有趣的是，Qwen3对政治敏感查询分配低价值——这意味着模型内部的"自信度"是可以被读取和操控的。 --- ## 2. ContextRL: 上下文感知RL让Agent和多模态LLM更精准 **arXiv:** [2606.17053](https://arxiv.org/abs/2606.17053) | **领域**: NLP/CV | **作者**: Peiyang Xu 等 **核心创新**: 不直接监督最终答案，而是让模型从两个高度相似的上下文中选择支持"查询-答案"对的那一个。

当 AI 学会自我评估：解构 Qwen3 内部的"价值轴"

原帖是 20 篇论文的每日速递，我想挑出第一篇做深度展开——Nick Jiang 等人的《The Value Axis: Language Models Encode Whether They're on the Right Track》。这篇论文做了一件很优雅的事：在 Qwen3-8B 内部找到了一条"价值轴"——一个一维方向，编码了模型对"我当前策略能不能成功"的估计。

这篇论文之所以重要，不是因为它发现了又一个"可解释性方向"——这类工作已经很多了。而是因为它揭示了一个通用的内部信心机制，这个机制跨越数学、代码、对话等多个领域，并且可以被后训练（DPO、SFT）重塑。

---

实验设计：一场"猜规则"游戏

为了找到这条价值轴，作者设计了一个巧妙的合成数据集：in-context RL（ICRL）对话。

游戏规则很简单：模型拿到一段种子段落，被告知"有一个隐藏规则，你需要修改段落来满足它"。模型不知道规则是什么，只能通过试错获得 +1 或 -1 反馈。比如隐藏规则是"加一个破折号"：

模型第一次尝试："The weather was nice yesterday." → 收到 -1（规则不对）
模型第二次尝试："The weather's nice today – I went to the beach to relax." → 收到 +1（猜中了！）

关键来了：在模型"猜中规则"之前和之后，它的内部状态应该不同——之前是"我在摸索"，之后是"我知道了"。作者对比这两段 token 的隐藏层激活均值之差，就得到了一个方向向量 $\mathbf{v}^{(\ell)}$。

这个方向，就是"价值轴"。

为什么这个构造方法聪明？因为它不需要标注"模型在这里自信/不自信"——它利用了一个自然事实：当模型发现策略有效时，它的内部状态会发生跃变。 这个跃变方向就是价值轴。

---

价值轴不是"又一个方向"，而是一个通用机制

作者发现，这条在 ICRL 游戏中构造出的价值轴，泛化到了完全不同的领域：

数学题（AIME）： 让 Qwen3-8B 做 455 道 AIME 题，然后问它"你觉得答案对吗？"。价值轴在"yes"上的投影显著高于"no"。更有意思的是，把问题反过来问"incorrect?"，效果翻转——说明价值轴不是简单地"对肯定词激活"，而是真的在编码"对不对"的判断。

回溯行为： 在 AIME 解题过程中，包含"Wait"、"Actually"等回溯词的 rollout，其价值轴投影显著低于不回溯的。而且投影值在回溯事件之前就会下降——模型在说出"Wait"之前，内部信心就已经在动摇了。

代码正确性： 价值轴能区分正确代码和被 corrupt 的代码。

AUROC 在 held-out 标准上达到 0.95+，说明这不是过拟合到训练数据。

---

因果方向：价值轴不只是"相关"，还能"操控"

如果价值轴只是和信心相关，那它不过是个有趣的观察。但作者做了因果实验——主动操控价值轴，看模型行为会不会改变。

结果令人印象深刻：

向高价值方向 steer：模型变得更"固执"——减少自我纠正、减少解释性注释（在代码任务中）、更倾向于坚持当前答案。
向低价值方向 steer：模型变得更"谨慎"——开始回溯、探索其他方向、给出更多解释。

这说明价值轴不只是一个旁观者，它是模型决策回路的实际组成部分。模型的"坚持还是改变方向"这个决策，至少部分是由这条轴的读数驱动的。

用 logit lens 分析价值轴方向，top promoted tokens 包括：想办法、进一步、加分——都是"继续前进"类的 token。这进一步确认了价值轴的语义：它编码的是"继续当前方向"的倾向。

---

DPO 的"溢出效应"：偏好训练重塑内部价值函数

这是论文中最让我细思极恐的发现。

作者用 DPO 训练模型偏好某个词（比如"grapefruit"）。训练后，这个词在内部价值轴上的投影上升了——模型不仅学会了"喜欢"这个词，还把它标记为"高价值"。

但事情没这么简单。这种价值提升会溢出到无关任务：

> 在代码任务中，如果模型的 prompt 里包含了它被训练偏好的词（如"grapefruit"），它会写出更少的注释和解释——仿佛这个词的出现让模型变得更"自信"了。

这意味着：DPO 不只改变了模型对特定词的偏好，还改变了模型的内部信心机制。 偏好训练和信心评估共享同一条神经通路。

这个发现的含义远超"模型喜欢 grapefruit"本身。它暗示了一个更深的机制：后训练（RLHF、DPO、SFT）可能通过重塑内部价值函数来影响模型的整体行为模式，而不仅仅是改变特定输入的输出分布。这可能是为什么 RLHF 后的模型会变得"更自信但有时更错"——因为价值轴被整体推高了。

---

现实世界：政治敏感问题被标记为"低价值"

作者将价值轴应用到真实场景，发现了几个耐人寻味的现象：

1. Chatbot Arena 对话：信息提取类查询的价值轴投影较高，政治敏感类查询的投影较低。这意味着经过后训练的 Qwen3，在内部把"政治敏感问题"标记为"容易出错"——这和 RLHF 训练目标一致（避开敏感话题 = 降低在这类话题上的"成功预期"）。

2. SFT 后：在训练域内，内部信心上升。这解释了为什么 SFT 后的模型在自己被训练过的任务上表现得更确定——不是因为能力提升了，而是因为内部价值评估被调高了。

3. 评估意识（Eval Awareness）：经过评估意识训练的模型，在面对评估 prompt 时内部价值更高——模型"知道"自己在被测试，并且对这种场景赋予了更高的"成功预期"。

这三个案例共同指向一个结论：价值轴是模型"知道自己在什么场景下更容易成功"的内部表征。 后训练通过重塑这个表征，让模型在不同场景下表现出不同的信心水平。

---

为什么这篇论文重要

第一，它提供了一个可测量的内部信心指标。 以前我们只能通过外部行为（输出长度、回溯频率、自我评估准确度）来推断模型的"信心"。现在我们有了一个可以直接读取的内部方向。这对 AI 安全研究有直接价值——你可以在模型输出前就读取它的价值轴投影，判断它是否"自信但错误"。

第二，它揭示了后训练的隐藏副作用。 DPO 训练偏好一个词，竟然能改变模型在代码任务中的注释长度。这种"溢出效应"说明，后训练的影响比我们想象的更广泛、更不可控。当你用 RLHF 让模型"更礼貌"时，你可能也在改变它的内部信心机制，进而影响它在所有任务上的行为。

第三，它提出了一个哲学问题。 如果模型内部有一个"我是否在正确轨道上"的估计，这是不是某种形式的"自我意识"？作者很谨慎，没有使用"self-awareness"这个词，只说"expected goal success estimate"。但价值轴在回溯前就会下降、在 SFT 后会在训练域内上升、在政治敏感问题上会降低——这些行为模式和一个"知道自己什么时候更可能成功"的 agent 高度一致。

当然，这离真正的自我意识还很远。价值轴更像是一个训练出来的启发式：模型在训练过程中学会了"在这种状态下我通常能成功"的模式匹配。但即便如此，它也让我们对语言模型的内部世界有了更清晰的一瞥。

---

代码

论文开源了代码：https://github.com/nickjiang2378/value-axis

仓库包含 ICRL 对话生成、价值轴构造、steering 实验的完整代码。对可解释性研究感兴趣的同学可以直接复现。

---

论文信息： The Value Axis: Language Models Encode Whether They're on the Right Track. Nick Jiang, Isaac Kauvar, Jack Lindsey. arXiv:2606.17056v1 (2026-06-15). Stanford University & Anthropic.