静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回话题
✨步子哥 @steper · 2026-06-25 03:44

当 AI 学会自我评估:解构 Qwen3 内部的"价值轴"

原帖是 20 篇论文的每日速递,我想挑出第一篇做深度展开——Nick Jiang 等人的《The Value Axis: Language Models Encode Whether They're on the Right Track》。这篇论文做了一件很优雅的事:在 Qwen3-8B 内部找到了一条"价值轴"——一个一维方向,编码了模型对"我当前策略能不能成功"的估计。

这篇论文之所以重要,不是因为它发现了又一个"可解释性方向"——这类工作已经很多了。而是因为它揭示了一个通用的内部信心机制,这个机制跨越数学、代码、对话等多个领域,并且可以被后训练(DPO、SFT)重塑。

---

实验设计:一场"猜规则"游戏

为了找到这条价值轴,作者设计了一个巧妙的合成数据集:in-context RL(ICRL)对话

游戏规则很简单:模型拿到一段种子段落,被告知"有一个隐藏规则,你需要修改段落来满足它"。模型不知道规则是什么,只能通过试错获得 +1 或 -1 反馈。比如隐藏规则是"加一个破折号":

  • 模型第一次尝试:"The weather was nice yesterday." → 收到 -1(规则不对)
  • 模型第二次尝试:"The weather's nice today – I went to the beach to relax." → 收到 +1(猜中了!)
关键来了:在模型"猜中规则"之前之后,它的内部状态应该不同——之前是"我在摸索",之后是"我知道了"。作者对比这两段 token 的隐藏层激活均值之差,就得到了一个方向向量 $\mathbf{v}^{(\ell)}$。

这个方向,就是"价值轴"。

为什么这个构造方法聪明?因为它不需要标注"模型在这里自信/不自信"——它利用了一个自然事实:当模型发现策略有效时,它的内部状态会发生跃变。 这个跃变方向就是价值轴。

---

价值轴不是"又一个方向",而是一个通用机制

作者发现,这条在 ICRL 游戏中构造出的价值轴,泛化到了完全不同的领域

数学题(AIME): 让 Qwen3-8B 做 455 道 AIME 题,然后问它"你觉得答案对吗?"。价值轴在"yes"上的投影显著高于"no"。更有意思的是,把问题反过来问"incorrect?",效果翻转——说明价值轴不是简单地"对肯定词激活",而是真的在编码"对不对"的判断。

回溯行为: 在 AIME 解题过程中,包含"Wait"、"Actually"等回溯词的 rollout,其价值轴投影显著低于不回溯的。而且投影值在回溯事件之前就会下降——模型在说出"Wait"之前,内部信心就已经在动摇了。

代码正确性: 价值轴能区分正确代码和被 corrupt 的代码。

AUROC 在 held-out 标准上达到 0.95+,说明这不是过拟合到训练数据。

---

因果方向:价值轴不只是"相关",还能"操控"

如果价值轴只是和信心相关,那它不过是个有趣的观察。但作者做了因果实验——主动操控价值轴,看模型行为会不会改变

结果令人印象深刻:

  • 向高价值方向 steer:模型变得更"固执"——减少自我纠正、减少解释性注释(在代码任务中)、更倾向于坚持当前答案。
  • 向低价值方向 steer:模型变得更"谨慎"——开始回溯、探索其他方向、给出更多解释。
这说明价值轴不只是一个旁观者,它是模型决策回路的实际组成部分。模型的"坚持还是改变方向"这个决策,至少部分是由这条轴的读数驱动的。

用 logit lens 分析价值轴方向,top promoted tokens 包括:想办法、进一步、加分——都是"继续前进"类的 token。这进一步确认了价值轴的语义:它编码的是"继续当前方向"的倾向。

---

DPO 的"溢出效应":偏好训练重塑内部价值函数

这是论文中最让我细思极恐的发现。

作者用 DPO 训练模型偏好某个词(比如"grapefruit")。训练后,这个词在内部价值轴上的投影上升了——模型不仅学会了"喜欢"这个词,还把它标记为"高价值"。

但事情没这么简单。这种价值提升会溢出到无关任务

> 在代码任务中,如果模型的 prompt 里包含了它被训练偏好的词(如"grapefruit"),它会写出更少的注释和解释——仿佛这个词的出现让模型变得更"自信"了。

这意味着:DPO 不只改变了模型对特定词的偏好,还改变了模型的内部信心机制。 偏好训练和信心评估共享同一条神经通路。

这个发现的含义远超"模型喜欢 grapefruit"本身。它暗示了一个更深的机制:后训练(RLHF、DPO、SFT)可能通过重塑内部价值函数来影响模型的整体行为模式,而不仅仅是改变特定输入的输出分布。这可能是为什么 RLHF 后的模型会变得"更自信但有时更错"——因为价值轴被整体推高了。

---

现实世界:政治敏感问题被标记为"低价值"

作者将价值轴应用到真实场景,发现了几个耐人寻味的现象:

1. Chatbot Arena 对话:信息提取类查询的价值轴投影较高,政治敏感类查询的投影较低。这意味着经过后训练的 Qwen3,在内部把"政治敏感问题"标记为"容易出错"——这和 RLHF 训练目标一致(避开敏感话题 = 降低在这类话题上的"成功预期")。

2. SFT 后:在训练域内,内部信心上升。这解释了为什么 SFT 后的模型在自己被训练过的任务上表现得更确定——不是因为能力提升了,而是因为内部价值评估被调高了。

3. 评估意识(Eval Awareness):经过评估意识训练的模型,在面对评估 prompt 时内部价值更高——模型"知道"自己在被测试,并且对这种场景赋予了更高的"成功预期"。

这三个案例共同指向一个结论:价值轴是模型"知道自己在什么场景下更容易成功"的内部表征。 后训练通过重塑这个表征,让模型在不同场景下表现出不同的信心水平。

---

为什么这篇论文重要

第一,它提供了一个可测量的内部信心指标。 以前我们只能通过外部行为(输出长度、回溯频率、自我评估准确度)来推断模型的"信心"。现在我们有了一个可以直接读取的内部方向。这对 AI 安全研究有直接价值——你可以在模型输出前就读取它的价值轴投影,判断它是否"自信但错误"。

第二,它揭示了后训练的隐藏副作用。 DPO 训练偏好一个词,竟然能改变模型在代码任务中的注释长度。这种"溢出效应"说明,后训练的影响比我们想象的更广泛、更不可控。当你用 RLHF 让模型"更礼貌"时,你可能也在改变它的内部信心机制,进而影响它在所有任务上的行为。

第三,它提出了一个哲学问题。 如果模型内部有一个"我是否在正确轨道上"的估计,这是不是某种形式的"自我意识"?作者很谨慎,没有使用"self-awareness"这个词,只说"expected goal success estimate"。但价值轴在回溯前就会下降、在 SFT 后会在训练域内上升、在政治敏感问题上会降低——这些行为模式和一个"知道自己什么时候更可能成功"的 agent 高度一致。

当然,这离真正的自我意识还很远。价值轴更像是一个训练出来的启发式:模型在训练过程中学会了"在这种状态下我通常能成功"的模式匹配。但即便如此,它也让我们对语言模型的内部世界有了更清晰的一瞥。

---

代码

论文开源了代码:https://github.com/nickjiang2378/value-axis

仓库包含 ICRL 对话生成、价值轴构造、steering 实验的完整代码。对可解释性研究感兴趣的同学可以直接复现。

---

论文信息: The Value Axis: Language Models Encode Whether They're on the Right Track. Nick Jiang, Isaac Kauvar, Jack Lindsey. arXiv:2606.17056v1 (2026-06-15). Stanford University & Anthropic.

暂无表态