弱教师教出强学生，还能超过真值标签？Trust Functions 用「内部表示」破解弱到强泛化困局

一句话定位： Johns Hopkins 团队提出神经信任函数（NTF），用弱教师的最后一层隐藏状态而非输出层置信度来判断弱标签是否可靠。在三类任务（世界知识、数学推理、国际象棋）上，过滤后的弱监督训练出的强学生几乎追平甚至超过真值标签训练，部分场景实现 104-110% 的"超恢复"。更惊人的是，迭代链式训练能让性能像滚雪球一样逐轮提升，最终 Qwen3-14B 在棋类任务上达到 48.2%，远超真值训练的 40.0%。ICML 2026。

---

一、问题：弱到强泛化为何总有天花板？

Burns 等人 2023 年的经典论文开启了弱到强泛化（Weak-to-Strong Generalization）研究：用大模型当学生、小模型当老师，试图在缺乏真值标签的场景下让强学生超越弱教师。但几乎所有后续工作都撞上了一块天花板——弱监督学生的性能始终追不上用真值标签训练的学生。

原因被归结为两点： 1. 错误传播：弱教师的错误标签会继承给学生，除非数据几何结构恰好允许强模型纠正它们 2. 表示缺口：弱教师的表示空间覆盖不到任务相关的某些方向，导致训练信号缺失

此前的主流解法集中在输出层启发式：熵、自一致性、多模型一致性、口头化置信度。但这些信号在复杂任务上往往校准不良——会把"自信的错答"打高分，把"正确但不确信的解"打低分。这个问题在分布偏移时尤其致命。

---

二、核心洞察：内部表示知道答案是否正确，即使输出错了

这篇论文的破局点来自 Kadavath 等人 2022 年的一个发现：大模型的中间层表示中包含了答案正确性的可分离信号，但这些信号在最终解码输出中被掩盖了。

所以作者把问题重新定义：弱到强泛化本质上是一个数据选择问题。不是每个弱标签都值得信赖，关键是找出哪些弱标签足够可靠，可以作为训练信号。

于是他们提出信任函数（Trust Functions）——给每个弱标签打一个 0-1 之间的标量信任分数，然后用高分标签训练强学生。

---

三、神经信任函数（NTF）怎么工作？

输入特征：最后一层隐藏状态

不碰输出层概率。NTF 的输入是弱教师生成最终答案 token 时的最后一层隐藏状态。这个 token 的注意力已经看过完整的输入和全部中间推理，所以它是一个紧凑的"正确性摘要向量"。

架构：小型残差 MLP

NTF 本身只是一个带残差连接的小型 MLP，RMSNorm-SwiGLU 块 + Dropout + 随机深度，最后接一个线性头输出 logits，sigmoid 压到 0-1。

计算成本几乎为零。弱教师前向传播已经需要生成答案，隐藏状态是顺手就能提取的。NTF 训练和推理成本远低于弱教师的前向传播，整个 pipeline 的时间由教师推断主导，NTF 只是给缓存的隐藏状态套了个小网络。

训练：二元交叉熵

在有标注的源分布上训练 NTF，用弱教师的预测和真值对比构造二元标签（正确/错误）。训练用类别重加权的二元交叉熵，处理正负样本不平衡。

---

四、零样本跨分布：源分布训练，目标分布打分

一个关键设计：NTF 只需要在有标注的源分布上训练，然后零样本部署到无标注的目标分布——只要两者属于同一领域、共享相同的任务接口（如都是多选题或都是数学题）。

这在现实中有极强的可操作性：你总有一些老数据有标注（比如 MATH 数据集），但新目标数据（比如 AIME 竞赛题）没有标注。NTF 在 MATH 上学会"怎么判断弱标签靠不靠谱"，然后直接拿去筛 AIME 上的弱标签。

---

五、三类任务上的结果：几乎无损，时常超越

评估指标：Recovery（恢复率）

$$Recovery = \frac{Baseline - Base}{GT - Base} \times 100\%$$

Base = 不训练的基线，GT = 真值标签训练。Recovery 100% 表示完全追平真值，>100% 表示超过。

1. 世界知识（MCQA）

Teacher	Student	NTF	GT	Recovery
OLMo2-1B	OLMo2-7B	73.7	73.8	98.9%
OLMo2-1B	OLMo2-13B	80.9	81.2	95.9%
Qwen3-0.6B	Qwen3-1.7B	75.0	74.8	103.5%（超恢复）
Qwen3-0.6B	Qwen3-14B	87.1	87.0	101.3%（超恢复）

8 个设置中，5 个与 GT 无显著差异（near-lossless），1 个显著超过 GT（super-recovery）。对比输出层启发式基线（I-Confidence、Ensemble、Reward Model），NTF 全面领先。

2. 数学推理（GRPO 训练）

Teacher	Student	NTF	GT	Recovery
Qwen3-1.7B	Qwen3-4B	22.0	22.9	92.5%
Qwen3-4B	Qwen3-8B	26.6	27.4	91.0%
Qwen3-8B	Qwen3-8B	27.9	28.7	91.7%
Qwen3-8B	Qwen3-4B	27.4	28.4	89.2%

所有设置 recovery 89-92%，半数与 GT 无显著差异。这里 teacher 本身在目标分布上可能只有 <5% 准确率（Qwen3-1.7B 在 AIME 上），但 NTF 依然能从它的弱标签中筛出高纯度子集。

3. 策略游戏（国际象棋谜题）

这是最惊人的领域。棋类有明确的外部评估器（Stockfish），可以精确判断一步棋的好坏。

Teacher	Student	NTF	GT	Recovery
Qwen3-0.6B	Qwen3-1.7B	15.5	14.9	104.4%（超恢复）
Qwen3-0.6B	Qwen3-14B	44.1	39.9	110.4%（超恢复）
OLMo2-1B	OLMo2-1B	37.4	37.7	99.2%
OLMo2-1B	OLMo2-13B	41.5	54.5	76.1%（OLMo2 家族在此领域较不稳定）

Qwen3 家族在棋类上表现极佳：4 个设置超恢复，1 个接近无损。NTF 不仅追上了真值，还超越了它。

---

六、雪崩效应：迭代链式弱到强训练

这才是最反直觉的部分。如果 NTF 过滤后的弱监督已经能媲美真值，那训练出来的学生本身就可以当下一轮的教师——形成一个弱到强链。

从最弱的 Qwen3-0.6B 开始，逐轮迭代：

方法	Qwen3-4B	Qwen3-8B	Qwen3-14B
Naive Shallow	27.0	33.7	38.1
Naive Chain	30.1	34.2	39.1
NTF Shallow (0.6B)	35.4	38.0	44.1
NTF Shallow (8B)	—	—	46.1
NTF Chain	36.9	40.1	48.2
Ground Truth	36.2	37.0	40.0

最终 NTF Chain 的 Qwen3-14B 达到 48.2%，比真值训练的 40.0% 高出 8.2 个百分点。链式 NTF 同时击败了：

直接从最弱教师单步迁移的浅层 NTF
从最强可用弱教师（8B）单步迁移的浅层 NTF
朴素链式基线（不加 NTF 过滤）
真值标签训练

这意味着：用弱标签 + 信任过滤，迭代起来，最终效果可以系统性超越用真值标签训练。标签质量不是唯一的瓶颈，标签选择策略同样重要。

---

七、为什么 NTF 能超过真值？三个机制

作者用棋类任务做了深入解剖，因为 Stockfish 能客观评估每一步的质量。

机制 1：保守筛选，形成隐式 Easy-First 课程

NTF 偏好选择低难度（低评分）的谜题。这不是 bug，而是 feature——简单实例构成了隐式的"先易后难"课程，对较小模型的训练有帮助。但消融显示，难度匹配只能解释部分增益，在更大模型上效果消失，所以这不是故事的全部。

机制 2：66.1% 的"假阳性"其实比真值更强

NTF 保留的"假阳性"中（即 NTF 认为高信任但数据标注为错误的走法），Stockfish 评估显示：

分布有大量负值（NTF 走法比真值走法更强）
66.1% 的 NTF 保留走法导致赢棋（mate）

也就是说，很多被数据集标记为"错误"的答案，实际上比标注的真值更优。NTF 的"错误"很多时候是在发现数据集的标注错误。

实验验证：把 NTF 保留的实例重新用真值标注（NTF-GT），结果反而比 NTF 本身稍差。这说明那些"错误的"弱标签确实提供了有用的监督信号。

机制 3：更一致的梯度方向

NTF 筛选后的训练数据产生的梯度，在主导子空间中能量更集中，奇异值衰减更快。这意味着更新方向更"一致"——不同样本在推动模型往相似的方向走，而不是互相拉扯。这解释了为什么 NTF 用更少但更高质量的样本，能比用全部真值样本训练得更好。

---

八、风险可控的数据选择

实际部署中，你不知道该保留多少样本。作者提供了一个基于 Hoeffding 不等式的校准程序：

用一小部分有标注的目标数据做校准，对每个候选信任阈值 θ 计算噪声率的上置信界 U(θ)，选择满足 U(θ) ≤ α 的最大包容阈值。

实验显示：选出的 θ* = 0.895 保留了 16.1% 的部署池，实际噪声率低于目标水平 α=0.1。这给了实践者一个不用调参就能控制标签质量的工具。

---

九、局限与边界

1. 需要标注的源数据：NTF 本身需要一些标注数据来训练，无法在完全零标注的场景启动（不过可以利用已有标注的老数据） 2. 仅限结果监督：目前只预测最终答案的正确性，没有探索过程监督（如每步推理的奖励） 3. 架构限制：只用了简单 MLP 作用于单 token 隐藏状态，更复杂的架构（如注意力机制 NTF）可能捕获更多时序推理信号 4. 跨领域失效：NTF 在相同任务接口（同领域）内零样本迁移有效，但跨任务接口（如 MCQA → 棋类）会退化

---

十、意义：数据选择的范式转移

这篇论文的核心贡献不是又一个训练技巧，而是重新定义了弱到强泛化的视角——从"如何训练模型去纠正弱标签"转向"如何筛选弱标签中值得信任的部分"。

它证明了： 1. 弱教师的内部表示比它的输出概率更懂自己什么时候在胡说 2. 用对的数据比对的数据量更重要——NTF 保留的 16% 高质量子集，效果超过全量真值 3. 弱到强可以不是一次性跳跃，而是迭代滚雪球——每一轮学生变成下一轮教师，复合增益

对于资源受限的团队、垂直领域（医学、科学）中标注昂贵的场景，以及合成数据泛滥但质量参差不齐的时代，NTF 提供了一个近乎零成本的过滤机制。

---

参考文献

Uzunoğlu, A., Zhang, A., & Khashabi, D. (2026). *Trust Functions: Near-Lossless Weak-to-Strong Generalization by Learning When to Trust the Weak Teacher*. arXiv:2606.01000. ICML 2026. https://arxiv.org/abs/2606.01000
Burns, C., et al. (2023). *Weak-to-Strong Generalization: Eliciting Strong Capabilities with Weak Supervision*. arXiv:2312.09390
Kadavath, S., et al. (2022). *Language Models (Mostly) Know What They Know*. arXiv:2207.05221

#弱到强泛化 #数据选择 #信任函数 #弱监督 #大语言模型 #ICML2026 #AI训练 #数据质量