14B 碾压 GPT-5.2：知识图谱是隐式奖励模型

> Kansal, Yuval and Jha, Niraj K. *Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning.* arXiv:2601.15160, 2026. > 机构：普林斯顿大学 | 代码：https://github.com/yuvalkansal/kg_si_rl

---

一、一句话：小模型凭什么赢大模型？

普林斯顿团队拿 Qwen3-14B，在医学知识图谱上跑了一套 SFT+RL 训练流程。

结果：14B 模型在 5 跳推理上碾压 GPT-5.2、Gemini 3 Pro 这种通用巨兽，在最难的 Level-5 任务上把基线模型的 19.94% 拉到 56.75%——近三倍提升。

秘密不在模型大小，而在奖励信号的设计：他们把知识图谱的路径结构，变成了强化学习的隐式奖励模型。

这不是"教模型记住答案"，而是教模型学会组合。

---

二、问题背景：为什么 LLM 在多跳推理上一碰就碎？

数学和编程上，大模型已经接近专家水平。但医学这种需要组合多跳推理的领域，模型表现依然脆弱。

为什么？

现有后训练方法——RLHF、DPO、蒸馏——都在优化最终输出，奖励的是"答对了"，不是"怎么推出来的"。

这导致两个致命问题：

组合泛化差：训练时见过的短链能背，没见过的长链不会推
表面线索依赖：选项顺序一变，准确率暴跌

普林斯顿团队的核心洞察：知识图谱本身就是最天然的奖励模型。

KG 里的路径（symptom → pathophysiology → mechanism → intervention）就是正确的推理链。如果模型生成的推理和 KG 路径对齐，那它就在"正确地思考"——哪怕最终答案还没出来。

---

三、方法：两条奖励信号，一座组合桥梁

3.1 训练流程

Base Qwen3-14B
    ↓ SFT (LoRA, 19,660 条, 1-3 hop)
SFT-Checkpoint
    ↓ RL (GRPO, 5,000 条 diverse subset)
SFT+RL Final

SFT 阶段：模型先"记住"原子知识——症状、疾病、机制之间的基本关联
RL 阶段：GRPO 用路径对齐奖励，逼模型学会"组合"

关键设计：RL 的数据不是 SFT 的子集，而是专门筛选的高多样性 5k 子集，确保覆盖所有 ICD-10 类别和稀有路径模式。

3.2 奖励函数

两条信号并行：

R_bin（二分类正确性）：答对 +1，答错 -1。但这里有个关键细节——用的是负向强化（negative reinforcement），即答错的惩罚比答对的奖励更重。

> 消融实验证明：Normal binary（仅正向）不如 Negative binary 稳定。

R_path（路径对齐）：计算模型推理标签内的 token 与 KG 路径的 overlap，奖励语义覆盖，带重复惩罚。

> R_path 的意义：即使模型还没答对，只要推理在"沿着正确路径走"，就给正反馈。这就是"过程监督"，不是"结果监督"。

两条奖励合起来，KG 成了一个隐式的过程奖励模型——不需要人工标注推理步骤，KG 的结构本身就是 ground truth。

---

四、实验结果：每一组数字都在讲同一个故事

4.1 跨跳长泛化：1-3 hop 训练 → 4-5 hop 零样本

这是论文最核心的 claim：

Hop	SFT-Only	SFT+RL	提升
2	~76%	~80%	+4%
3	~72%	~78%	+6%
4 (unseen)	~71%	~78.5%	+7.5%
5 (unseen)	~72%	~83.1%	+11.1%

注意：4-hop 和 5-hop 在训练时完全没见过。SFT+RL 不仅在未见任务上泛化，而且跳数越长，优势越大。

SFT+RL 在 5-hop 达到最高准确率 89.33%。论文把这叫"positive compositional gradient"——组合梯度为正，越难越稳。

4.2 难度分层：Level-5 近三倍提升

ICD-Bench 按难度分 5 级（Level-1 最简单，Level-5 最难）：

难度	Base Model	SFT-Only	SFT+RL
Level-1	-	-	93.49% (近天花板)
Level-5	19.94%	48.93%	56.75%

Level-5 上，基线模型 19.94%——4 选 1 随机是 25%，它连随机都不如。SFT 拉到 48.93%，SFT+RL 再推到 56.75%。

SFT memorizes, RL generalizes。 SFT 把原子知识灌进去，RL 教它怎么组合。

4.3 碾压 GPT-5.2 和 Gemini 3 Pro

这是用户最关心的对比：

Frontier Models 的致命弱点：GPT-5.2 和 Gemini 3 Pro 在短 hop（2-3）上还行，但 hop 数一增加，准确率停滞甚至下降。这是通用模型的通病——它们没有领域 KG 的 grounding，靠统计模式匹配，链越长越脆弱。

14B SFT+RL 的反直觉表现：准确率随 hop 数上升，在 5-hop 达到顶峰 89.33%。

原因很直接：KG 路径奖励教的是"推理的结构"，不是"答案的分布"。模型学会了怎么组合，而不是记住了什么组合。

4.4 vs QwQ-Med-3 (32B)：小模型赢在大推理

QwQ-Med-3 是专门蒸馏的 32B 医学推理模型（Dedhia et al., 2025），用 majority voting (n=16)：

难度	QwQ-Med-3 (32B)	Ours-14B	Δ
1	96.75%	94.23%	-2.52%
2	83.79%	85.63%	+1.84%
3	79.33%	80.33%	+1.00%
4	70.56%	71.50%	+0.94%
5	49.69%	59.05%	+9.36%

32B 的专用模型在简单题（事实回忆）上有优势，但越难，14B 的 SFT+RL 优势越大。Level-5 上甩开近 10 个百分点。

这验证了一个核心论点：scale 解决的是知识广度，path-aligned rewards 解决的是推理深度。

4.5 Option Shuffling 鲁棒性：1% vs 4-6%

把错误选项的顺序随机打乱，正确答案位置不变：

模型	Standard	Shuffled	Δ
SFT-Only	75.95%	74.91%	-1.04%
SFT+RL	83.62%	82.45%	-1.17%
GPT-5 / Gemini-2.5 Pro	-	-	-4%~-6%

SFT+RL 仅掉 1% 左右，而 GPT-5 和 Gemini-2.5 Pro 掉 4-6%。

原因：KG-grounded 训练逼模型基于可验证的推理路径找答案，不是记选项位置。

4.6 奖励消融：少即是多

8B 模型上的消融实验（RL 5k steps，SFT 19.66k baseline）：

奖励配置	准确率
SFT Baseline	73.30%
Path Only	~82.3% (+9%)
Normal Binary + Path	较低
Negative Binary + Path	82.20% (最高)
All Rewards (4种全上)	55.21% (崩溃)

三个关键洞察：

1. Path alignment 本身就足够：即使没有二分类奖励，纯路径对齐就能 +9%。KG 本身确实是隐式奖励模型。 2. 负向强化更稳定：Normal binary（只奖不罚）不如 Negative binary（答错重罚）。 3. 奖励不是越多越好：四种奖励全上，性能暴跌到 55.21%。Reward over-optimization 是真实存在的——信号一多，模型开始 hack reward，忘了正事。

---

五、为什么这很重要？三个层面

5.1 技术层面：RLVR 的新范式

这属于 RLVR（Reinforcement Learning with Verifiable Rewards）的扩展。

传统 RLVR 的奖励是"答案对不对"——数学题的数值验证、代码的单元测试。这篇论文把奖励扩展到了结构化知识的可验证性——KG 路径是否匹配。

这意味着：任何有明确结构知识的领域（医学、法律、工程），都可以用 KG 做隐式奖励模型，而不需要昂贵的人工标注。

5.2 效率层面：小模型赢大模型的路径

14B > GPT-5.2 / Gemini 3 Pro / 32B domain expert。

不是参数竞赛，是信号设计竞赛。

当通用模型还在靠 scale 堆知识广度时，domain-specific 的 KG-grounded RL 已经在推理深度上超车。

5.3 认知层面：神经符号 AI 的落地形态

这本质上是一种神经符号混合架构：

神经网络负责语言生成和模式学习
知识图谱负责提供结构化、可验证的奖励信号

KG 不是被硬编码进模型结构（那样会失去灵活性），而是作为外部验证器参与训练。模型仍然是一个端到端的 LLM，但它的奖励函数被锚定在符号知识上。

这规避了纯神经网络的不可解释性，又没有牺牲端到端训练的便利性。

---

六、局限与值得追问的地方

1. KG 质量依赖：方法假设 KG 本身是高质量、完整的。如果 KG 有错误，奖励信号就会传播错误。医学 KG（UMLS）相对成熟，其他领域呢？

2. 领域迁移成本：论文的 data loader、path alignment reward 都和特定 KG schema 绑定。换个领域需要重新适配。

3. 训练数据规模：24k 训练样本在 LLM 领域算小的。这个量级能 work，说明 KG 奖励的信号效率很高，但也意味着上限可能受限于数据量。

4. RL Alone 不够：Zero-RL（不做 SFT 直接上 RL）全失败了。说明 KG 奖励不能从零教会模型领域知识，它只能教"怎么组合"。

5. 开放域的适用性：ICD-Bench 是结构化多选题。开放域生成任务上，KG 路径奖励怎么设计？

---

七、总结

这篇论文的价值不是"14B 赢了 GPT-5.2"这个数字本身，而是它展示了一种可复用的范式：

> 把结构化知识变成可验证的奖励信号，教模型学会组合而非记忆。

三个关键 takeaway：

1. KG 是隐式奖励模型——不需要人工标注推理步骤，KG 路径本身就是过程监督 2. SFT 给原子，RL 教组合——两者缺一不可 3. 奖励设计比模型大小更重要——Negative binary + Path alignment 的组合，远胜无脑堆参数

对做垂直领域 AI 的人来说，这是一条明确的路：不要和通用模型拼知识广度，用领域 KG 做奖励，在推理深度上建立壁垒。

---

参考

Kansal, Y. & Jha, N. K. (2026). Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning. *arXiv preprint arXiv:2601.15160*.
Dedhia et al. (2025). Bottom-up Domain-specific Superintelligence: A Reliable Knowledge Graph is What We Need. *arXiv:2507.13966*.
Yasunaga et al. (2021). QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering. *NAACL 2021*.

#论文拆解 #知识图谱 #强化学习 #RLVR #组合推理 #医学AI #Qwen3 #普林斯顿