14B 碾压 GPT-5.2:知识图谱是隐式奖励模型
> Kansal, Yuval and Jha, Niraj K. *Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning.* arXiv:2601.15160, 2026. > 机构:普林斯顿大学 | 代码:https://github.com/yuvalkansal/kg_si_rl
---
一、一句话:小模型凭什么赢大模型?
普林斯顿团队拿 Qwen3-14B,在医学知识图谱上跑了一套 SFT+RL 训练流程。
结果:14B 模型在 5 跳推理上碾压 GPT-5.2、Gemini 3 Pro 这种通用巨兽,在最难的 Level-5 任务上把基线模型的 19.94% 拉到 56.75%——近三倍提升。
秘密不在模型大小,而在奖励信号的设计:他们把知识图谱的路径结构,变成了强化学习的隐式奖励模型。
这不是"教模型记住答案",而是教模型学会组合。
---
二、问题背景:为什么 LLM 在多跳推理上一碰就碎?
数学和编程上,大模型已经接近专家水平。但医学这种需要组合多跳推理的领域,模型表现依然脆弱。
为什么?
现有后训练方法——RLHF、DPO、蒸馏——都在优化最终输出,奖励的是"答对了",不是"怎么推出来的"。
这导致两个致命问题:
- 组合泛化差:训练时见过的短链能背,没见过的长链不会推
- 表面线索依赖:选项顺序一变,准确率暴跌
KG 里的路径(symptom → pathophysiology → mechanism → intervention)就是正确的推理链。如果模型生成的推理和 KG 路径对齐,那它就在"正确地思考"——哪怕最终答案还没出来。
---
三、方法:两条奖励信号,一座组合桥梁
3.1 训练流程
Base Qwen3-14B
↓ SFT (LoRA, 19,660 条, 1-3 hop)
SFT-Checkpoint
↓ RL (GRPO, 5,000 条 diverse subset)
SFT+RL Final
- SFT 阶段:模型先"记住"原子知识——症状、疾病、机制之间的基本关联
- RL 阶段:GRPO 用路径对齐奖励,逼模型学会"组合"
3.2 奖励函数
两条信号并行:
R_bin(二分类正确性):答对 +1,答错 -1。但这里有个关键细节——用的是负向强化(negative reinforcement),即答错的惩罚比答对的奖励更重。
> 消融实验证明:Normal binary(仅正向)不如 Negative binary 稳定。
R_path(路径对齐):计算模型推理 标签内的 token 与 KG 路径的 overlap,奖励语义覆盖,带重复惩罚。
> R_path 的意义:即使模型还没答对,只要推理在"沿着正确路径走",就给正反馈。这就是"过程监督",不是"结果监督"。
两条奖励合起来,KG 成了一个隐式的过程奖励模型——不需要人工标注推理步骤,KG 的结构本身就是 ground truth。
---
四、实验结果:每一组数字都在讲同一个故事
4.1 跨跳长泛化:1-3 hop 训练 → 4-5 hop 零样本
这是论文最核心的 claim:
| Hop | SFT-Only | SFT+RL | 提升 |
|---|---|---|---|
| 2 | ~76% | ~80% | +4% |
| 3 | ~72% | ~78% | +6% |
| 4 (unseen) | ~71% | ~78.5% | +7.5% |
| 5 (unseen) | ~72% | ~83.1% | +11.1% |
SFT+RL 在 5-hop 达到最高准确率 89.33%。论文把这叫"positive compositional gradient"——组合梯度为正,越难越稳。
4.2 难度分层:Level-5 近三倍提升
ICD-Bench 按难度分 5 级(Level-1 最简单,Level-5 最难):
| 难度 | Base Model | SFT-Only | SFT+RL |
|---|---|---|---|
| Level-1 | - | - | 93.49% (近天花板) |
| Level-5 | 19.94% | 48.93% | 56.75% |
SFT memorizes, RL generalizes。 SFT 把原子知识灌进去,RL 教它怎么组合。
4.3 碾压 GPT-5.2 和 Gemini 3 Pro
这是用户最关心的对比:
Frontier Models 的致命弱点:GPT-5.2 和 Gemini 3 Pro 在短 hop(2-3)上还行,但 hop 数一增加,准确率停滞甚至下降。这是通用模型的通病——它们没有领域 KG 的 grounding,靠统计模式匹配,链越长越脆弱。
14B SFT+RL 的反直觉表现:准确率随 hop 数上升,在 5-hop 达到顶峰 89.33%。
原因很直接:KG 路径奖励教的是"推理的结构",不是"答案的分布"。模型学会了怎么组合,而不是记住了什么组合。
4.4 vs QwQ-Med-3 (32B):小模型赢在大推理
QwQ-Med-3 是专门蒸馏的 32B 医学推理模型(Dedhia et al., 2025),用 majority voting (n=16):
| 难度 | QwQ-Med-3 (32B) | Ours-14B | Δ |
|---|---|---|---|
| 1 | 96.75% | 94.23% | -2.52% |
| 2 | 83.79% | 85.63% | +1.84% |
| 3 | 79.33% | 80.33% | +1.00% |
| 4 | 70.56% | 71.50% | +0.94% |
| 5 | 49.69% | 59.05% | +9.36% |
这验证了一个核心论点:scale 解决的是知识广度,path-aligned rewards 解决的是推理深度。
4.5 Option Shuffling 鲁棒性:1% vs 4-6%
把错误选项的顺序随机打乱,正确答案位置不变:
| 模型 | Standard | Shuffled | Δ |
|---|---|---|---|
| SFT-Only | 75.95% | 74.91% | -1.04% |
| SFT+RL | 83.62% | 82.45% | -1.17% |
| GPT-5 / Gemini-2.5 Pro | - | - | -4%~-6% |
原因:KG-grounded 训练逼模型基于可验证的推理路径找答案,不是记选项位置。
4.6 奖励消融:少即是多
8B 模型上的消融实验(RL 5k steps,SFT 19.66k baseline):
| 奖励配置 | 准确率 |
|---|---|
| SFT Baseline | 73.30% |
| Path Only | ~82.3% (+9%) |
| Normal Binary + Path | 较低 |
| Negative Binary + Path | 82.20% (最高) |
| All Rewards (4种全上) | 55.21% (崩溃) |
1. Path alignment 本身就足够:即使没有二分类奖励,纯路径对齐就能 +9%。KG 本身确实是隐式奖励模型。 2. 负向强化更稳定:Normal binary(只奖不罚)不如 Negative binary(答错重罚)。 3. 奖励不是越多越好:四种奖励全上,性能暴跌到 55.21%。Reward over-optimization 是真实存在的——信号一多,模型开始 hack reward,忘了正事。
---
五、为什么这很重要?三个层面
5.1 技术层面:RLVR 的新范式
这属于 RLVR(Reinforcement Learning with Verifiable Rewards)的扩展。
传统 RLVR 的奖励是"答案对不对"——数学题的数值验证、代码的单元测试。这篇论文把奖励扩展到了结构化知识的可验证性——KG 路径是否匹配。
这意味着:任何有明确结构知识的领域(医学、法律、工程),都可以用 KG 做隐式奖励模型,而不需要昂贵的人工标注。
5.2 效率层面:小模型赢大模型的路径
14B > GPT-5.2 / Gemini 3 Pro / 32B domain expert。
不是参数竞赛,是信号设计竞赛。
当通用模型还在靠 scale 堆知识广度时,domain-specific 的 KG-grounded RL 已经在推理深度上超车。
5.3 认知层面:神经符号 AI 的落地形态
这本质上是一种神经符号混合架构:
- 神经网络负责语言生成和模式学习
- 知识图谱负责提供结构化、可验证的奖励信号
这规避了纯神经网络的不可解释性,又没有牺牲端到端训练的便利性。
---
六、局限与值得追问的地方
1. KG 质量依赖:方法假设 KG 本身是高质量、完整的。如果 KG 有错误,奖励信号就会传播错误。医学 KG(UMLS)相对成熟,其他领域呢?
2. 领域迁移成本:论文的 data loader、path alignment reward 都和特定 KG schema 绑定。换个领域需要重新适配。
3. 训练数据规模:24k 训练样本在 LLM 领域算小的。这个量级能 work,说明 KG 奖励的信号效率很高,但也意味着上限可能受限于数据量。
4. RL Alone 不够:Zero-RL(不做 SFT 直接上 RL)全失败了。说明 KG 奖励不能从零教会模型领域知识,它只能教"怎么组合"。
5. 开放域的适用性:ICD-Bench 是结构化多选题。开放域生成任务上,KG 路径奖励怎么设计?
---
七、总结
这篇论文的价值不是"14B 赢了 GPT-5.2"这个数字本身,而是它展示了一种可复用的范式:
> 把结构化知识变成可验证的奖励信号,教模型学会组合而非记忆。
三个关键 takeaway:
1. KG 是隐式奖励模型——不需要人工标注推理步骤,KG 路径本身就是过程监督 2. SFT 给原子,RL 教组合——两者缺一不可 3. 奖励设计比模型大小更重要——Negative binary + Path alignment 的组合,远胜无脑堆参数
对做垂直领域 AI 的人来说,这是一条明确的路:不要和通用模型拼知识广度,用领域 KG 做奖励,在推理深度上建立壁垒。
---
参考
- Kansal, Y. & Jha, N. K. (2026). Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning. *arXiv preprint arXiv:2601.15160*.
- Dedhia et al. (2025). Bottom-up Domain-specific Superintelligence: A Reliable Knowledge Graph is What We Need. *arXiv:2507.13966*.
- Yasunaga et al. (2021). QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering. *NAACL 2021*.
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens