Kansal, Yuval and Jha, Niraj K. Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning. arXiv:2601.15160, 2026.
机构:普林斯顿大学 | 代码:https://github.com/yuvalkansal/kg_si_rl
一、一句话:小模型凭什么赢大模型?
普林斯顿团队拿 Qwen3-14B,在医学知识图谱上跑了一套 SFT+RL 训练流程。
结果:14B 模型在 5 跳推理上碾压 GPT-5.2、Gemini 3 Pro 这种通用巨兽,在最难的 Level-5 任务上把基线模型的 19.94% 拉到 56.75%——近三倍提升。
秘密不在模型大小,而在奖励信号的设计:他们把知识图谱的路径结构,变成了强化学习的隐式奖励模型。
这不是"教模型记住答案",而是教模型学会组合。
二、问题背景:为什么 LLM 在多跳推理上一碰就碎?
数学和编程上,大模型已经接近专家水平。但医学这种需要组合多跳推理的领域,模型表现依然脆弱。
为什么?
现有后训练方法——RLHF、DPO、蒸馏——都在优化最终输出,奖励的是"答对了",不是"怎么推出来的"。
这导致两个致命问题:
- 组合泛化差:训练时见过的短链能背,没见过的长链不会推
- 表面线索依赖:选项顺序一变,准确率暴跌
普林斯顿团队的核心洞察:知识图谱本身就是最天然的奖励模型。
KG 里的路径(symptom → pathophysiology → mechanism → intervention)就是正确的推理链。如果模型生成的推理和 KG 路径对齐,那它就在"正确地思考"——哪怕最终答案还没出来。
三、方法:两条奖励信号,一座组合桥梁
3.1 训练流程
Base Qwen3-14B
↓ SFT (LoRA, 19,660 条, 1-3 hop)
SFT-Checkpoint
↓ RL (GRPO, 5,000 条 diverse subset)
SFT+RL Final
- SFT 阶段:模型先"记住"原子知识——症状、疾病、机制之间的基本关联
- RL 阶段:GRPO 用路径对齐奖励,逼模型学会"组合"
关键设计:RL 的数据不是 SFT 的子集,而是专门筛选的高多样性 5k 子集,确保覆盖所有 ICD-10 类别和稀有路径模式。
3.2 奖励函数
两条信号并行:
R_bin(二分类正确性):答对 +1,答错 -1。但这里有个关键细节——用的是负向强化(negative reinforcement),即答错的惩罚比答对的奖励更重。
消融实验证明:Normal binary(仅正向)不如 Negative binary 稳定。
R_path(路径对齐):计算模型推理 <think> 标签内的 token 与 KG 路径的 overlap,奖励语义覆盖,带重复惩罚。
R_path 的意义:即使模型还没答对,只要推理在"沿着正确路径走",就给正反馈。这就是"过程监督",不是"结果监督"。
两条奖励合起来,KG 成了一个隐式的过程奖励模型——不需要人工标注推理步骤,KG 的结构本身就是 ground truth。
四、实验结果:每一组数字都在讲同一个故事
4.1 跨跳长泛化:1-3 hop 训练 → 4-5 hop 零样本
这是论文最核心的 claim:
| Hop | SFT-Only | SFT+RL | 提升 |
|---|---|---|---|
| 2 | ~76% | ~80% | +4% |
| 3 | ~72% | ~78% | +6% |
| 4 (unseen) | ~71% | ~78.5% | +7.5% |
| 5 (unseen) | ~72% | ~83.1% | +11.1% |
注意:4-hop 和 5-hop 在训练时完全没见过。SFT+RL 不仅在未见任务上泛化,而且跳数越长,优势越大。
SFT+RL 在 5-hop 达到最高准确率 89.33%。论文把这叫"positive compositional gradient"——组合梯度为正,越难越稳。
4.2 难度分层:Level-5 近三倍提升
ICD-Bench 按难度分 5 级(Level-1 最简单,Level-5 最难):
| 难度 | Base Model | SFT-Only | SFT+RL |
|---|---|---|---|
| Level-1 | - | - | 93.49% (近天花板) |
| Level-5 | 19.94% | 48.93% | 56.75% |
Level-5 上,基线模型 19.94%——4 选 1 随机是 25%,它连随机都不如。SFT 拉到 48.93%,SFT+RL 再推到 56.75%。
SFT memorizes, RL generalizes。 SFT 把原子知识灌进去,RL 教它怎么组合。
4.3 碾压 GPT-5.2 和 Gemini 3 Pro
这是用户最关心的对比:
Frontier Models 的致命弱点:GPT-5.2 和 Gemini 3 Pro 在短 hop(2-3)上还行,但 hop 数一增加,准确率停滞甚至下降。这是通用模型的通病——它们没有领域 KG 的 grounding,靠统计模式匹配,链越长越脆弱。
14B SFT+RL 的反直觉表现:准确率随 hop 数上升,在 5-hop 达到顶峰 89.33%。
原因很直接:KG 路径奖励教的是"推理的结构",不是"答案的分布"。模型学会了怎么组合,而不是记住了什么组合。
4.4 vs QwQ-Med-3 (32B):小模型赢在大推理
QwQ-Med-3 是专门蒸馏的 32B 医学推理模型(Dedhia et al., 2025),用 majority voting (n=16):
| 难度 | QwQ-Med-3 (32B) | Ours-14B | Δ |
|---|---|---|---|
| 1 | 96.75% | 94.23% | -2.52% |
| 2 | 83.79% | 85.63% | +1.84% |
| 3 | 79.33% | 80.33% | +1.00% |
| 4 | 70.56% | 71.50% | +0.94% |
| 5 | 49.69% | 59.05% | +9.36% |
32B 的专用模型在简单题(事实回忆)上有优势,但越难,14B 的 SFT+RL 优势越大。Level-5 上甩开近 10 个百分点。
这验证了一个核心论点:scale 解决的是知识广度,path-aligned rewards 解决的是推理深度。
4.5 Option Shuffling 鲁棒性:1% vs 4-6%
把错误选项的顺序随机打乱,正确答案位置不变:
| 模型 | Standard | Shuffled | Δ |
|---|---|---|---|
| SFT-Only | 75.95% | 74.91% | -1.04% |
| SFT+RL | 83.62% | 82.45% | -1.17% |
| GPT-5 / Gemini-2.5 Pro | - | - | -4%~-6% |
SFT+RL 仅掉 1% 左右,而 GPT-5 和 Gemini-2.5 Pro 掉 4-6%。
原因:KG-grounded 训练逼模型基于可验证的推理路径找答案,不是记选项位置。
4.6 奖励消融:少即是多
8B 模型上的消融实验(RL 5k steps,SFT 19.66k baseline):
| 奖励配置 | 准确率 |
|---|---|
| SFT Baseline | 73.30% |
| Path Only | ~82.3% (+9%) |
| Normal Binary + Path | 较低 |
| Negative Binary + Path | 82.20% (最高) |
| All Rewards (4种全上) | 55.21% (崩溃) |
三个关键洞察:
- Path alignment 本身就足够:即使没有二分类奖励,纯路径对齐就能 +9%。KG 本身确实是隐式奖励模型。
- 负向强化更稳定:Normal binary(只奖不罚)不如 Negative binary(答错重罚)。
- 奖励不是越多越好:四种奖励全上,性能暴跌到 55.21%。Reward over-optimization 是真实存在的——信号一多,模型开始 hack reward,忘了正事。
五、为什么这很重要?三个层面
5.1 技术层面:RLVR 的新范式
这属于 RLVR(Reinforcement Learning with Verifiable Rewards)的扩展。
传统 RLVR 的奖励是"答案对不对"——数学题的数值验证、代码的单元测试。这篇论文把奖励扩展到了结构化知识的可验证性——KG 路径是否匹配。
这意味着:任何有明确结构知识的领域(医学、法律、工程),都可以用 KG 做隐式奖励模型,而不需要昂贵的人工标注。
5.2 效率层面:小模型赢大模型的路径
14B > GPT-5.2 / Gemini 3 Pro / 32B domain expert。
不是参数竞赛,是信号设计竞赛。
当通用模型还在靠 scale 堆知识广度时,domain-specific 的 KG-grounded RL 已经在推理深度上超车。
5.3 认知层面:神经符号 AI 的落地形态
这本质上是一种神经符号混合架构:
- 神经网络负责语言生成和模式学习
- 知识图谱负责提供结构化、可验证的奖励信号
KG 不是被硬编码进模型结构(那样会失去灵活性),而是作为外部验证器参与训练。模型仍然是一个端到端的 LLM,但它的奖励函数被锚定在符号知识上。
这规避了纯神经网络的不可解释性,又没有牺牲端到端训练的便利性。
六、局限与值得追问的地方
-
KG 质量依赖:方法假设 KG 本身是高质量、完整的。如果 KG 有错误,奖励信号就会传播错误。医学 KG(UMLS)相对成熟,其他领域呢?
-
领域迁移成本:论文的 data loader、path alignment reward 都和特定 KG schema 绑定。换个领域需要重新适配。
-
训练数据规模:24k 训练样本在 LLM 领域算小的。这个量级能 work,说明 KG 奖励的信号效率很高,但也意味着上限可能受限于数据量。
-
RL Alone 不够:Zero-RL(不做 SFT 直接上 RL)全失败了。说明 KG 奖励不能从零教会模型领域知识,它只能教"怎么组合"。
-
开放域的适用性:ICD-Bench 是结构化多选题。开放域生成任务上,KG 路径奖励怎么设计?
七、总结
这篇论文的价值不是"14B 赢了 GPT-5.2"这个数字本身,而是它展示了一种可复用的范式:
把结构化知识变成可验证的奖励信号,教模型学会组合而非记忆。
三个关键 takeaway:
- KG 是隐式奖励模型——不需要人工标注推理步骤,KG 路径本身就是过程监督
- SFT 给原子,RL 教组合——两者缺一不可
- 奖励设计比模型大小更重要——Negative binary + Path alignment 的组合,远胜无脑堆参数
对做垂直领域 AI 的人来说,这是一条明确的路:不要和通用模型拼知识广度,用领域 KG 做奖励,在推理深度上建立壁垒。
参考
- Kansal, Y. & Jha, N. K. (2026). Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning. arXiv preprint arXiv:2601.15160.
- Dedhia et al. (2025). Bottom-up Domain-specific Superintelligence: A Reliable Knowledge Graph is What We Need. arXiv:2507.13966.
- Yasunaga et al. (2021). QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering. NAACL 2021.
#论文拆解 #知识图谱 #强化学习 #RLVR #组合推理 #医学AI #Qwen3 #普林斯顿
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。