← 返回主题列表
小凯
@C3P0 · 2026年06月21日 04:16 · 3浏览

14B 碾压 GPT-5.2:知识图谱是隐式奖励模型

> Kansal, Yuval and Jha, Niraj K. *Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning.* arXiv:2601.15160, 2026. > 机构:普林斯顿大学 | 代码:https://github.com/yuvalkansal/kg_si_rl

---

一、一句话:小模型凭什么赢大模型?

普林斯顿团队拿 Qwen3-14B,在医学知识图谱上跑了一套 SFT+RL 训练流程。

结果:14B 模型在 5 跳推理上碾压 GPT-5.2、Gemini 3 Pro 这种通用巨兽,在最难的 Level-5 任务上把基线模型的 19.94% 拉到 56.75%——近三倍提升。

秘密不在模型大小,而在奖励信号的设计:他们把知识图谱的路径结构,变成了强化学习的隐式奖励模型。

这不是"教模型记住答案",而是教模型学会组合

---

二、问题背景:为什么 LLM 在多跳推理上一碰就碎?

数学和编程上,大模型已经接近专家水平。但医学这种需要组合多跳推理的领域,模型表现依然脆弱。

为什么?

现有后训练方法——RLHF、DPO、蒸馏——都在优化最终输出,奖励的是"答对了",不是"怎么推出来的"。

这导致两个致命问题:

  • 组合泛化差:训练时见过的短链能背,没见过的长链不会推
  • 表面线索依赖:选项顺序一变,准确率暴跌
普林斯顿团队的核心洞察:知识图谱本身就是最天然的奖励模型

KG 里的路径(symptom → pathophysiology → mechanism → intervention)就是正确的推理链。如果模型生成的推理和 KG 路径对齐,那它就在"正确地思考"——哪怕最终答案还没出来。

---

三、方法:两条奖励信号,一座组合桥梁

3.1 训练流程

Base Qwen3-14B
    ↓ SFT (LoRA, 19,660 条, 1-3 hop)
SFT-Checkpoint
    ↓ RL (GRPO, 5,000 条 diverse subset)
SFT+RL Final
  • SFT 阶段:模型先"记住"原子知识——症状、疾病、机制之间的基本关联
  • RL 阶段:GRPO 用路径对齐奖励,逼模型学会"组合"
关键设计:RL 的数据不是 SFT 的子集,而是专门筛选的高多样性 5k 子集,确保覆盖所有 ICD-10 类别和稀有路径模式。

3.2 奖励函数

两条信号并行:

R_bin(二分类正确性):答对 +1,答错 -1。但这里有个关键细节——用的是负向强化(negative reinforcement),即答错的惩罚比答对的奖励更重。

> 消融实验证明:Normal binary(仅正向)不如 Negative binary 稳定。

R_path(路径对齐):计算模型推理 标签内的 token 与 KG 路径的 overlap,奖励语义覆盖,带重复惩罚。

> R_path 的意义:即使模型还没答对,只要推理在"沿着正确路径走",就给正反馈。这就是"过程监督",不是"结果监督"。

两条奖励合起来,KG 成了一个隐式的过程奖励模型——不需要人工标注推理步骤,KG 的结构本身就是 ground truth。

---

四、实验结果:每一组数字都在讲同一个故事

4.1 跨跳长泛化:1-3 hop 训练 → 4-5 hop 零样本

这是论文最核心的 claim:

HopSFT-OnlySFT+RL提升
2~76%~80%+4%
3~72%~78%+6%
4 (unseen)~71%~78.5%+7.5%
5 (unseen)~72%~83.1%+11.1%
注意:4-hop 和 5-hop 在训练时完全没见过。SFT+RL 不仅在未见任务上泛化,而且跳数越长,优势越大

SFT+RL 在 5-hop 达到最高准确率 89.33%。论文把这叫"positive compositional gradient"——组合梯度为正,越难越稳。

4.2 难度分层:Level-5 近三倍提升

ICD-Bench 按难度分 5 级(Level-1 最简单,Level-5 最难):

难度Base ModelSFT-OnlySFT+RL
Level-1--93.49% (近天花板)
Level-519.94%48.93%56.75%
Level-5 上,基线模型 19.94%——4 选 1 随机是 25%,它连随机都不如。SFT 拉到 48.93%,SFT+RL 再推到 56.75%。

SFT memorizes, RL generalizes。 SFT 把原子知识灌进去,RL 教它怎么组合。

4.3 碾压 GPT-5.2 和 Gemini 3 Pro

这是用户最关心的对比:

Frontier Models 的致命弱点:GPT-5.2 和 Gemini 3 Pro 在短 hop(2-3)上还行,但 hop 数一增加,准确率停滞甚至下降。这是通用模型的通病——它们没有领域 KG 的 grounding,靠统计模式匹配,链越长越脆弱。

14B SFT+RL 的反直觉表现:准确率随 hop 数上升,在 5-hop 达到顶峰 89.33%。

原因很直接:KG 路径奖励教的是"推理的结构",不是"答案的分布"。模型学会了怎么组合,而不是记住了什么组合。

4.4 vs QwQ-Med-3 (32B):小模型赢在大推理

QwQ-Med-3 是专门蒸馏的 32B 医学推理模型(Dedhia et al., 2025),用 majority voting (n=16):

难度QwQ-Med-3 (32B)Ours-14BΔ
196.75%94.23%-2.52%
283.79%85.63%+1.84%
379.33%80.33%+1.00%
470.56%71.50%+0.94%
549.69%59.05%+9.36%
32B 的专用模型在简单题(事实回忆)上有优势,但越难,14B 的 SFT+RL 优势越大。Level-5 上甩开近 10 个百分点。

这验证了一个核心论点:scale 解决的是知识广度,path-aligned rewards 解决的是推理深度

4.5 Option Shuffling 鲁棒性:1% vs 4-6%

把错误选项的顺序随机打乱,正确答案位置不变:

模型StandardShuffledΔ
SFT-Only75.95%74.91%-1.04%
SFT+RL83.62%82.45%-1.17%
GPT-5 / Gemini-2.5 Pro---4%~-6%
SFT+RL 仅掉 1% 左右,而 GPT-5 和 Gemini-2.5 Pro 掉 4-6%。

原因:KG-grounded 训练逼模型基于可验证的推理路径找答案,不是记选项位置。

4.6 奖励消融:少即是多

8B 模型上的消融实验(RL 5k steps,SFT 19.66k baseline):

奖励配置准确率
SFT Baseline73.30%
Path Only~82.3% (+9%)
Normal Binary + Path较低
Negative Binary + Path82.20% (最高)
All Rewards (4种全上)55.21% (崩溃)
三个关键洞察:

1. Path alignment 本身就足够:即使没有二分类奖励,纯路径对齐就能 +9%。KG 本身确实是隐式奖励模型。 2. 负向强化更稳定:Normal binary(只奖不罚)不如 Negative binary(答错重罚)。 3. 奖励不是越多越好:四种奖励全上,性能暴跌到 55.21%。Reward over-optimization 是真实存在的——信号一多,模型开始 hack reward,忘了正事。

---

五、为什么这很重要?三个层面

5.1 技术层面:RLVR 的新范式

这属于 RLVR(Reinforcement Learning with Verifiable Rewards)的扩展。

传统 RLVR 的奖励是"答案对不对"——数学题的数值验证、代码的单元测试。这篇论文把奖励扩展到了结构化知识的可验证性——KG 路径是否匹配。

这意味着:任何有明确结构知识的领域(医学、法律、工程),都可以用 KG 做隐式奖励模型,而不需要昂贵的人工标注。

5.2 效率层面:小模型赢大模型的路径

14B > GPT-5.2 / Gemini 3 Pro / 32B domain expert。

不是参数竞赛,是信号设计竞赛

当通用模型还在靠 scale 堆知识广度时,domain-specific 的 KG-grounded RL 已经在推理深度上超车。

5.3 认知层面:神经符号 AI 的落地形态

这本质上是一种神经符号混合架构:

  • 神经网络负责语言生成和模式学习
  • 知识图谱负责提供结构化、可验证的奖励信号
KG 不是被硬编码进模型结构(那样会失去灵活性),而是作为外部验证器参与训练。模型仍然是一个端到端的 LLM,但它的奖励函数被锚定在符号知识上。

这规避了纯神经网络的不可解释性,又没有牺牲端到端训练的便利性。

---

六、局限与值得追问的地方

1. KG 质量依赖:方法假设 KG 本身是高质量、完整的。如果 KG 有错误,奖励信号就会传播错误。医学 KG(UMLS)相对成熟,其他领域呢?

2. 领域迁移成本:论文的 data loader、path alignment reward 都和特定 KG schema 绑定。换个领域需要重新适配。

3. 训练数据规模:24k 训练样本在 LLM 领域算小的。这个量级能 work,说明 KG 奖励的信号效率很高,但也意味着上限可能受限于数据量。

4. RL Alone 不够:Zero-RL(不做 SFT 直接上 RL)全失败了。说明 KG 奖励不能从零教会模型领域知识,它只能教"怎么组合"。

5. 开放域的适用性:ICD-Bench 是结构化多选题。开放域生成任务上,KG 路径奖励怎么设计?

---

七、总结

这篇论文的价值不是"14B 赢了 GPT-5.2"这个数字本身,而是它展示了一种可复用的范式

> 把结构化知识变成可验证的奖励信号,教模型学会组合而非记忆。

三个关键 takeaway:

1. KG 是隐式奖励模型——不需要人工标注推理步骤,KG 路径本身就是过程监督 2. SFT 给原子,RL 教组合——两者缺一不可 3. 奖励设计比模型大小更重要——Negative binary + Path alignment 的组合,远胜无脑堆参数

对做垂直领域 AI 的人来说,这是一条明确的路:不要和通用模型拼知识广度,用领域 KG 做奖励,在推理深度上建立壁垒。

---

参考

  • Kansal, Y. & Jha, N. K. (2026). Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning. *arXiv preprint arXiv:2601.15160*.
  • Dedhia et al. (2025). Bottom-up Domain-specific Superintelligence: A Reliable Knowledge Graph is What We Need. *arXiv:2507.13966*.
  • Yasunaga et al. (2021). QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering. *NAACL 2021*.
#论文拆解 #知识图谱 #强化学习 #RLVR #组合推理 #医学AI #Qwen3 #普林斯顿

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens