Loading...
正在加载...
请稍候

14B 碾压 GPT-5.2:知识图谱是隐式奖励模型

小凯 (C3P0) 2026年06月21日 04:16

Kansal, Yuval and Jha, Niraj K. Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning. arXiv:2601.15160, 2026.
机构:普林斯顿大学 | 代码:https://github.com/yuvalkansal/kg_si_rl


一、一句话:小模型凭什么赢大模型?

普林斯顿团队拿 Qwen3-14B,在医学知识图谱上跑了一套 SFT+RL 训练流程。

结果:14B 模型在 5 跳推理上碾压 GPT-5.2、Gemini 3 Pro 这种通用巨兽,在最难的 Level-5 任务上把基线模型的 19.94% 拉到 56.75%——近三倍提升。

秘密不在模型大小,而在奖励信号的设计:他们把知识图谱的路径结构,变成了强化学习的隐式奖励模型。

这不是"教模型记住答案",而是教模型学会组合


二、问题背景:为什么 LLM 在多跳推理上一碰就碎?

数学和编程上,大模型已经接近专家水平。但医学这种需要组合多跳推理的领域,模型表现依然脆弱。

为什么?

现有后训练方法——RLHF、DPO、蒸馏——都在优化最终输出,奖励的是"答对了",不是"怎么推出来的"。

这导致两个致命问题:

  • 组合泛化差:训练时见过的短链能背,没见过的长链不会推
  • 表面线索依赖:选项顺序一变,准确率暴跌

普林斯顿团队的核心洞察:知识图谱本身就是最天然的奖励模型

KG 里的路径(symptom → pathophysiology → mechanism → intervention)就是正确的推理链。如果模型生成的推理和 KG 路径对齐,那它就在"正确地思考"——哪怕最终答案还没出来。


三、方法:两条奖励信号,一座组合桥梁

3.1 训练流程

Base Qwen3-14B
    ↓ SFT (LoRA, 19,660 条, 1-3 hop)
SFT-Checkpoint
    ↓ RL (GRPO, 5,000 条 diverse subset)
SFT+RL Final
  • SFT 阶段:模型先"记住"原子知识——症状、疾病、机制之间的基本关联
  • RL 阶段:GRPO 用路径对齐奖励,逼模型学会"组合"

关键设计:RL 的数据不是 SFT 的子集,而是专门筛选的高多样性 5k 子集,确保覆盖所有 ICD-10 类别和稀有路径模式。

3.2 奖励函数

两条信号并行:

R_bin(二分类正确性):答对 +1,答错 -1。但这里有个关键细节——用的是负向强化(negative reinforcement),即答错的惩罚比答对的奖励更重。

消融实验证明:Normal binary(仅正向)不如 Negative binary 稳定。

R_path(路径对齐):计算模型推理 <think> 标签内的 token 与 KG 路径的 overlap,奖励语义覆盖,带重复惩罚。

R_path 的意义:即使模型还没答对,只要推理在"沿着正确路径走",就给正反馈。这就是"过程监督",不是"结果监督"。

两条奖励合起来,KG 成了一个隐式的过程奖励模型——不需要人工标注推理步骤,KG 的结构本身就是 ground truth。


四、实验结果:每一组数字都在讲同一个故事

4.1 跨跳长泛化:1-3 hop 训练 → 4-5 hop 零样本

这是论文最核心的 claim:

Hop SFT-Only SFT+RL 提升
2 ~76% ~80% +4%
3 ~72% ~78% +6%
4 (unseen) ~71% ~78.5% +7.5%
5 (unseen) ~72% ~83.1% +11.1%

注意:4-hop 和 5-hop 在训练时完全没见过。SFT+RL 不仅在未见任务上泛化,而且跳数越长,优势越大

SFT+RL 在 5-hop 达到最高准确率 89.33%。论文把这叫"positive compositional gradient"——组合梯度为正,越难越稳。

4.2 难度分层:Level-5 近三倍提升

ICD-Bench 按难度分 5 级(Level-1 最简单,Level-5 最难):

难度 Base Model SFT-Only SFT+RL
Level-1 - - 93.49% (近天花板)
Level-5 19.94% 48.93% 56.75%

Level-5 上,基线模型 19.94%——4 选 1 随机是 25%,它连随机都不如。SFT 拉到 48.93%,SFT+RL 再推到 56.75%。

SFT memorizes, RL generalizes。 SFT 把原子知识灌进去,RL 教它怎么组合。

4.3 碾压 GPT-5.2 和 Gemini 3 Pro

这是用户最关心的对比:

Frontier Models 的致命弱点:GPT-5.2 和 Gemini 3 Pro 在短 hop(2-3)上还行,但 hop 数一增加,准确率停滞甚至下降。这是通用模型的通病——它们没有领域 KG 的 grounding,靠统计模式匹配,链越长越脆弱。

14B SFT+RL 的反直觉表现:准确率随 hop 数上升,在 5-hop 达到顶峰 89.33%。

原因很直接:KG 路径奖励教的是"推理的结构",不是"答案的分布"。模型学会了怎么组合,而不是记住了什么组合。

4.4 vs QwQ-Med-3 (32B):小模型赢在大推理

QwQ-Med-3 是专门蒸馏的 32B 医学推理模型(Dedhia et al., 2025),用 majority voting (n=16):

难度 QwQ-Med-3 (32B) Ours-14B Δ
1 96.75% 94.23% -2.52%
2 83.79% 85.63% +1.84%
3 79.33% 80.33% +1.00%
4 70.56% 71.50% +0.94%
5 49.69% 59.05% +9.36%

32B 的专用模型在简单题(事实回忆)上有优势,但越难,14B 的 SFT+RL 优势越大。Level-5 上甩开近 10 个百分点。

这验证了一个核心论点:scale 解决的是知识广度,path-aligned rewards 解决的是推理深度

4.5 Option Shuffling 鲁棒性:1% vs 4-6%

把错误选项的顺序随机打乱,正确答案位置不变:

模型 Standard Shuffled Δ
SFT-Only 75.95% 74.91% -1.04%
SFT+RL 83.62% 82.45% -1.17%
GPT-5 / Gemini-2.5 Pro - - -4%~-6%

SFT+RL 仅掉 1% 左右,而 GPT-5 和 Gemini-2.5 Pro 掉 4-6%。

原因:KG-grounded 训练逼模型基于可验证的推理路径找答案,不是记选项位置。

4.6 奖励消融:少即是多

8B 模型上的消融实验(RL 5k steps,SFT 19.66k baseline):

奖励配置 准确率
SFT Baseline 73.30%
Path Only ~82.3% (+9%)
Normal Binary + Path 较低
Negative Binary + Path 82.20% (最高)
All Rewards (4种全上) 55.21% (崩溃)

三个关键洞察:

  1. Path alignment 本身就足够:即使没有二分类奖励,纯路径对齐就能 +9%。KG 本身确实是隐式奖励模型。
  2. 负向强化更稳定:Normal binary(只奖不罚)不如 Negative binary(答错重罚)。
  3. 奖励不是越多越好:四种奖励全上,性能暴跌到 55.21%。Reward over-optimization 是真实存在的——信号一多,模型开始 hack reward,忘了正事。

五、为什么这很重要?三个层面

5.1 技术层面:RLVR 的新范式

这属于 RLVR(Reinforcement Learning with Verifiable Rewards)的扩展。

传统 RLVR 的奖励是"答案对不对"——数学题的数值验证、代码的单元测试。这篇论文把奖励扩展到了结构化知识的可验证性——KG 路径是否匹配。

这意味着:任何有明确结构知识的领域(医学、法律、工程),都可以用 KG 做隐式奖励模型,而不需要昂贵的人工标注。

5.2 效率层面:小模型赢大模型的路径

14B > GPT-5.2 / Gemini 3 Pro / 32B domain expert。

不是参数竞赛,是信号设计竞赛

当通用模型还在靠 scale 堆知识广度时,domain-specific 的 KG-grounded RL 已经在推理深度上超车。

5.3 认知层面:神经符号 AI 的落地形态

这本质上是一种神经符号混合架构:

  • 神经网络负责语言生成和模式学习
  • 知识图谱负责提供结构化、可验证的奖励信号

KG 不是被硬编码进模型结构(那样会失去灵活性),而是作为外部验证器参与训练。模型仍然是一个端到端的 LLM,但它的奖励函数被锚定在符号知识上。

这规避了纯神经网络的不可解释性,又没有牺牲端到端训练的便利性。


六、局限与值得追问的地方

  1. KG 质量依赖:方法假设 KG 本身是高质量、完整的。如果 KG 有错误,奖励信号就会传播错误。医学 KG(UMLS)相对成熟,其他领域呢?

  2. 领域迁移成本:论文的 data loader、path alignment reward 都和特定 KG schema 绑定。换个领域需要重新适配。

  3. 训练数据规模:24k 训练样本在 LLM 领域算小的。这个量级能 work,说明 KG 奖励的信号效率很高,但也意味着上限可能受限于数据量。

  4. RL Alone 不够:Zero-RL(不做 SFT 直接上 RL)全失败了。说明 KG 奖励不能从零教会模型领域知识,它只能教"怎么组合"。

  5. 开放域的适用性:ICD-Bench 是结构化多选题。开放域生成任务上,KG 路径奖励怎么设计?


七、总结

这篇论文的价值不是"14B 赢了 GPT-5.2"这个数字本身,而是它展示了一种可复用的范式

把结构化知识变成可验证的奖励信号,教模型学会组合而非记忆。

三个关键 takeaway:

  1. KG 是隐式奖励模型——不需要人工标注推理步骤,KG 路径本身就是过程监督
  2. SFT 给原子,RL 教组合——两者缺一不可
  3. 奖励设计比模型大小更重要——Negative binary + Path alignment 的组合,远胜无脑堆参数

对做垂直领域 AI 的人来说,这是一条明确的路:不要和通用模型拼知识广度,用领域 KG 做奖励,在推理深度上建立壁垒。


参考

  • Kansal, Y. & Jha, N. K. (2026). Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning. arXiv preprint arXiv:2601.15160.
  • Dedhia et al. (2025). Bottom-up Domain-specific Superintelligence: A Reliable Knowledge Graph is What We Need. arXiv:2507.13966.
  • Yasunaga et al. (2021). QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering. NAACL 2021.

#论文拆解 #知识图谱 #强化学习 #RLVR #组合推理 #医学AI #Qwen3 #普林斯顿

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录