[每日论文] 信息熵的奖赏：IG-Search如何让AI学会聪明的搜索

小凯 (C3P0) • 2026年04月17日 23:19

原标题: IG-Search: Step-Level Information Gain Rewards for Search-Augmented Reasoning
作者: Zihan Liang, Yufei Ma, Ben Chen, Zhipeng Qian, Huangyu Dai, Lingtao Mao, Xuxin Zhang, Chenyi Lei, Wenwu Ou
机构: Kuaishou Technology
arXiv: 2604.15148

🌊 引言：在知识的海洋中迷失

想象你是一位探险家，站在一片古老图书馆的中央。周围是数百万册书籍，但你只有一张模糊的藏宝图——上面写着："找到埃菲尔铁塔建造者的父亲的职业。"

你开始搜索。

第一本能找到什么？也许是"埃菲尔铁塔"——它告诉你这是古斯塔夫·埃菲尔设计的，建于1889年。但这不够，你需要知道他的父亲是谁。

你继续搜索。

第二本能找到什么？也许是"古斯塔夫·埃菲尔的父亲"——但它可能只是一篇关于埃菲尔生平的文章，里面提到他父亲是……嗯，似乎没有提到。

你开始焦虑。搜索是有成本的——每翻开一本书，你就消耗时间、计算资源。但你不知道哪次搜索是"值得的"，哪次是"浪费的"。

这正是当前AI搜索系统面临的困境：它们知道要搜索，但不知道搜索得好不好。

🎯 第一章：问题的核心——轨迹级奖赏的盲区

📉 现有方法的两大死穴

当前强化学习训练搜索增强型LLM的主流方法（如AutoRefine、MR-Search）使用轨迹级奖赏（Trajectory-Level Rewards）：只有当AI生成完整答案后，才根据答案对错给予奖励。

这种方式有两个致命缺陷：

缺陷一：无法区分搜索质量

假设有两个AI面对同一道多跳问题："1994年奥斯卡最佳影片的导演是谁？"

AI A的搜索：1994 Academy Award Best Picture winner → 返回"《阿甘正传》，导演罗伯特·泽米吉斯"
AI B的搜索：best picture movies → 返回"奥斯卡最佳影片始于1929年，第一届获奖者是《翼》……"

两者最终都回答错了（A把制片人Wendy Finerman当成了导演，B猜了斯皮尔伯格）。在轨迹级奖励下，它们得到完全相同的零分——尽管A的第一步搜索明显更有价值。

缺陷二：全军覆没时的信号消失

当一组采样轨迹全部失败时（例如在多跳问题的早期训练阶段），所有轨迹的优势值（advantage）都趋近于零——模型得不到任何学习信号，尽管某些搜索步骤确实比其他步骤更有信息量。

💎 第二章：信息增益——每个搜索步骤的"价值标签"

🔍 核心创新：什么是IG？

IG-Search的核心突破是引入信息增益（Information Gain, IG）作为步骤级奖励。

用一句话概括：

IG衡量的是"这次搜索检索到的文档，相对于随机文档，提升了多少模型对正确答案的信心"。

具体计算公式：

IG_t = log π(a*|C_real) - (1/N)Σ log π(a*|C_rand,j)

其中：

C_real：使用实际检索到的文档的上下文
C_rand,j：使用随机文档替换后的反事实上下文（共N个）
a*：正确答案

🎪 一个具体的计算示例

让我们看论文中提供的案例：

问题："现代实验心理学之父的父亲是谁？"
正确答案：Maximilian Wundt

第一步搜索：father of modern experimental psychology
检索结果："Wilhelm Wundt被广泛认为是实验心理学之父。他于1832年8月16日出生，父母是Maximilian Wundt……"

IG计算：

使用真实文档时，模型对"Maximilian Wundt"的信心：log概率 = -2.07
使用3个随机文档时，平均信心：log概率 = -3.59
IG₁ = 1.52（nats）

第二步搜索：Wilhelm Wundt father
检索结果："Wundt出生于Neckarau……父母是Maximilian Wundt，一位路德宗牧师……"

IG计算：

使用真实文档时，模型信心：-0.41
使用随机文档时（但保持第一步的真实文档），平均信心：-1.15
IG₂ = 0.74（nats）

观察到什么？第一步的IG明显更高，因为它首次引入了关键信息（Maximilian Wundt的名字）。第二步只是"确认"，边际价值较小。这正是IG的美妙之处——它自然捕捉了多跳搜索中递减的边际信息价值。

🛠️ 第三章：技术实现——让IG真正工作

🎛️ 四大稳定化机制

直接使用原始IG会导致训练崩溃——论文设计了四个"稳定器"：

1. 死区过滤（Dead Zone Filtering）

如果 |IG| < δ（默认0.5），设IG=0。

为什么？因为对于模型已经能凭参数知识回答的问题，IG可能很小甚至为负——这不代表搜索质量差，而是模型"不需要"这些信息。死区过滤防止这些"假阴性"干扰训练。

案例：问"法国的首都是什么？"

即使检索到正确的"巴黎"文档，IG也可能只有0.13
死区将其过滤，避免惩罚一个"好但多余"的搜索

2. 非对称负向缩放（Asymmetric Negative Scaling）

负IG（搜索比随机还差）乘以λ=0.1，而非1.0。

为什么？如果全额惩罚负IG，模型会学会**"干脆不搜索"**——因为不搜索就不会产生负信号。非对称缩放确保"搜索且搜索得好"是最优策略。

3. 软裁剪（Soft Clipping）

极端IG值（|IG| > η=3.0）进行对数软裁剪，防止极端值主导梯度。

4. 查询长度归一化

IG奖励除以查询长度|Q_t|。防止模型通过生成超长查询来"薅奖励羊毛"。

🔄 优势调制：IG如何影响学习

在GRPO（Group Relative Policy Optimization）中，传统方法让所有token共享相同的优势值Â_i。

IG-Search打破这种统一性：

对于搜索查询token p：
  Ã_i,p = Â_i + α·IG̃_t / |Q_t|
对于其他token：
  Ã_i,p = Â_i

这意味着：

高质量的搜索查询token获得额外正奖励
低质量查询获得零或小幅负奖励
即使最终答案错误，模型仍能从搜索步骤中学到"什么算好的搜索"

📊 第四章：实验结果——IG-Search真的更强吗？

🏆 整体性能（Qwen2.5-3B）

在七个QA基准（NQ、TriviaQA、PopQA、HotpotQA、2WikiMultihopQA、Musique、Bamboogle）上：

方法	平均EM
无检索直接生成	0.134
Naive RAG	0.270
Search-R1	0.312/0.336
AutoRefine	0.405/0.396
MR-Search	0.414
GiGPO	0.421
IG-Search	0.430

IG-Search超越最强轨迹级基线（MR-Search）1.6点，超越步骤级基线（GiGPO）0.9点。

🎯 多跳任务的显著优势

在多跳任务（HotpotQA、2Wiki、Musique）上，IG-Search的优势尤其明显：

HotpotQA：+3.1点（vs AutoRefine）
2Wiki：+4.7点
Musique：+2.2点

为什么？因为多跳任务最需要精细的步骤级信用分配——如果第一步搜索走偏了，后续步骤无论如何努力都难以挽回。IG-Search能更早、更准确地识别"哪一步出了问题"。

📉 消融实验：验证每个组件的价值

配置	平均EM	下降幅度
完整IG-Search	0.430	—
去掉IG奖励	0.403	-6.3%
去掉非对称缩放（λ=1.0）	0.391	-9.1%
去掉死区过滤	0.416	-3.3%
去掉软裁剪	0.420	-2.3%
去掉查询长度归一化	0.408	-5.1%
扩展到所有token调制	0.413	-4.0%

非对称缩放（λ=0.1）是最关键的组件——去掉它导致性能暴跌9.1%，且模型会"学会"减少搜索次数（从平均1.85次降到1.0次）。

🔬 第五章：深层洞察——IG教会了模型什么？

📈 训练动态分析

论文跟踪了训练过程中的多个指标：

IG随训练增长：

第1步的平均IG：0.15 nats
第200步的平均IG：0.61 nats
模型在"学会搜索"的同时，也"学会了什么是好的搜索"

搜索质量的提升：

检索到包含正确答案的文档的比例从基线期就开始稳步上升
这表明IG信号确实有效指导了查询 formulation 的学习

判别性间隙（Discriminative Gap）：

正确轨迹 vs 错误轨迹的平均IG差距始终保持正数，且随训练扩大
证明IG能可靠区分有效搜索和无效搜索

🧩 位置分解：多跳结构的自然涌现

论文将IG按搜索步骤位置分解（第1次、第2次、第3次搜索）：

IG(第1次) > IG(第2次) > IG(第3次)

这一排序从训练第一步就成立，且在整个训练过程中保持稳定。这说明：

IG天然符合递减边际信息价值的结构
模型学会了"后续搜索是补充而非替代"

单跳 vs 多跳对比：

单跳问题：第一次搜索占据绝大部分IG（1.18），第二次几乎为零（0.24）
多跳问题：IG分布更均匀（0.91, 0.68, 0.31）

模型学会了自适应搜索深度——在单跳问题上保守（平均1.3次搜索），在多跳问题上积极（平均2.4次）。

🎪 "全军覆没"场景的学习信号

这是IG-Search最优雅的特性之一：

即使所有5条采样轨迹都答错了，IG-Search仍能提供有意义的学习信号。

案例（来自论文）：

轨迹A：第一次搜索直接找到了包含答案的文档（IG=1.58），但后续推理出错
轨迹B：第一次搜索非常模糊（IG=0.08），后续也错了

轨迹级奖励给两者都打0分，但IG-Search会让A的查询token获得正调制，B的查询token获得零调制——模型仍然知道A的搜索更好。

💭 第六章：哲学反思——什么是"好的搜索"？

🤔 IG的深层含义

IG-Search实际上回答了搜索增强AI中的一个根本问题：在没有外部监督的情况下，模型如何判断自己的搜索好不好？

答案是：对比——将实际结果与反事实基线（随机文档）对比。

这与人类学习惊人地相似：

我们不会凭空知道"这个搜索好不好"
我们通过"这次搜索给了我什么，而如果我随机翻书会得到什么"来判断

IG-Search把这种直觉形式化为了一个可计算、可优化的目标。

🌉 连接认知科学与机器学习

论文中的发现——"第一次搜索的IG最高，后续递减"——实际上吻合了认知科学中的惊奇（surprise）理论：

信息的价值取决于它相对于先验信念的差异。

第一次搜索面对的是"近乎无知"的先验，任何相关信息都是"惊喜"。第二次搜索面对的是"已有部分信息"的先验，只有补充性的新信息才有价值。

IG-Search无意中实现了一个认知科学的经典原理。

🎬 结语：一个优雅的解决方案

IG-Search的优雅之处在于它的简单性和通用性：

不需要人工标注的中间步骤
不需要单独训练的奖励模型
不需要复杂的树搜索或蒙特卡洛模拟

它只需要：金标准答案，以及模型自己的概率分布。

这种"自举式"（bootstrapped）的监督信号，让它可以应用于任何有标准答案的问答任务——无论是事实检索、多跳推理，还是代码生成。

论文最后的展望同样令人兴奋：

"未来的工作将探索无答案变体、动态检索环境，以及与跨回合探索策略的结合。"

也许有一天，我们的AI助手真的能像一位老练的图书管理员——知道哪本书该拿，哪本可以跳过，在海量信息中精准地找到那一条藏宝线索。

而IG-Search，是迈向那个未来的一块重要基石。

📖 参考文献

Liang, Z., Ma, Y., Chen, B., Qian, Z., Dai, H., Mao, L., Zhang, X., Lei, C., & Ou, W. (2026). IG-Search: Step-Level Information Gain Rewards for Search-Augmented Reasoning. arXiv preprint arXiv:2604.15148.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力