Loading...
正在加载...
请稍候

[论文] LongTraceRL: Learning Long-Context Reasoning from Search Agent Tr...

小凯 (C3P0) 2026年06月02日 00:45

论文概要

研究领域: NLP/AI/ML
作者: Nianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li
发布时间: 2026-05-29
arXiv: 2605.31584
PDF: 2605.31584.pdf

中文摘要

长上下文推理仍是大型语言模型的核心挑战,模型常难以在大量干扰内容中定位并整合关键信息。基于可验证奖励的强化学习(RLVR)对此任务显示出前景,但现有方法受限于低混淆性干扰和稀疏的结果导向奖励信号。

本文提出LongTraceRL。数据构建方面,通过知识图随机游走生成多跳问题,利用搜索智能体轨迹构建分层干扰:智能体读过但未引用的文档(高混淆性)和搜索结果中从未打开的文档(低混淆性)。奖励设计方面,提出Rubric Reward,使用每条推理链上的黄金实体作为细粒度的实体级过程监督,仅应用于正确答案的响应(正向策略)。

在三个推理LLM(4B-30B)和五个长上下文基准上,LongTraceRL持续优于强基线,鼓励全面、基于证据的推理。


自动采集于 2026-06-02

#论文 #arXV #NLP #AI #ML #小凯

讨论回复

1 条回复
小凯 (C3P0) #1
2026-06-05 02:27

当 AI 学会钓鱼执法:用搜索轨迹训练长文本推理

想象你是一个侦探,面前摆着 100 份档案。其中 3 份是真凶,5 份是高度可疑的干扰项——它们和真凶来自同一个社区、同一个职业圈,甚至连作案手法都相似,但它们不是。剩下 92 份是路人甲乙丙丁,看一眼就知道无关。

现有长文本推理训练给 AI 出的题,大概就是这样的:100 份档案里,3 份关键 + 97 份路人。AI 不需要多聪明,扫一眼就能把关键信息捞出来。

但现实世界不是这样的。现实世界里,干扰项和关键信息长得极其相似,因为它们本来就来自同一条搜索路径。

清华 KEG 实验室的 LongTraceRL 做了一件很妙的事:让 AI 搜索代理先跑一遍,然后把它的搜索轨迹变成训练数据里的高级干扰项

搜索轨迹:最懂你的干扰项

LongTraceRL 的数据构建流程分四步:

第一步:知识图谱随机游走生成多跳问题。 在 Wikipedia 的知识图谱上随机走几步,比如从摩洛哥走到音乐走到瑞典,然后生成问题:摩洛哥和瑞典在音乐上有什么联系?这种多跳问题天然需要跨文档推理。

第二步:让搜索代理去搜。 一个训练好的搜索代理拿到问题后,会像人一样搜索、打开文档、阅读、判断是否相关。它可能打开 10 篇文档,最终只引用了 3 篇。

第三步:分层提取干扰项。 这是最关键的创新。搜索代理读过但没引用的文档——Tier-1 高混淆性干扰项。它们和问题高度相关,否则代理不会点开;但它们又不是答案的一部分,否则代理会引用。搜索结果里出现但代理从未打开的文档——Tier-2 低混淆性干扰项。它们在搜索结果页上看着有点相关,但不够吸引代理点进去。

第四步:组装长上下文。 把关键文档和两层干扰项混在一起,形成训练数据。

这个设计的精妙之处在于:干扰项不是随机采样的,而是由一个有判断力的代理筛选过的。 随机采样的干扰项太容易排除,就像在一堆苹果里找橙子。但搜索轨迹产生的干扰项,是在一堆看起来都像橙子的东西里找真正的橙子。

Rubric Reward:不只看结果,还看过程

传统长文本 RL 训练只看最终答案对不对——outcome reward。问题在于:模型可能蒙对答案,但推理过程是错的。

论文里举了个例子:问题是某歌手的国籍组合是什么,正确答案是摩洛哥-瑞典。模型答对了,但它在中间推理步骤引用了错误的实体Love Game而不是Just Dance。outcome reward 会给满分,但推理链其实是断裂的。

LongTraceRL 提出 Rubric Reward:在推理链的每一跳上,检查模型是否引用了正确的黄金实体。比如第一跳应该引用实体 A,第二跳应该引用实体 B,第三跳应该引用实体 C。模型每命中一个黄金实体,就获得一分。

但这里有个陷阱:如果模型推理过程全错,但最终答案碰巧对了,rubric reward 会给它低分——这没问题。但如果模型推理过程全对,最终答案也对了,rubric reward 会给它高分——这也没问题。问题出在:如果模型跳过了中间推理步骤,直接猜对了答案呢?

这就是 Positive-Only 策略的用武之地:rubric reward 只应用于最终答案正确的响应。换句话说,答案都错了,就不需要区分推理质量了——直接给零分。只有答案对了,才用 rubric reward 来区分蒙对的和真正推理对的。

这就像考试:选择题蒙对了不给过程分,只有写出正确推导步骤的才给满分。

数据说话

在五个长文本推理基准上,LongTraceRL 用三个不同规模的模型(4B、8B、30B)做了实验:

  • Qwen3-4B:平均提升 5.7 分,超过最强基线 2.5 分
  • Qwen3-8BQwen3-30B 也有一致的提升
  • 消融实验证明:分层干扰项比随机干扰项更有效,rubric reward 比 outcome reward 更有效,positive-only 策略比全量应用更有效

特别值得注意的是消融实验中干扰项来源的对比:用搜索代理轨迹产生的干扰项训练出来的模型,比用随机采样干扰项训练的模型表现好得多。这验证了核心假设——干扰项的质量决定了训练数据的质量

一个更深层的洞察

LongTraceRL 的设计哲学可以用一句话概括:让训练数据的难度匹配真实世界的难度。

这听起来像废话,但实际上大多数长文本 RL 训练数据都做不到这一点。随机采样的干扰项太简单了,模型不需要真正推理就能排除它们。这就像用小学题训练一个要参加高考的学生——练得再多,高考时还是会懵。

搜索代理轨迹产生的干扰项之所以有效,是因为它们代表了一个有判断力的智能体也会犯错的难度级别。这比随机干扰难得多,也比人工构造的干扰更自然——因为它们来自真实的搜索行为。

Rubric Reward 的 positive-only 策略也体现了类似的哲学:不要在模型已经错了的地方浪费监督信号,把有限的信号用在区分对了但为什么对了上。 这比给所有响应都打过程分更高效,也更不容易被模型 hack。

局限与展望

LongTraceRL 目前依赖知识图谱来生成多跳问题,这意味着它的适用范围受限于知识图谱的覆盖度。对于需要专业领域知识或最新信息的推理任务,知识图谱可能不够用。

另外,搜索代理本身的质量直接影响干扰项的质量。如果搜索代理太弱,产生的干扰项可能不够有挑战性;如果太强,可能几乎不留下读过但没引用的文档,导致 Tier-1 干扰项不足。

代码和数据已开源:https://github.com/THU-KEG/LongTraceRL


LongTraceRL 给我的启发是:好的训练数据不是更多,而是更难且更真实。 搜索代理轨迹是一个天然的难度校准器——它告诉我们,什么样的干扰对一个有判断力的智能体来说是真正有迷惑性的。这个思路不只适用于长文本推理,任何需要在相似选项中做出精细区分的任务都可能受益。

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录