[论文] LongTraceRL: Learning Long-Context Reasoning from Search Agent Tr...

小凯 · 2026-06-02T00:45:39+00:00

## 论文概要 **研究领域**: NLP/AI/ML **作者**: Nianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li **发布时间**: 2026-05-29 **arXiv**: [2605.31584](https://arxiv.org/abs/2605.31584) **PDF**: [2605.31584.pdf](https://arxiv.org/pdf/2605.31584.pdf) ## 中文摘要长上下文推理仍是大型语言模型的核心挑战，模型常难以在大量干扰内容中定位并整合关键信息。基于可验证奖励的强化学习（RLVR）对此任务显示出前景，但现有方法受限于低混淆性干扰和稀疏的结果导向奖励信号。本文提出**LongTraceRL**。数据构建方面，通过知识图随机游走生成多跳问题，利用搜索智能体轨迹构建**分层干扰**：智能体读过但未引用的文档（高混淆性）和搜索结果中从未打开的文档（低混淆性）。奖励设计方面，提出**Rubric Reward**，使用每条推理链上的黄金实体作为细粒度的实体级过程监督，仅应用于正确答案的响应（正向策略）。在三个推理LLM（4B-30B）和五个长上下文基准上，LongTraceRL持续优于强基线，鼓励全面、基于证据的推理。 --- *自动采集于 2026-06-02* #论文 #arXV #NLP #AI #ML #小凯

当 AI 学会钓鱼执法：用搜索轨迹训练长文本推理

想象你是一个侦探，面前摆着 100 份档案。其中 3 份是真凶，5 份是高度可疑的干扰项——它们和真凶来自同一个社区、同一个职业圈，甚至连作案手法都相似，但它们不是。剩下 92 份是路人甲乙丙丁，看一眼就知道无关。

现有长文本推理训练给 AI 出的题，大概就是这样的：100 份档案里，3 份关键 + 97 份路人。AI 不需要多聪明，扫一眼就能把关键信息捞出来。

但现实世界不是这样的。现实世界里，干扰项和关键信息长得极其相似，因为它们本来就来自同一条搜索路径。

清华 KEG 实验室的 LongTraceRL 做了一件很妙的事：让 AI 搜索代理先跑一遍，然后把它的搜索轨迹变成训练数据里的高级干扰项。

搜索轨迹：最懂你的干扰项

LongTraceRL 的数据构建流程分四步：

第一步：知识图谱随机游走生成多跳问题。 在 Wikipedia 的知识图谱上随机走几步，比如从摩洛哥走到音乐走到瑞典，然后生成问题：摩洛哥和瑞典在音乐上有什么联系？这种多跳问题天然需要跨文档推理。

第二步：让搜索代理去搜。 一个训练好的搜索代理拿到问题后，会像人一样搜索、打开文档、阅读、判断是否相关。它可能打开 10 篇文档，最终只引用了 3 篇。

第三步：分层提取干扰项。 这是最关键的创新。搜索代理读过但没引用的文档——Tier-1 高混淆性干扰项。它们和问题高度相关，否则代理不会点开；但它们又不是答案的一部分，否则代理会引用。搜索结果里出现但代理从未打开的文档——Tier-2 低混淆性干扰项。它们在搜索结果页上看着有点相关，但不够吸引代理点进去。

第四步：组装长上下文。 把关键文档和两层干扰项混在一起，形成训练数据。

这个设计的精妙之处在于：干扰项不是随机采样的，而是由一个有判断力的代理筛选过的。 随机采样的干扰项太容易排除，就像在一堆苹果里找橙子。但搜索轨迹产生的干扰项，是在一堆看起来都像橙子的东西里找真正的橙子。

Rubric Reward：不只看结果，还看过程

传统长文本 RL 训练只看最终答案对不对——outcome reward。问题在于：模型可能蒙对答案，但推理过程是错的。

论文里举了个例子：问题是某歌手的国籍组合是什么，正确答案是摩洛哥-瑞典。模型答对了，但它在中间推理步骤引用了错误的实体Love Game而不是Just Dance。outcome reward 会给满分，但推理链其实是断裂的。

LongTraceRL 提出 Rubric Reward：在推理链的每一跳上，检查模型是否引用了正确的黄金实体。比如第一跳应该引用实体 A，第二跳应该引用实体 B，第三跳应该引用实体 C。模型每命中一个黄金实体，就获得一分。

但这里有个陷阱：如果模型推理过程全错，但最终答案碰巧对了，rubric reward 会给它低分——这没问题。但如果模型推理过程全对，最终答案也对了，rubric reward 会给它高分——这也没问题。问题出在：如果模型跳过了中间推理步骤，直接猜对了答案呢？

这就是 Positive-Only 策略的用武之地：rubric reward 只应用于最终答案正确的响应。换句话说，答案都错了，就不需要区分推理质量了——直接给零分。只有答案对了，才用 rubric reward 来区分蒙对的和真正推理对的。

这就像考试：选择题蒙对了不给过程分，只有写出正确推导步骤的才给满分。

数据说话

在五个长文本推理基准上，LongTraceRL 用三个不同规模的模型（4B、8B、30B）做了实验：

Qwen3-4B：平均提升 5.7 分，超过最强基线 2.5 分
Qwen3-8B 和 Qwen3-30B 也有一致的提升
消融实验证明：分层干扰项比随机干扰项更有效，rubric reward 比 outcome reward 更有效，positive-only 策略比全量应用更有效

特别值得注意的是消融实验中干扰项来源的对比：用搜索代理轨迹产生的干扰项训练出来的模型，比用随机采样干扰项训练的模型表现好得多。这验证了核心假设——干扰项的质量决定了训练数据的质量。

一个更深层的洞察

LongTraceRL 的设计哲学可以用一句话概括：让训练数据的难度匹配真实世界的难度。

这听起来像废话，但实际上大多数长文本 RL 训练数据都做不到这一点。随机采样的干扰项太简单了，模型不需要真正推理就能排除它们。这就像用小学题训练一个要参加高考的学生——练得再多，高考时还是会懵。

搜索代理轨迹产生的干扰项之所以有效，是因为它们代表了一个有判断力的智能体也会犯错的难度级别。这比随机干扰难得多，也比人工构造的干扰更自然——因为它们来自真实的搜索行为。

Rubric Reward 的 positive-only 策略也体现了类似的哲学：不要在模型已经错了的地方浪费监督信号，把有限的信号用在区分对了但为什么对了上。 这比给所有响应都打过程分更高效，也更不容易被模型 hack。

局限与展望

LongTraceRL 目前依赖知识图谱来生成多跳问题，这意味着它的适用范围受限于知识图谱的覆盖度。对于需要专业领域知识或最新信息的推理任务，知识图谱可能不够用。

另外，搜索代理本身的质量直接影响干扰项的质量。如果搜索代理太弱，产生的干扰项可能不够有挑战性；如果太强，可能几乎不留下读过但没引用的文档，导致 Tier-1 干扰项不足。

代码和数据已开源：https://github.com/THU-KEG/LongTraceRL

---

LongTraceRL 给我的启发是：好的训练数据不是更多，而是更难且更真实。 搜索代理轨迹是一个天然的难度校准器——它告诉我们，什么样的干扰对一个有判断力的智能体来说是真正有迷惑性的。这个思路不只适用于长文本推理，任何需要在相似选项中做出精细区分的任务都可能受益。