为什么信息越少答得越好？ProxyCoT：把短文的推理能力"种"进长文模型中

📋 论文信息

项目	内容
标题	Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning
作者	Miao Li, Irina Saparina, Alexander Gurung, Mirella Lapata
机构	爱丁堡大学
arXiv	2605.20201
日期	2026-05-20
分类	cs.CL / cs.AI
发表	ACL 2026（主会）
核心论点	主流大语言模型在百万token级别长上下文任务上表现不佳——不是因为能力不足，而是因为无法在长上下文中复现其短上下文时的推理能力。通过从"代理上下文"中提取高质量推理链，再落地到完整长上下文上监督微调，可以弥合这个差距。

---

你有没有过这样的经历？

面前是一本三百页的技术手册。第47页有一个表格，第203页有一段注释，第291页有一个公式——你需要综合这三处信息来回答一个问题。

如果你聪明，你会先翻目录，找到一个"路径最短的子集"——只看最关键的那几页。在这个小范围里，你慢慢琢磨，想清楚推理过程。然后，你拿着这个想好的推理过程，回到整本书里，找到所有的支持细节，完成最终回答。

但如果你只能从头读到尾呢？你读到第47页时就做笔记，然后读到203页，然后291页。等到这三处都读完了，你的短期记忆已经被几百页无关内容填满了。你面对的问题不再是"如何回答"，而是"我居然不记得第一处具体写了什么"。

这篇ACL 2026论文的核心发现，就是这场"翻手册困境"在AI身上的精确重现。

---

🎯 核心问题：短上下文答对了，长上下文反而答错了

研究者设置了一个干净的控制实验。

给模型同样的任务，但有两个版本：

代理上下文（proxy context）：只包含回答这个问题所需的最少信息——可能只有原文本的5%-10%
完整上下文（full context）：包含原始文本的全部内容——可能是代理上下文的几十倍

同一种问题。同一个模型。截然不同的表现。

代理上下文上的准确率，系统性高于完整上下文。

这不是因为模型"不够聪明"。代理上下文证明模型完全有能力解决这个推理问题。问题出在——模型无法在信息海洋中，定位并利用那些它需要的关键信息。

更形象地说：模型像是一个必须在乱糟糟的房间里找钥匙的人。如果房间只有一张桌子（代理上下文），它5秒就找到了。如果房间是一个仓库（完整上下文），它找了一小时——不是因为它不会用钥匙，而是因为它找不到钥匙在哪。

---

🧩 ProxyCoT：让模型"先在干净桌上推理，再回仓库找细节"

研究者的解决方案可以概括为三步，每一步都很直觉：

第一步：在代理上下文中生成推理链。

这不是简单地截取文档中最相关的段落。研究者用两种策略来获取代理上下文下的推理轨迹：

通过强化学习（GRPO等）在代理上下文上训练模型产生高质量的链式推理
或者通过一个更大的教师模型在代理上下文上蒸馏出推理轨迹

关键要求是：推理链必须清晰展示"从哪条信息推导出哪个中间结论"的完整过程。不是模糊的"我觉得答案是X"，而是"根据文档第N段的信息A，结合信息B，可以推出C，因此答案是X"。

第二步：把推理链落地到完整上下文。

有了高质量的推理链后，下一步是让模型在完整上下文中练习同样的推理。

不是简单地把推理链文本拼接进prompt。而是做监督微调：把完整长文本作为输入，把代理上下文中产生的推理链作为目标输出，让模型学习"在信息的海洋中，沿着这条思考路径找到答案"。

这相当于训练模型一种能力——如何在噪声中保持推理方向不偏航。

第三步：评估与泛化。

在多个长上下文推理数据集上，ProxyCoT一致地超过了强基线，同时计算开销显著低于直接在完整上下文上做强化学习。更重要的是，用ProxyCoT训练的模型在下游未见任务上也展现出更强的长上下文推理泛化能力。

---

🔬 不同于传统的长上下文方案

ProxyCoT和现有的长上下文技术有几个根本区别：

与RAG不同。 RAG的做法是"检索出相关段落，然后在这些段落上推理"。这相当于每次遇到问题都先打扫房间——昂贵且可能扔错东西。ProxyCoT的做法是"训练模型在脏房间里也能找到东西"。

与位置编码扩展不同。 NTK-aware scaling、YaRN等方法试图扩展模型能"看多远"。但ProxyCoT的核心假设是：问题不是模型"看不到"远处，而是模型"看到了也处理不了"。在代理上下文上模型只需要几百个token就能答对，说明定位能力才是瓶颈。

与直接长上下文RL不同。 在完整长上下文上直接做强化学习，计算量巨大——因为每个完整的rollout都需要处理几十万token。ProxyCoT把推理能力的学习阶段放在了计算成本极低的短代理上下文中，只在最后的地面化阶段才涉及全上下文。

---

📊 为什么代理上下文推理比完整上下文推理更好？

这引出了一个深层问题：为什么模型在"信息更少"时反而答得更好？

研究者的分析指向了两个候选机制：

噪声干扰假说。 完整上下文包含大量与当前推理问题无关的信息。Transformer的注意力机制是对所有位置的加权平均——哪怕那些无关位置的权重很低，它们的累积影响也会稀释注意力在关键位置上的集中度。

信用分配失败假说。 在长上下文中，一个正确的推理结果和导致这个结果的推理链之间的关联，被大量中间步骤稀释了。梯度信号在穿越几十万token的序列时变得极其微弱，模型无法有效地把"最终答案正确"这个奖励信号，分配回"哪一步推理最关键"。

两种机制可能同时起作用。而代理上下文把两者都解决了：无关信息被排除，推理链短而明确，梯度信号可以干净地通过每一个关键步骤。

---

🤔 诚实地说：我们不确定的事

代理上下文的构造。 论文中代理上下文的构建使用了特定的启发式方法（提取与问题最相关的段落）。但现实中，不同任务的"最优代理上下文"构造方式可能完全不同。在一次法律案件分析中，关键信息可能出现在100个不同段落中；在一次科学文献综述中，关键信息可能需要跨论文对比。对于这些任务，代理上下文的构造本身就是一个困难问题——如果代理上下文构造得不好，整个方法从一开始就失败了。

长上下文中推理链的地面化质量。 当模型在代理上下文中产生的推理链被移植到完整上下文中时，推理链中引用的"具体信息"可能与完整语境中的信息不完全对应。比如代理上下文中说"根据第3段..."，但完整上下文中第3段的位置可能已经发生变化。模型需要具备一种"模糊重定位"的能力——能在大致找到参考位置后调整推理。论文没有详细讨论这种重定位的失败率和影响。

计算开销的隐性成本。 虽然ProxyCoT声称计算开销更低——因为RL只在短代理上下文中进行——但获取高质量推理轨迹（无论是通过RL还是教师蒸馏）的过程本身可能非常昂贵。一个70B的教师模型在代理上下文中蒸馏推理链，如果代理上下文覆盖数千个样本，实际算力可能仍然不可忽略。

推理能力的"过度净化"。 代理上下文看起来太干净了。现实中，人类推理从来不是在"只有相关信息"的环境中进行的——我们总是在噪音中思考。如果一个模型只在代理上下文中学会推理，然后在完整上下文中完全依赖这个推理模板，它可能在面对"代理上下文遗漏了某些微妙但致命的关键信息"的场景时，缺乏灵活调整推理路径的能力。

---

📚 参考文献

1. Li, M. et al. (2026). *Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning.* ACL 2026. arXiv:2605.20201.

2. Liu, N. F. et al. (2024). *Lost in the Middle: How Language Models Use Long Contexts.* TACL 2024.

3. Wei, J. et al. (2022). *Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.* NeurIPS 2022.

4. Shao, Z. et al. (2024). *DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.* arXiv:2402.03300.

5. Chen, Y. et al. (2024). *Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading.* arXiv:2310.05029.

6. Bai, Y. et al. (2024). *LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding.* ACL 2024.

---

#长上下文推理 #ProxyCoT #链式思维 #ACL2026 #推理迁移 #智柴认知实验室🎙️🔬