🌌 **从一页到整座图书馆:长上下文的古老困境**
想象一下,你手里捧着一本厚达数万页的巨著,却只能一次性记住前几百页的内容。越往后翻,前面读过的细节就越模糊,甚至完全遗忘。这就是过去几年大型语言模型(LLM)在处理超长输入时面临的尴尬处境——“上下文窗口”像一个有限的“工作记忆”,一旦超出限制,模型就会出现“上下文腐烂”(context rot):信息丢失、幻觉频发、性能急剧下降。
MIT CSAIL的研究者们在2025年12月抛出了一份arXiv预印本,提出了一种全新的推理范式:**递归语言模型(Recursive Language Models,简称RLMs)**。他们不再试图把整座“图书馆”硬塞进模型的脑袋,而是把整个文本当作外部环境,让模型像程序员一样,通过写代码去“查书”、切片、搜索、递归调用子任务,最终合成答案。
> **什么是上下文腐烂?**
> 在传统LLM中,注意力机制会随着序列长度指数级增长计算成本,同时中间层表示会逐渐丢失早期token的信息。这种现象被称为“上下文腐烂”。它不是模型变笨了,而是硬件与架构的物理限制导致的有效信息密度急剧下降。
这一转变看似简单,却像一场范式革命:从“背书”转向“用工具查资料”。研究显示,RLMs能在10M(千万)token甚至更长的输入上保持高准确率,同时成本与基线模型相当,甚至更低。这或许将成为2026年长时程智能体(long-horizon agents)的主流方向。
🔍 **核心机制:把提示词变成可编程的环境**
RLM的魔法发生在Python REPL(Read-Eval-Print Loop)里。整个超长提示词被完整加载为一个变量(通常叫`context`),模型不再直接“吃”掉它,而是通过生成代码来操作它。
根模型(root LLM)会先写一段代码:查看变量长度、用正则表达式搜索关键词、切出相关片段,然后调用特殊的`llm_query`函数,把子片段交给一个子模型处理。子模型处理完后把结果写回REPL变量,根模型再继续阅读、整合,甚至再次递归调用更深层的子模型。最终,通过`FINAL()`或`FINAL_VAR()`函数输出答案。
> **REPL是什么?**
> REPL是一种交互式编程环境,你输入代码,它立刻执行并返回结果,变量状态会持续保留。RLM把整个提示词当作REPL里的“数据库”,模型则成为一个会写Python的“程序员”,可以随时读写、计算、递归调用。
这种结构天然支持任务分解、上下文过滤、迭代验证。实验表明,3-4层递归后收益已趋于饱和,但对复杂语义聚合任务至关重要。没有子调用的消融版本在OOLONG-Pairs上表现大幅下滑,证明递归是性能的关键驱动力。
📊 **实验战场:四大赛道上的压倒性胜利**
研究者在四个长上下文基准上进行了系统评估,输入规模从数百万到上千万token。使用的模型包括闭源的GPT-5和开源的Qwen3-Coder-480B。以下是论文Table 1的核心数据(已整理为Markdown表格):
| 方法 / 模型 | S-NIAH (%) | BrowseComp+ (%) | OOLONG (%) | OOLONG-Pairs (F1) | 平均成本 ($) |
|-----------------------------|------------|-----------------|------------|-------------------|--------------|
| 基线 GPT-5 | 失效 (>262K) | 0.00 | 12.50 | 0.00 | N/A |
| Summary Agent (GPT-5) | 85.00 | 45.67 | 34.00 | 28.50 | 8.98 |
| CodeAct + BM25 (GPT-5) | 78.00 | 52.33 | 41.00 | 35.20 | 5.12 |
| RLM (GPT-5) | **92.00** | **91.33** | **56.50** | **58.00** | **0.99** |
| RLM 无子调用 (GPT-5) | 88.00 | 78.00 | 45.00 | 17.34 | 0.75 |
| 基线 Qwen3-Coder-480B | 失效 | 0.00 | 10.00 | 0.00 | N/A |
| RLM (Qwen3-Coder-480B) | **89.00** | **85.67** | **52.00** | **54.50** | **1.15** |
- **S-NIAH(Single Needle-in-a-Haystack)**:在大草堆里找一根针,复杂度恒定,RLM接近完美。
- **BrowseComp+(1K)**:在1000篇文档(600万-1100万token)上做多跳问答,信息密度极高,RLM达到91.33%。
- **OOLONG**:语义转换与线性复杂度聚合。
- **OOLONG-Pairs**:成对聚合,二次复杂度,最能体现递归优势。
论文Figure 1显示,随着输入长度扩展到10M+ token,基线模型性能迅速崩塌,而RLM曲线几乎水平。Figure 3的成本分析进一步说明:RLM中位数成本仅0.99美元,远低于其他代理方法,且方差主要来自复杂任务的递归深度。
🛠️ **开箱即用的开源实现:alexzhang13/rlm**
MIT团队同时发布了完整的开源库:https://github.com/alexzhang13/rlm。这是一个即插即用的推理框架,支持OpenAI、Anthropic、Gemini、本地模型等多种后端。可在本地、Docker、Modal或Prime Intellect沙箱中运行。
安装极其简单:
```bash
uv pip install rlm
export OPENAI_API_KEY=sk-...
```
然后一行代码即可调用:
```python
import rlm
response = rlm.completion(prompt=your_long_context, model="gpt-4.5")
```
库内置了轨迹日志可视化(基于Node.js + shadcn/ui),你可以把日志文件拖进浏览器,看到完整的递归调用树:每一层写了什么代码、调用了哪个子片段、返回了什么结果。这种透明性对调试和研究极其宝贵。
🚀 **Prime Intellect的扩展:2026年的范式宣言**
Prime Intellect将RLM视为“2026年的核心范式”。他们在verifiers仓库中实现了RLMEnv,新增了:
- `llm_batch`并行子调用,大幅提升吞吐量;
- 仅允许子模型访问工具,根模型只做规划,提升安全性;
- 与prime-rl强化学习框架深度集成,支持多轮迭代精炼;
- 多模态支持与自定义函数。
他们在平台上部署了多个RLM环境(如deepdive-rlm),并在GPT-5-mini等模型上验证了持续收益。未来计划包括可调递归深度、小模型专用训练,以及异步调用优化。
🗣️ **社区回响:从推特到全球热议**
RLM论文发布后迅速引爆社区。英文推特称其为“2025年最重要的智能体架构”,中文圈则用“让大模型学会翻书而不是背书”来形容。日本、葡萄牙语社区也在热烈讨论递归如何对数级提升准确率、减少幻觉。
有人将RLM与Yann LeCun的“可扩展革命”相提并论:不再盲目堆上下文窗口,而是用计算换性能,完美呼应“The Bitter Lesson”。
🌅 **尾声:一场正在发生的范式转折**
递归语言模型并非简单的工程技巧,而是对“提示词即环境”的深刻洞察。它让模型从被动接受者变成主动探索者,从一次性推理变成可编程的递归过程。这不仅解决了当前的长度瓶颈,更为长时程自主智能体、超大规模文档分析、持续学习系统打开了大门。
安全沙箱、异步优化、专用小模型训练……这些方向都已在路上。当AI学会写代码来管理自己的“记忆”,我们距离真正意义上的无限上下文,或许只差一步。
-------
### 参考文献
1. Zhang, A. L., Kraska, T., & Khattab, O. (2025). Recursive Language Models. arXiv preprint arXiv:2512.24601. https://arxiv.org/abs/2512.24601
2. Prime Intellect. (2025). Recursive Language Models: the paradigm of 2026. https://www.primeintellect.ai/blog/rlm
3. Zhang, A. L. (2025). alexzhang13/rlm: General plug-and-play inference library for Recursive Language Models. GitHub repository. https://github.com/alexzhang13/rlm
4. ChurkLi. (2025). MIT RLM颠覆长文本,让大模型“翻书”不“背书”! X Post. https://x.com/ChurkLi/status/2008859544798261554
5. Singh, P. (2025). Why treating prompts as an Environment changes LLM Scaling (<span class="mention-invalid">@MIT</span> Paper). X Post. https://x.com/singhprateik/status/2008842007616373234
登录后可参与表态
讨论回复
1 条回复
✨步子哥 (steper)
#1
01-08 00:02
登录后可参与表态