您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

递归语言模型的无限回响:当AI学会“翻书”而非“死记硬背”

✨步子哥 (steper) 2026年01月07日 15:15 0 次浏览

🌌 从一页到整座图书馆:长上下文的古老困境

想象一下,你手里捧着一本厚达数万页的巨著,却只能一次性记住前几百页的内容。越往后翻,前面读过的细节就越模糊,甚至完全遗忘。这就是过去几年大型语言模型(LLM)在处理超长输入时面临的尴尬处境——“上下文窗口”像一个有限的“工作记忆”,一旦超出限制,模型就会出现“上下文腐烂”(context rot):信息丢失、幻觉频发、性能急剧下降。

MIT CSAIL的研究者们在2025年12月抛出了一份arXiv预印本,提出了一种全新的推理范式:递归语言模型(Recursive Language Models,简称RLMs)。他们不再试图把整座“图书馆”硬塞进模型的脑袋,而是把整个文本当作外部环境,让模型像程序员一样,通过写代码去“查书”、切片、搜索、递归调用子任务,最终合成答案。

什么是上下文腐烂? 在传统LLM中,注意力机制会随着序列长度指数级增长计算成本,同时中间层表示会逐渐丢失早期token的信息。这种现象被称为“上下文腐烂”。它不是模型变笨了,而是硬件与架构的物理限制导致的有效信息密度急剧下降。
这一转变看似简单,却像一场范式革命:从“背书”转向“用工具查资料”。研究显示,RLMs能在10M(千万)token甚至更长的输入上保持高准确率,同时成本与基线模型相当,甚至更低。这或许将成为2026年长时程智能体(long-horizon agents)的主流方向。

🔍 核心机制:把提示词变成可编程的环境

RLM的魔法发生在Python REPL(Read-Eval-Print Loop)里。整个超长提示词被完整加载为一个变量(通常叫context),模型不再直接“吃”掉它,而是通过生成代码来操作它。

根模型(root LLM)会先写一段代码:查看变量长度、用正则表达式搜索关键词、切出相关片段,然后调用特殊的llm_query函数,把子片段交给一个子模型处理。子模型处理完后把结果写回REPL变量,根模型再继续阅读、整合,甚至再次递归调用更深层的子模型。最终,通过FINAL()FINAL_VAR()函数输出答案。

REPL是什么? REPL是一种交互式编程环境,你输入代码,它立刻执行并返回结果,变量状态会持续保留。RLM把整个提示词当作REPL里的“数据库”,模型则成为一个会写Python的“程序员”,可以随时读写、计算、递归调用。
这种结构天然支持任务分解、上下文过滤、迭代验证。实验表明,3-4层递归后收益已趋于饱和,但对复杂语义聚合任务至关重要。没有子调用的消融版本在OOLONG-Pairs上表现大幅下滑,证明递归是性能的关键驱动力。

📊 实验战场:四大赛道上的压倒性胜利

研究者在四个长上下文基准上进行了系统评估,输入规模从数百万到上千万token。使用的模型包括闭源的GPT-5和开源的Qwen3-Coder-480B。以下是论文Table 1的核心数据(已整理为Markdown表格):

方法 / 模型S-NIAH (%)BrowseComp+ (%)OOLONG (%)OOLONG-Pairs (F1)平均成本 ($)
基线 GPT-5失效 (>262K)0.0012.500.00N/A
Summary Agent (GPT-5)85.0045.6734.0028.508.98
CodeAct + BM25 (GPT-5)78.0052.3341.0035.205.12
RLM (GPT-5)**92.00****91.33****56.50****58.00****0.99**
RLM 无子调用 (GPT-5)88.0078.0045.0017.340.75
基线 Qwen3-Coder-480B失效0.0010.000.00N/A
RLM (Qwen3-Coder-480B)**89.00****85.67****52.00****54.50****1.15**
  • S-NIAH(Single Needle-in-a-Haystack):在大草堆里找一根针,复杂度恒定,RLM接近完美。
  • BrowseComp+(1K):在1000篇文档(600万-1100万token)上做多跳问答,信息密度极高,RLM达到91.33%。
  • OOLONG:语义转换与线性复杂度聚合。
  • OOLONG-Pairs:成对聚合,二次复杂度,最能体现递归优势。
论文Figure 1显示,随着输入长度扩展到10M+ token,基线模型性能迅速崩塌,而RLM曲线几乎水平。Figure 3的成本分析进一步说明:RLM中位数成本仅0.99美元,远低于其他代理方法,且方差主要来自复杂任务的递归深度。

🛠️ 开箱即用的开源实现:alexzhang13/rlm

MIT团队同时发布了完整的开源库:https://github.com/alexzhang13/rlm。这是一个即插即用的推理框架,支持OpenAI、Anthropic、Gemini、本地模型等多种后端。可在本地、Docker、Modal或Prime Intellect沙箱中运行。

安装极其简单:

uv pip install rlm
export OPENAI_API_KEY=sk-...

然后一行代码即可调用:

import rlm
response = rlm.completion(prompt=your_long_context, model="gpt-4.5")

库内置了轨迹日志可视化(基于Node.js + shadcn/ui),你可以把日志文件拖进浏览器,看到完整的递归调用树:每一层写了什么代码、调用了哪个子片段、返回了什么结果。这种透明性对调试和研究极其宝贵。

🚀 Prime Intellect的扩展:2026年的范式宣言

Prime Intellect将RLM视为“2026年的核心范式”。他们在verifiers仓库中实现了RLMEnv,新增了:

  • llm_batch并行子调用,大幅提升吞吐量;
  • 仅允许子模型访问工具,根模型只做规划,提升安全性;
  • 与prime-rl强化学习框架深度集成,支持多轮迭代精炼;
  • 多模态支持与自定义函数。
他们在平台上部署了多个RLM环境(如deepdive-rlm),并在GPT-5-mini等模型上验证了持续收益。未来计划包括可调递归深度、小模型专用训练,以及异步调用优化。

🗣️ 社区回响:从推特到全球热议

RLM论文发布后迅速引爆社区。英文推特称其为“2025年最重要的智能体架构”,中文圈则用“让大模型学会翻书而不是背书”来形容。日本、葡萄牙语社区也在热烈讨论递归如何对数级提升准确率、减少幻觉。

有人将RLM与Yann LeCun的“可扩展革命”相提并论:不再盲目堆上下文窗口,而是用计算换性能,完美呼应“The Bitter Lesson”。

🌅 尾声:一场正在发生的范式转折

递归语言模型并非简单的工程技巧,而是对“提示词即环境”的深刻洞察。它让模型从被动接受者变成主动探索者,从一次性推理变成可编程的递归过程。这不仅解决了当前的长度瓶颈,更为长时程自主智能体、超大规模文档分析、持续学习系统打开了大门。

安全沙箱、异步优化、专用小模型训练……这些方向都已在路上。当AI学会写代码来管理自己的“记忆”,我们距离真正意义上的无限上下文,或许只差一步。


参考文献

  1. Zhang, A. L., Kraska, T., & Khattab, O. (2025). Recursive Language Models. arXiv preprint arXiv:2512.24601. https://arxiv.org/abs/2512.24601
  1. Prime Intellect. (2025). Recursive Language Models: the paradigm of 2026. https://www.primeintellect.ai/blog/rlm
  1. Zhang, A. L. (2025). alexzhang13/rlm: General plug-and-play inference library for Recursive Language Models. GitHub repository. https://github.com/alexzhang13/rlm
  1. ChurkLi. (2025). MIT RLM颠覆长文本,让大模型“翻书”不“背书”! X Post. https://x.com/ChurkLi/status/2008859544798261554
  1. Singh, P. (2025). Why treating prompts as an Environment changes LLM Scaling (@MIT Paper). X Post. https://x.com/singhprateik/status/2008842007616373234

讨论回复

1 条回复
✨步子哥 (steper) #1
01-08 00:02
Recursive Language Models Poster

Recursive Language Models

Scaling AI Beyond Context Windows

Alex L. Zhang, Tim Kraska, Omar Khattab (MIT CSAIL) • 2025
The Paradigm Shift

Traditional LLMs struggle with Context Rot — performance degradation when inputs exceed standard context windows (e.g., GPT-5's 262K tokens).

Recursive Language Models (RLMs) propose a new inference paradigm. Instead of cramming prompts into a context window, RLMs treat the input as a programmable environment (Python REPL). This enables LLMs to interact with massive inputs symbolically via code, handling up to 10 Million tokens while improving accuracy and reducing costs.

How RLMs Work

The REPL-based recursive workflow:

1
Store Context: Full input loaded as a variable (e.g., context) in Python REPL.
2
Generate Code: Root LLM writes code to slice, filter, or search the context.
3
Recursive Calls: Sub-LLMs invoked on relevant subsets (llm_query).
4
Aggregate: Results collected and final answer output via FINAL().
Key Benefits
📏
Scalability
Handles inputs 100x larger than standard limits (10M+ tokens).
🎯
Accuracy
Double-digit improvements on long-context benchmarks.
💰
Cost Efficiency
Median costs equal to or lower than base models.
Reduced Hallucination
Self-verification via code execution and iterative refinement.
Performance Benchmarks

Comparison on GPT-5 across long-context tasks. RLMs significantly outperform baselines.

Method / Model S-NIAH (%) BrowseComp+ (%) OOLONG (%) Avg. Cost ($)
Base GPT-5 Fails (>262K) 0.00 12.50 N/A
Summary Agent 85.00 45.67 34.00 8.98
CodeAct + BM25 78.00 52.33 41.00 5.12
RLM (GPT-5) 92.00 91.33 56.50 0.99
Applications & Future Outlook
🚀 Long-Horizon Agents
Enables autonomous agents to operate over massive document sets and codebases without memory loss.
📚 Document Analysis
Perfect for semantic aggregation, multi-hop QA, and deep search in legal, medical, and financial texts.
🔓 Open Source Ecosystem
Available on GitHub (alexzhang13/rlm). Integrated with Prime Intellect for parallelization and RL training.
arXiv:2512.24601 • MIT CSAIL • github.com/alexzhang13/rlm
Designed for AI Researchers & Engineers