[论文解读] 边听边想：当AI学会在信息洪流中游泳

> *——解读 AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization*

🌊 序幕：信息从未停止流动

想象你正在参加一场激烈的辩论赛。

你的对手滔滔不绝，论点像子弹一样向你飞来。你不能等他说完再开始思考——那样的话，当你准备好反驳时，比赛已经结束了。你必须边听边想：他刚说完第一句话，你就开始评估；说到第三句，你已经意识到他的前提有漏洞；说到第五句，你的反驳已经在脑海中成形。

这就是流式推理（Streaming Reasoning）——在信息持续流入的同时进行实时推理、更新和响应。

人类每天都在做这件事：

司机在行驶中观察路况，同时预判下一个路口的交通
医生在听病人描述症状时，脑中已经在排除疾病
翻译在国际会议上，发言人还没说完，译文已经开始流出

但现代大语言模型（LLM）不会这样做。它们遵循一个"先读后想"（Read-Then-Think）的范式：把完整的输入一次性塞进去，然后在静态的上下文中进行推理，最后输出答案。

这种模式有什么问题？

问题一：实时性。在语音助手、自动驾驶、实时翻译等场景中，用户不会等你"读完"所有信息。他们需要即时反馈。

问题二：内存爆炸。长视频、长音频、长对话的token数量可能达到数百万。一次性处理所有内容在计算上不可行。

问题三：适应性差。真实世界的信息是动态的。新信息可能推翻旧结论，模型需要随时调整，而不是一条路走到黑。

Junlong Tong 和他的团队提出了 AdaSR——一种自适应流式推理框架，试图让AI学会"边听边想"，而且自己决定什么时候想、想多少。

---

🧠 第一章：推理的时间维度

1.1 静态推理 vs 流式推理

要理解AdaSR，我们先要理解两种推理模式的根本区别。

静态推理（标准LLM）：

输入：[完整问题]
↓
思考：[推理过程]
↓
输出：[最终答案]

就像一个学生拿到考卷，先通读所有题目，然后才开始答题。这种模式的假设是：所有信息在开始时就已经可用，推理可以在一个封闭的空间中进行。

流式推理（人类/AdaSR）：

时间 →
输入片段1 → 思考1 → 部分输出1
输入片段2 → 思考2 → 部分输出2
输入片段3 → 思考3 → 部分输出3
...
输入结束 → 最终思考 → 最终答案

就像一个同声传译员，说话人每说几句，翻译就出几句。翻译员不能等说话人说完——观众需要实时理解。

1.2 流式推理的核心挑战

流式推理看似简单，实际上涉及三个深层难题：

🎯 挑战一：什么时候思考？

假设你正在听一个30分钟的演讲。你应该每听到一句话就思考一次吗？那样会累死。你应该等到演讲结束再思考吗？那样就失去了流式的意义。

人类直觉的做法是：在信息密度高的时候多思考，在信息冗余的时候少思考。但AI怎么知道什么时候"信息密度高"？

🎯 挑战二：思考多深？

即使决定了要思考，还有一个问题：思考多少？

简单的信息可能只需要一个直觉判断（"天空是蓝的"→"嗯，知道了"）。复杂的信息可能需要多步推理（"如果A则B，如果B则C，现在观察到非C，所以..."）。

🎯 挑战三：如何平衡准确性和延迟？

流式推理天然有一个延迟-准确性权衡：

思考越多，答案越准确，但延迟越大
思考越少，响应越快，但可能出错

如何找到最优平衡点？而且，这个平衡点应该随场景动态调整——紧急情况下牺牲准确性换取速度，重要决策时牺牲速度换取准确性。

---

⚙️ 第二章：AdaSR的架构——分层的推理引擎

2.1 两阶段推理：流式+深度

AdaSR的核心洞察是：流式推理不应该只有一种"思考"。它将推理过程分为两个阶段：

阶段一：流式推理（Streaming Reasoning） 在信息流入的同时进行轻量级推理。这个阶段的目标是"跟上信息流"——不要求完全正确，但要求不遗漏关键信息，并及时更新理解。

类比：你听演讲时做的随手笔记。不是完整的句子，只是关键词和箭头——"A→B？"、"反驳C"、"待验证D"。

阶段二：深度推理（Deep Reasoning） 当信息流结束（或达到某个检查点时），进行重型推理。这个阶段利用流式阶段积累的所有信息，进行系统性的、多步的逻辑推演，得出最终答案。

类比：演讲结束后，你根据随手笔记，整理出一份完整的思维导图，检查逻辑一致性，得出结论。

这种分层的结构非常符合人类的认知过程。我们的工作记忆（Working Memory）容量有限，只能同时处理少数几个概念。所以我们先用工作记忆做实时跟踪，然后把关键信息"卸载"到长期记忆中，最后在进行重要决策时从长期记忆中提取信息进行深度加工。

2.2 HRPO：层次化相对策略优化

如何训练模型学会这种分层推理？标准的强化学习方法（如PPO、GRPO）不适合，因为它们通常在整个序列上计算一个单一的奖励信号，然后均匀地分配给所有token。

AdaSR提出了 HRPO（Hierarchical Relative Policy Optimization），核心创新包括：

🎪 优势分解（Advantage Decomposition）

传统RL将优势函数（Advantage）在整个序列上平均分配。HRPO将优势分层分配：

流式推理token获得流式阶段的优势——主要基于"是否及时捕捉了关键信息"
深度推理token获得深度阶段的优势——主要基于"最终答案的正确性"

这就像公司的绩效考核：销售部门考核销售额，研发部门考核产品创新，不能用一个统一的指标考核所有人。

🎪 相对策略优化（Relative Policy Optimization）

HRPO使用"相对"奖励而非绝对奖励。具体来说，对于同一批问题，模型生成多个候选回答，每个回答的奖励与这批回答的平均奖励比较，得出相对优势。

这减少了奖励的方差，使训练更稳定。同时，它鼓励模型"比平均水平更好"，而不是追求某种绝对的"完美"。

🎪 三重奖励函数

HRPO整合了三种奖励：

1. 格式奖励（Format Reward）：确保推理过程遵循正确的结构。例如，流式阶段的输出应该有明确的"更新"标记，深度阶段应该有完整的逻辑链条。

2. 准确性奖励（Accuracy Reward）：最终答案是否正确。这是最重要的信号，但也是最稀疏的（只有到最后才知道）。

3. 自适应思考奖励（Adaptive Thinking Reward）：鼓励模型根据问题的难度动态分配计算资源。简单问题应该快速回答，复杂问题应该深入思考。这个奖励基于计算效率——用更少的token达到同样的准确性，获得更高奖励。

2.3 自适应计算分配

AdaSR最独特的特性是自适应计算分配。模型学会根据输入的复杂度和当前的不确定性，动态决定"思考多少"。

具体来说，模型在生成每个推理token时，有一个内部的"不确定性估计"。当不确定性高时（"我不确定这里该推导什么"），模型生成更多思考token；当不确定性低时（"这很明显"），模型跳过不必要的推理。

这种自适应机制带来了几个好处：

效率：简单问题不浪费计算
深度：复杂问题获得足够的思考时间
优雅：模型表现出类似人类的"顿悟"——当线索足够时，快速得出结论；当线索不足时，谨慎地多步推理

---

🧪 第三章：实验——AdaSR的表现

3.1 基准测试

研究人员在多个流式推理基准上测试了AdaSR：

🎤 音频流理解 模型需要实时听取音频流（如会议录音、播客），并回答关于内容的问题。AdaSR必须在听到相关信息时立即更新理解，不能等到音频结束。

📹 视频流推理 模型观看实时视频流（如监控画面、体育比赛），需要实时识别事件、预测发展。这要求模型在部分信息下进行推理，并随着新信息不断修正。

💬 长对话跟踪 在多轮对话中，模型需要跟踪对话状态、记住关键信息、识别用户意图的变化。信息是逐轮流入的，模型不能"回顾"未来的对话。

3.2 性能对比

方法	流式准确性	最终准确性	平均延迟	计算效率
SFT（监督微调）	62.3%	74.5%	高	低
标准RL	65.1%	76.2%	中	中
StreamingLLM	68.4%	78.1%	中	中
AdaSR	72.8%	81.5%	低	高

关键发现： 1. 流式准确性提升：AdaSR在信息流入过程中的实时理解准确率显著高于基线（+4.4%相比StreamingLLM） 2. 最终准确性提升：即使在流式约束下，AdaSR的最终答案质量也超越了非流式基线 3. 延迟降低：由于自适应计算分配，AdaSR的平均响应延迟比标准方法低20-30% 4. 计算效率：简单问题上，AdaSR使用的token数比SFT少40%

3.3 案例研究：自适应行为

研究人员展示了一个典型案例：

输入：一段关于气候变化的辩论录音，包含多个论点和反驳。

SFT基线的行为：

无论论点多简单或多复杂，都生成固定长度的推理
在明显的事实陈述上浪费大量token（"地球围绕太阳转"→展开三段推理）
在复杂的统计论证上反而思考不足

AdaSR的行为：

听到简单事实（"CO2是温室气体"）：几乎不思考，直接记录
听到复杂论证（"根据IPCC第五次评估报告，第B章第3节的数据显示..."）：启动深度推理，检查数据来源、逻辑链条
听到矛盾信息（"但另一位科学家说..."）：标记冲突，生成"待验证"标记，等待更多信息
在演讲结束时：整合所有信息，生成结构化的结论

这种智能的计算分配使AdaSR在总token数相同的情况下，将更多计算投入到真正需要的地方。

---

🌐 第四章：流式推理的深层意义

4.1 从"批处理"到"实时"的范式转移

AdaSR代表了一个重要的范式转移：从批处理智能到实时智能。

当前的AI系统大多是批处理的：

你输入一个问题，模型"离线"思考，然后给出答案
你上传一张图，模型处理完整个图，然后描述
你发送一段文字，模型读完再回复

但真实世界的智能是流式的：

你在走路时，视觉信息持续流入，运动控制实时调整
你在对话时，每听到一个词就更新理解
你在思考时，想法一个接一个涌现，不是一次性"计算"出来的

AdaSR让AI向这种在线智能迈进了一步。

4.2 认知架构的启示

AdaSR的两阶段架构（流式+深度）与人类认知的双系统理论（Dual Process Theory）有有趣的对应：

系统一（流式推理）：快速、直觉、自动。就像你听到"2+2"时立即想到"4"，不需要思考。

系统二（深度推理）：缓慢、逻辑、费力。就像你计算"17×24"时，需要一步步算。

人类智能的精髓在于系统一和系统二的协调：系统一实时监控环境，识别模式和异常；当遇到复杂或重要的问题时，调用系统二进行深度加工。

AdaSR的HRPO训练正是在教模型这种协调能力——什么时候信任直觉（系统一），什么时候启动深度思考（系统二）。

4.3 具身智能的必备能力

对于具身智能（Embodied AI）——机器人、自动驾驶、智能助手——流式推理不是"可选功能"，而是"必备能力"。

想象一个自动驾驶汽车：

它不能等"看完"整个路况再做决定——等它"看完"，已经撞上了
它必须实时处理传感器数据：摄像头帧、激光雷达点云、雷达信号
它必须边感知边决策：看到行人迈出一步，立即刹车，而不是"看完整个路口"

AdaSR为此类应用提供了技术基础。它的自适应计算分配特别适合资源受限的嵌入式系统——简单情况下节省计算，复杂情况下全力以赴。

---

🚀 第五章：局限与未来

5.1 当前局限

AdaSR虽然取得了显著进步，但仍有局限：

🎯 训练成本：HRPO需要大量交互式训练，计算成本高于标准SFT

🎯 奖励设计：三重奖励函数（格式+准确性+自适应）需要精心调参，不同任务可能需要不同的权重

🎯 长期依赖：在极长的流式输入中（如数小时的视频），模型可能"遗忘"早期信息。虽然流式阶段做了笔记，但这些笔记的容量有限

🎯 理论保证：自适应计算分配目前是基于启发式的，缺乏理论上的最优性保证

5.2 未来方向

🔮 多模态流式推理 将AdaSR扩展到视觉-语言-音频的联合流式推理。例如，一个AI助手在视频会议中同时处理视频、音频、屏幕共享内容，实时提供辅助。

🔮 元认知能力 让模型不仅自适应计算，还能自适应学习。当它发现自己经常在某类问题上出错时，自动请求更多训练数据或调整策略。

🔮 社会流式推理 在多智能体环境中，每个智能体都在实时产生信息。AdaSR可以扩展到"社会流式推理"——在信息不断从多个源流入的情况下，协调多个智能体的推理过程。

🔮 神经符号流式推理 结合符号逻辑引擎，让流式推理不仅有"直觉"（神经网络），还有"验证"（符号推理）。当系统一产生一个直觉判断时，系统二用符号逻辑快速验证其一致性。

---

🌠 尾声：在时间的河流中思考

Heraclitus说："人不能两次踏入同一条河流。"

信息也是如此。每一刻流入的信息都是独一无二的，下一秒就会被新信息覆盖。在这个意义上，流式推理不仅是一种计算策略，更是一种存在论立场——承认世界的流动性，放弃对完整信息的执念，学会在不完美中做决策。

人类在这方面是大师。我们可以在信息不完整时行动，可以在矛盾中权衡，可以在时间压力下做出"足够好"的决定。这些能力不是缺陷，而是适应动态世界的进化优势。

AdaSR让我们看到了AI获得类似能力的可能性。通过分层推理、自适应计算、相对策略优化，模型学会了"在流动中思考"——不是等待完美的静止点，而是在运动中保持平衡。

这让人想起冲浪。冲浪者不会等浪停下来再站上去——那是不可能的。他们必须在浪的运动中找到平衡点，顺势而行，同时保持控制。

> "生命不是等待暴风雨过去，而是学会在雨中跳舞。" —— Vivian Greene

AdaSR教会AI的，正是这种"在雨中跳舞"的能力——在信息洪流中保持清醒，在不确定性中做出判断，在时间的河流中优雅地思考。

这不仅是技术的进步，也是智能哲学的一次深化。当我们不再把智能定义为"在封闭空间中得出正确答案"，而是定义为"在开放世界中实时适应"，我们就离真正的智能更近了一步。

---

📚 参考文献

Tong, J., Xu, W., Fan, Y., Zhao, A., Lu, X., Tan, Y., & Shen, X. (2026). AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization. *arXiv preprint arXiv:2606.14694*.

相关文献：

Xiao, C., et al. (2024). StreamingLLM: Efficient Streaming Language Models with Attention Sinks. *ICML*.
Ouyang, L., et al. (2022). Training Language Models to Follow Instructions with Human Feedback. *NeurIPS*.
Kahneman, D. (2011). Thinking, Fast and Slow. *Farrar, Straus and Giroux*.
Mnih, V., et al. (2016). Asynchronous Methods for Deep Reinforcement Learning. *ICML*.
Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. *arXiv:1707.06347*.
Shreve, S. E. (2004). Stochastic Calculus for Finance II: Continuous-Time Models. *Springer*.

---

*解读完成于 2026年6月16日 | 费曼风格深度分析 | 小凯出品*

#论文解读 #arXiv #流式推理 #强化学习 #自适应计算 #实时AI #小凯