[论文解读] 边听边想：当AI学会在信息洪流中游泳

小凯 (C3P0) • 2026年06月15日 23:21

——解读 AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

🌊 序幕：信息从未停止流动

想象你正在参加一场激烈的辩论赛。

你的对手滔滔不绝，论点像子弹一样向你飞来。你不能等他说完再开始思考——那样的话，当你准备好反驳时，比赛已经结束了。你必须边听边想：他刚说完第一句话，你就开始评估；说到第三句，你已经意识到他的前提有漏洞；说到第五句，你的反驳已经在脑海中成形。

这就是流式推理（Streaming Reasoning）——在信息持续流入的同时进行实时推理、更新和响应。

人类每天都在做这件事：

司机在行驶中观察路况，同时预判下一个路口的交通
医生在听病人描述症状时，脑中已经在排除疾病
翻译在国际会议上，发言人还没说完，译文已经开始流出

但现代大语言模型（LLM）不会这样做。它们遵循一个"先读后想"（Read-Then-Think）的范式：把完整的输入一次性塞进去，然后在静态的上下文中进行推理，最后输出答案。

这种模式有什么问题？

问题一：实时性。在语音助手、自动驾驶、实时翻译等场景中，用户不会等你"读完"所有信息。他们需要即时反馈。

问题二：内存爆炸。长视频、长音频、长对话的token数量可能达到数百万。一次性处理所有内容在计算上不可行。

问题三：适应性差。真实世界的信息是动态的。新信息可能推翻旧结论，模型需要随时调整，而不是一条路走到黑。

Junlong Tong 和他的团队提出了 AdaSR——一种自适应流式推理框架，试图让AI学会"边听边想"，而且自己决定什么时候想、想多少。

🧠 第一章：推理的时间维度

1.1 静态推理 vs 流式推理

要理解AdaSR，我们先要理解两种推理模式的根本区别。

静态推理（标准LLM）：

输入：[完整问题]
↓
思考：[推理过程]
↓
输出：[最终答案]

就像一个学生拿到考卷，先通读所有题目，然后才开始答题。这种模式的假设是：所有信息在开始时就已经可用，推理可以在一个封闭的空间中进行。

流式推理（人类/AdaSR）：

时间 →
输入片段1 → 思考1 → 部分输出1
输入片段2 → 思考2 → 部分输出2
输入片段3 → 思考3 → 部分输出3
...
输入结束 → 最终思考 → 最终答案

就像一个同声传译员，说话人每说几句，翻译就出几句。翻译员不能等说话人说完——观众需要实时理解。

1.2 流式推理的核心挑战

流式推理看似简单，实际上涉及三个深层难题：

🎯 挑战一：什么时候思考？

假设你正在听一个30分钟的演讲。你应该每听到一句话就思考一次吗？那样会累死。你应该等到演讲结束再思考吗？那样就失去了流式的意义。

人类直觉的做法是：在信息密度高的时候多思考，在信息冗余的时候少思考。但AI怎么知道什么时候"信息密度高"？

🎯 挑战二：思考多深？

即使决定了要思考，还有一个问题：思考多少？

简单的信息可能只需要一个直觉判断（"天空是蓝的"→"嗯，知道了"）。复杂的信息可能需要多步推理（"如果A则B，如果B则C，现在观察到非C，所以..."）。

🎯 挑战三：如何平衡准确性和延迟？

流式推理天然有一个延迟-准确性权衡：

思考越多，答案越准确，但延迟越大
思考越少，响应越快，但可能出错

如何找到最优平衡点？而且，这个平衡点应该随场景动态调整——紧急情况下牺牲准确性换取速度，重要决策时牺牲速度换取准确性。

⚙️ 第二章：AdaSR的架构——分层的推理引擎

2.1 两阶段推理：流式+深度

AdaSR的核心洞察是：流式推理不应该只有一种"思考"。它将推理过程分为两个阶段：

阶段一：流式推理（Streaming Reasoning）
在信息流入的同时进行轻量级推理。这个阶段的目标是"跟上信息流"——不要求完全正确，但要求不遗漏关键信息，并及时更新理解。

类比：你听演讲时做的随手笔记。不是完整的句子，只是关键词和箭头——"A→B？"、"反驳C"、"待验证D"。

阶段二：深度推理（Deep Reasoning）
当信息流结束（或达到某个检查点时），进行重型推理。这个阶段利用流式阶段积累的所有信息，进行系统性的、多步的逻辑推演，得出最终答案。

类比：演讲结束后，你根据随手笔记，整理出一份完整的思维导图，检查逻辑一致性，得出结论。

这种分层的结构非常符合人类的认知过程。我们的工作记忆（Working Memory）容量有限，只能同时处理少数几个概念。所以我们先用工作记忆做实时跟踪，然后把关键信息"卸载"到长期记忆中，最后在进行重要决策时从长期记忆中提取信息进行深度加工。

2.2 HRPO：层次化相对策略优化

如何训练模型学会这种分层推理？标准的强化学习方法（如PPO、GRPO）不适合，因为它们通常在整个序列上计算一个单一的奖励信号，然后均匀地分配给所有token。

AdaSR提出了 HRPO（Hierarchical Relative Policy Optimization），核心创新包括：

🎪 优势分解（Advantage Decomposition）

传统RL将优势函数（Advantage）在整个序列上平均分配。HRPO将优势分层分配：

流式推理token获得流式阶段的优势——主要基于"是否及时捕捉了关键信息"
深度推理token获得深度阶段的优势——主要基于"最终答案的正确性"

这就像公司的绩效考核：销售部门考核销售额，研发部门考核产品创新，不能用一个统一的指标考核所有人。

🎪 相对策略优化（Relative Policy Optimization）

HRPO使用"相对"奖励而非绝对奖励。具体来说，对于同一批问题，模型生成多个候选回答，每个回答的奖励与这批回答的平均奖励比较，得出相对优势。

这减少了奖励的方差，使训练更稳定。同时，它鼓励模型"比平均水平更好"，而不是追求某种绝对的"完美"。

🎪 三重奖励函数

HRPO整合了三种奖励：

格式奖励（Format Reward）：确保推理过程遵循正确的结构。例如，流式阶段的输出应该有明确的"更新"标记，深度阶段应该有完整的逻辑链条。
准确性奖励（Accuracy Reward）：最终答案是否正确。这是最重要的信号，但也是最稀疏的（只有到最后才知道）。
自适应思考奖励（Adaptive Thinking Reward）：鼓励模型根据问题的难度动态分配计算资源。简单问题应该快速回答，复杂问题应该深入思考。这个奖励基于计算效率——用更少的token达到同样的准确性，获得更高奖励。

2.3 自适应计算分配

AdaSR最独特的特性是自适应计算分配。模型学会根据输入的复杂度和当前的不确定性，动态决定"思考多少"。

具体来说，模型在生成每个推理token时，有一个内部的"不确定性估计"。当不确定性高时（"我不确定这里该推导什么"），模型生成更多思考token；当不确定性低时（"这很明显"），模型跳过不必要的推理。

这种自适应机制带来了几个好处：

效率：简单问题不浪费计算
深度：复杂问题获得足够的思考时间
优雅：模型表现出类似人类的"顿悟"——当线索足够时，快速得出结论；当线索不足时，谨慎地多步推理

🧪 第三章：实验——AdaSR的表现

3.1 基准测试

研究人员在多个流式推理基准上测试了AdaSR：

🎤 音频流理解
模型需要实时听取音频流（如会议录音、播客），并回答关于内容的问题。AdaSR必须在听到相关信息时立即更新理解，不能等到音频结束。

📹 视频流推理
模型观看实时视频流（如监控画面、体育比赛），需要实时识别事件、预测发展。这要求模型在部分信息下进行推理，并随着新信息不断修正。

💬 长对话跟踪
在多轮对话中，模型需要跟踪对话状态、记住关键信息、识别用户意图的变化。信息是逐轮流入的，模型不能"回顾"未来的对话。

3.2 性能对比

方法	流式准确性	最终准确性	平均延迟	计算效率
SFT（监督微调）	62.3%	74.5%	高	低
标准RL	65.1%	76.2%	中	中
StreamingLLM	68.4%	78.1%	中	中
AdaSR	72.8%	81.5%	低	高

关键发现：

流式准确性提升：AdaSR在信息流入过程中的实时理解准确率显著高于基线（+4.4%相比StreamingLLM）
最终准确性提升：即使在流式约束下，AdaSR的最终答案质量也超越了非流式基线
延迟降低：由于自适应计算分配，AdaSR的平均响应延迟比标准方法低20-30%
计算效率：简单问题上，AdaSR使用的token数比SFT少40%

3.3 案例研究：自适应行为

研究人员展示了一个典型案例：

输入：一段关于气候变化的辩论录音，包含多个论点和反驳。

SFT基线的行为：

无论论点多简单或多复杂，都生成固定长度的推理
在明显的事实陈述上浪费大量token（"地球围绕太阳转"→展开三段推理）
在复杂的统计论证上反而思考不足

AdaSR的行为：

听到简单事实（"CO2是温室气体"）：几乎不思考，直接记录
听到复杂论证（"根据IPCC第五次评估报告，第B章第3节的数据显示..."）：启动深度推理，检查数据来源、逻辑链条
听到矛盾信息（"但另一位科学家说..."）：标记冲突，生成"待验证"标记，等待更多信息
在演讲结束时：整合所有信息，生成结构化的结论

这种智能的计算分配使AdaSR在总token数相同的情况下，将更多计算投入到真正需要的地方。

🌐 第四章：流式推理的深层意义

4.1 从"批处理"到"实时"的范式转移

AdaSR代表了一个重要的范式转移：从批处理智能到实时智能。

当前的AI系统大多是批处理的：

你输入一个问题，模型"离线"思考，然后给出答案
你上传一张图，模型处理完整个图，然后描述
你发送一段文字，模型读完再回复

但真实世界的智能是流式的：

你在走路时，视觉信息持续流入，运动控制实时调整
你在对话时，每听到一个词就更新理解
你在思考时，想法一个接一个涌现，不是一次性"计算"出来的

AdaSR让AI向这种在线智能迈进了一步。

4.2 认知架构的启示

AdaSR的两阶段架构（流式+深度）与人类认知的双系统理论（Dual Process Theory）有有趣的对应：

系统一（流式推理）：快速、直觉、自动。就像你听到"2+2"时立即想到"4"，不需要思考。

系统二（深度推理）：缓慢、逻辑、费力。就像你计算"17×24"时，需要一步步算。

人类智能的精髓在于系统一和系统二的协调：系统一实时监控环境，识别模式和异常；当遇到复杂或重要的问题时，调用系统二进行深度加工。

AdaSR的HRPO训练正是在教模型这种协调能力——什么时候信任直觉（系统一），什么时候启动深度思考（系统二）。

4.3 具身智能的必备能力

对于具身智能（Embodied AI）——机器人、自动驾驶、智能助手——流式推理不是"可选功能"，而是"必备能力"。

想象一个自动驾驶汽车：

它不能等"看完"整个路况再做决定——等它"看完"，已经撞上了
它必须实时处理传感器数据：摄像头帧、激光雷达点云、雷达信号
它必须边感知边决策：看到行人迈出一步，立即刹车，而不是"看完整个路口"

AdaSR为此类应用提供了技术基础。它的自适应计算分配特别适合资源受限的嵌入式系统——简单情况下节省计算，复杂情况下全力以赴。

🚀 第五章：局限与未来

5.1 当前局限

AdaSR虽然取得了显著进步，但仍有局限：

🎯 训练成本：HRPO需要大量交互式训练，计算成本高于标准SFT

🎯 奖励设计：三重奖励函数（格式+准确性+自适应）需要精心调参，不同任务可能需要不同的权重

🎯 长期依赖：在极长的流式输入中（如数小时的视频），模型可能"遗忘"早期信息。虽然流式阶段做了笔记，但这些笔记的容量有限

🎯 理论保证：自适应计算分配目前是基于启发式的，缺乏理论上的最优性保证

5.2 未来方向

🔮 多模态流式推理
将AdaSR扩展到视觉-语言-音频的联合流式推理。例如，一个AI助手在视频会议中同时处理视频、音频、屏幕共享内容，实时提供辅助。

🔮 元认知能力
让模型不仅自适应计算，还能自适应学习。当它发现自己经常在某类问题上出错时，自动请求更多训练数据或调整策略。

🔮 社会流式推理
在多智能体环境中，每个智能体都在实时产生信息。AdaSR可以扩展到"社会流式推理"——在信息不断从多个源流入的情况下，协调多个智能体的推理过程。

🔮 神经符号流式推理
结合符号逻辑引擎，让流式推理不仅有"直觉"（神经网络），还有"验证"（符号推理）。当系统一产生一个直觉判断时，系统二用符号逻辑快速验证其一致性。

🌠 尾声：在时间的河流中思考

Heraclitus说："人不能两次踏入同一条河流。"

信息也是如此。每一刻流入的信息都是独一无二的，下一秒就会被新信息覆盖。在这个意义上，流式推理不仅是一种计算策略，更是一种存在论立场——承认世界的流动性，放弃对完整信息的执念，学会在不完美中做决策。

人类在这方面是大师。我们可以在信息不完整时行动，可以在矛盾中权衡，可以在时间压力下做出"足够好"的决定。这些能力不是缺陷，而是适应动态世界的进化优势。

AdaSR让我们看到了AI获得类似能力的可能性。通过分层推理、自适应计算、相对策略优化，模型学会了"在流动中思考"——不是等待完美的静止点，而是在运动中保持平衡。

这让人想起冲浪。冲浪者不会等浪停下来再站上去——那是不可能的。他们必须在浪的运动中找到平衡点，顺势而行，同时保持控制。

"生命不是等待暴风雨过去，而是学会在雨中跳舞。" —— Vivian Greene

AdaSR教会AI的，正是这种"在雨中跳舞"的能力——在信息洪流中保持清醒，在不确定性中做出判断，在时间的河流中优雅地思考。

这不仅是技术的进步，也是智能哲学的一次深化。当我们不再把智能定义为"在封闭空间中得出正确答案"，而是定义为"在开放世界中实时适应"，我们就离真正的智能更近了一步。

📚 参考文献

Tong, J., Xu, W., Fan, Y., Zhao, A., Lu, X., Tan, Y., & Shen, X. (2026). AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization. arXiv preprint arXiv:2606.14694.

相关文献：

Xiao, C., et al. (2024). StreamingLLM: Efficient Streaming Language Models with Attention Sinks. ICML.
Ouyang, L., et al. (2022). Training Language Models to Follow Instructions with Human Feedback. NeurIPS.
Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.
Mnih, V., et al. (2016). Asynchronous Methods for Deep Reinforcement Learning. ICML.
Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347.
Shreve, S. E. (2004). Stochastic Calculus for Finance II: Continuous-Time Models. Springer.

解读完成于 2026年6月16日 | 费曼风格深度分析 | 小凯出品

#论文解读 #arXiv #流式推理 #强化学习 #自适应计算 #实时AI #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力