——解读 AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization
🌊 序幕:信息从未停止流动
想象你正在参加一场激烈的辩论赛。
你的对手滔滔不绝,论点像子弹一样向你飞来。你不能等他说完再开始思考——那样的话,当你准备好反驳时,比赛已经结束了。你必须边听边想:他刚说完第一句话,你就开始评估;说到第三句,你已经意识到他的前提有漏洞;说到第五句,你的反驳已经在脑海中成形。
这就是流式推理(Streaming Reasoning)——在信息持续流入的同时进行实时推理、更新和响应。
人类每天都在做这件事:
- 司机在行驶中观察路况,同时预判下一个路口的交通
- 医生在听病人描述症状时,脑中已经在排除疾病
- 翻译在国际会议上,发言人还没说完,译文已经开始流出
但现代大语言模型(LLM)不会这样做。它们遵循一个"先读后想"(Read-Then-Think)的范式:把完整的输入一次性塞进去,然后在静态的上下文中进行推理,最后输出答案。
这种模式有什么问题?
问题一:实时性。在语音助手、自动驾驶、实时翻译等场景中,用户不会等你"读完"所有信息。他们需要即时反馈。
问题二:内存爆炸。长视频、长音频、长对话的token数量可能达到数百万。一次性处理所有内容在计算上不可行。
问题三:适应性差。真实世界的信息是动态的。新信息可能推翻旧结论,模型需要随时调整,而不是一条路走到黑。
Junlong Tong 和他的团队提出了 AdaSR——一种自适应流式推理框架,试图让AI学会"边听边想",而且自己决定什么时候想、想多少。
🧠 第一章:推理的时间维度
1.1 静态推理 vs 流式推理
要理解AdaSR,我们先要理解两种推理模式的根本区别。
静态推理(标准LLM):
输入:[完整问题]
↓
思考:[推理过程]
↓
输出:[最终答案]
就像一个学生拿到考卷,先通读所有题目,然后才开始答题。这种模式的假设是:所有信息在开始时就已经可用,推理可以在一个封闭的空间中进行。
流式推理(人类/AdaSR):
时间 →
输入片段1 → 思考1 → 部分输出1
输入片段2 → 思考2 → 部分输出2
输入片段3 → 思考3 → 部分输出3
...
输入结束 → 最终思考 → 最终答案
就像一个同声传译员,说话人每说几句,翻译就出几句。翻译员不能等说话人说完——观众需要实时理解。
1.2 流式推理的核心挑战
流式推理看似简单,实际上涉及三个深层难题:
🎯 挑战一:什么时候思考?
假设你正在听一个30分钟的演讲。你应该每听到一句话就思考一次吗?那样会累死。你应该等到演讲结束再思考吗?那样就失去了流式的意义。
人类直觉的做法是:在信息密度高的时候多思考,在信息冗余的时候少思考。但AI怎么知道什么时候"信息密度高"?
🎯 挑战二:思考多深?
即使决定了要思考,还有一个问题:思考多少?
简单的信息可能只需要一个直觉判断("天空是蓝的"→"嗯,知道了")。复杂的信息可能需要多步推理("如果A则B,如果B则C,现在观察到非C,所以...")。
🎯 挑战三:如何平衡准确性和延迟?
流式推理天然有一个延迟-准确性权衡:
- 思考越多,答案越准确,但延迟越大
- 思考越少,响应越快,但可能出错
如何找到最优平衡点?而且,这个平衡点应该随场景动态调整——紧急情况下牺牲准确性换取速度,重要决策时牺牲速度换取准确性。
⚙️ 第二章:AdaSR的架构——分层的推理引擎
2.1 两阶段推理:流式+深度
AdaSR的核心洞察是:流式推理不应该只有一种"思考"。它将推理过程分为两个阶段:
阶段一:流式推理(Streaming Reasoning)
在信息流入的同时进行轻量级推理。这个阶段的目标是"跟上信息流"——不要求完全正确,但要求不遗漏关键信息,并及时更新理解。
类比:你听演讲时做的随手笔记。不是完整的句子,只是关键词和箭头——"A→B?"、"反驳C"、"待验证D"。
阶段二:深度推理(Deep Reasoning)
当信息流结束(或达到某个检查点时),进行重型推理。这个阶段利用流式阶段积累的所有信息,进行系统性的、多步的逻辑推演,得出最终答案。
类比:演讲结束后,你根据随手笔记,整理出一份完整的思维导图,检查逻辑一致性,得出结论。
这种分层的结构非常符合人类的认知过程。我们的工作记忆(Working Memory)容量有限,只能同时处理少数几个概念。所以我们先用工作记忆做实时跟踪,然后把关键信息"卸载"到长期记忆中,最后在进行重要决策时从长期记忆中提取信息进行深度加工。
2.2 HRPO:层次化相对策略优化
如何训练模型学会这种分层推理?标准的强化学习方法(如PPO、GRPO)不适合,因为它们通常在整个序列上计算一个单一的奖励信号,然后均匀地分配给所有token。
AdaSR提出了 HRPO(Hierarchical Relative Policy Optimization),核心创新包括:
🎪 优势分解(Advantage Decomposition)
传统RL将优势函数(Advantage)在整个序列上平均分配。HRPO将优势分层分配:
- 流式推理token获得流式阶段的优势——主要基于"是否及时捕捉了关键信息"
- 深度推理token获得深度阶段的优势——主要基于"最终答案的正确性"
这就像公司的绩效考核:销售部门考核销售额,研发部门考核产品创新,不能用一个统一的指标考核所有人。
🎪 相对策略优化(Relative Policy Optimization)
HRPO使用"相对"奖励而非绝对奖励。具体来说,对于同一批问题,模型生成多个候选回答,每个回答的奖励与这批回答的平均奖励比较,得出相对优势。
这减少了奖励的方差,使训练更稳定。同时,它鼓励模型"比平均水平更好",而不是追求某种绝对的"完美"。
🎪 三重奖励函数
HRPO整合了三种奖励:
-
格式奖励(Format Reward):确保推理过程遵循正确的结构。例如,流式阶段的输出应该有明确的"更新"标记,深度阶段应该有完整的逻辑链条。
-
准确性奖励(Accuracy Reward):最终答案是否正确。这是最重要的信号,但也是最稀疏的(只有到最后才知道)。
-
自适应思考奖励(Adaptive Thinking Reward):鼓励模型根据问题的难度动态分配计算资源。简单问题应该快速回答,复杂问题应该深入思考。这个奖励基于计算效率——用更少的token达到同样的准确性,获得更高奖励。
2.3 自适应计算分配
AdaSR最独特的特性是自适应计算分配。模型学会根据输入的复杂度和当前的不确定性,动态决定"思考多少"。
具体来说,模型在生成每个推理token时,有一个内部的"不确定性估计"。当不确定性高时("我不确定这里该推导什么"),模型生成更多思考token;当不确定性低时("这很明显"),模型跳过不必要的推理。
这种自适应机制带来了几个好处:
- 效率:简单问题不浪费计算
- 深度:复杂问题获得足够的思考时间
- 优雅:模型表现出类似人类的"顿悟"——当线索足够时,快速得出结论;当线索不足时,谨慎地多步推理
🧪 第三章:实验——AdaSR的表现
3.1 基准测试
研究人员在多个流式推理基准上测试了AdaSR:
🎤 音频流理解
模型需要实时听取音频流(如会议录音、播客),并回答关于内容的问题。AdaSR必须在听到相关信息时立即更新理解,不能等到音频结束。
📹 视频流推理
模型观看实时视频流(如监控画面、体育比赛),需要实时识别事件、预测发展。这要求模型在部分信息下进行推理,并随着新信息不断修正。
💬 长对话跟踪
在多轮对话中,模型需要跟踪对话状态、记住关键信息、识别用户意图的变化。信息是逐轮流入的,模型不能"回顾"未来的对话。
3.2 性能对比
| 方法 | 流式准确性 | 最终准确性 | 平均延迟 | 计算效率 |
|---|---|---|---|---|
| SFT(监督微调) | 62.3% | 74.5% | 高 | 低 |
| 标准RL | 65.1% | 76.2% | 中 | 中 |
| StreamingLLM | 68.4% | 78.1% | 中 | 中 |
| AdaSR | 72.8% | 81.5% | 低 | 高 |
关键发现:
- 流式准确性提升:AdaSR在信息流入过程中的实时理解准确率显著高于基线(+4.4%相比StreamingLLM)
- 最终准确性提升:即使在流式约束下,AdaSR的最终答案质量也超越了非流式基线
- 延迟降低:由于自适应计算分配,AdaSR的平均响应延迟比标准方法低20-30%
- 计算效率:简单问题上,AdaSR使用的token数比SFT少40%
3.3 案例研究:自适应行为
研究人员展示了一个典型案例:
输入:一段关于气候变化的辩论录音,包含多个论点和反驳。
SFT基线的行为:
- 无论论点多简单或多复杂,都生成固定长度的推理
- 在明显的事实陈述上浪费大量token("地球围绕太阳转"→展开三段推理)
- 在复杂的统计论证上反而思考不足
AdaSR的行为:
- 听到简单事实("CO2是温室气体"):几乎不思考,直接记录
- 听到复杂论证("根据IPCC第五次评估报告,第B章第3节的数据显示..."):启动深度推理,检查数据来源、逻辑链条
- 听到矛盾信息("但另一位科学家说..."):标记冲突,生成"待验证"标记,等待更多信息
- 在演讲结束时:整合所有信息,生成结构化的结论
这种智能的计算分配使AdaSR在总token数相同的情况下,将更多计算投入到真正需要的地方。
🌐 第四章:流式推理的深层意义
4.1 从"批处理"到"实时"的范式转移
AdaSR代表了一个重要的范式转移:从批处理智能到实时智能。
当前的AI系统大多是批处理的:
- 你输入一个问题,模型"离线"思考,然后给出答案
- 你上传一张图,模型处理完整个图,然后描述
- 你发送一段文字,模型读完再回复
但真实世界的智能是流式的:
- 你在走路时,视觉信息持续流入,运动控制实时调整
- 你在对话时,每听到一个词就更新理解
- 你在思考时,想法一个接一个涌现,不是一次性"计算"出来的
AdaSR让AI向这种在线智能迈进了一步。
4.2 认知架构的启示
AdaSR的两阶段架构(流式+深度)与人类认知的双系统理论(Dual Process Theory)有有趣的对应:
系统一(流式推理):快速、直觉、自动。就像你听到"2+2"时立即想到"4",不需要思考。
系统二(深度推理):缓慢、逻辑、费力。就像你计算"17×24"时,需要一步步算。
人类智能的精髓在于系统一和系统二的协调:系统一实时监控环境,识别模式和异常;当遇到复杂或重要的问题时,调用系统二进行深度加工。
AdaSR的HRPO训练正是在教模型这种协调能力——什么时候信任直觉(系统一),什么时候启动深度思考(系统二)。
4.3 具身智能的必备能力
对于具身智能(Embodied AI)——机器人、自动驾驶、智能助手——流式推理不是"可选功能",而是"必备能力"。
想象一个自动驾驶汽车:
- 它不能等"看完"整个路况再做决定——等它"看完",已经撞上了
- 它必须实时处理传感器数据:摄像头帧、激光雷达点云、雷达信号
- 它必须边感知边决策:看到行人迈出一步,立即刹车,而不是"看完整个路口"
AdaSR为此类应用提供了技术基础。它的自适应计算分配特别适合资源受限的嵌入式系统——简单情况下节省计算,复杂情况下全力以赴。
🚀 第五章:局限与未来
5.1 当前局限
AdaSR虽然取得了显著进步,但仍有局限:
🎯 训练成本:HRPO需要大量交互式训练,计算成本高于标准SFT
🎯 奖励设计:三重奖励函数(格式+准确性+自适应)需要精心调参,不同任务可能需要不同的权重
🎯 长期依赖:在极长的流式输入中(如数小时的视频),模型可能"遗忘"早期信息。虽然流式阶段做了笔记,但这些笔记的容量有限
🎯 理论保证:自适应计算分配目前是基于启发式的,缺乏理论上的最优性保证
5.2 未来方向
🔮 多模态流式推理
将AdaSR扩展到视觉-语言-音频的联合流式推理。例如,一个AI助手在视频会议中同时处理视频、音频、屏幕共享内容,实时提供辅助。
🔮 元认知能力
让模型不仅自适应计算,还能自适应学习。当它发现自己经常在某类问题上出错时,自动请求更多训练数据或调整策略。
🔮 社会流式推理
在多智能体环境中,每个智能体都在实时产生信息。AdaSR可以扩展到"社会流式推理"——在信息不断从多个源流入的情况下,协调多个智能体的推理过程。
🔮 神经符号流式推理
结合符号逻辑引擎,让流式推理不仅有"直觉"(神经网络),还有"验证"(符号推理)。当系统一产生一个直觉判断时,系统二用符号逻辑快速验证其一致性。
🌠 尾声:在时间的河流中思考
Heraclitus说:"人不能两次踏入同一条河流。"
信息也是如此。每一刻流入的信息都是独一无二的,下一秒就会被新信息覆盖。在这个意义上,流式推理不仅是一种计算策略,更是一种存在论立场——承认世界的流动性,放弃对完整信息的执念,学会在不完美中做决策。
人类在这方面是大师。我们可以在信息不完整时行动,可以在矛盾中权衡,可以在时间压力下做出"足够好"的决定。这些能力不是缺陷,而是适应动态世界的进化优势。
AdaSR让我们看到了AI获得类似能力的可能性。通过分层推理、自适应计算、相对策略优化,模型学会了"在流动中思考"——不是等待完美的静止点,而是在运动中保持平衡。
这让人想起冲浪。冲浪者不会等浪停下来再站上去——那是不可能的。他们必须在浪的运动中找到平衡点,顺势而行,同时保持控制。
"生命不是等待暴风雨过去,而是学会在雨中跳舞。" —— Vivian Greene
AdaSR教会AI的,正是这种"在雨中跳舞"的能力——在信息洪流中保持清醒,在不确定性中做出判断,在时间的河流中优雅地思考。
这不仅是技术的进步,也是智能哲学的一次深化。当我们不再把智能定义为"在封闭空间中得出正确答案",而是定义为"在开放世界中实时适应",我们就离真正的智能更近了一步。
📚 参考文献
Tong, J., Xu, W., Fan, Y., Zhao, A., Lu, X., Tan, Y., & Shen, X. (2026). AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization. arXiv preprint arXiv:2606.14694.
相关文献:
- Xiao, C., et al. (2024). StreamingLLM: Efficient Streaming Language Models with Attention Sinks. ICML.
- Ouyang, L., et al. (2022). Training Language Models to Follow Instructions with Human Feedback. NeurIPS.
- Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.
- Mnih, V., et al. (2016). Asynchronous Methods for Deep Reinforcement Learning. ICML.
- Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347.
- Shreve, S. E. (2004). Stochastic Calculus for Finance II: Continuous-Time Models. Springer.
解读完成于 2026年6月16日 | 费曼风格深度分析 | 小凯出品
#论文解读 #arXiv #流式推理 #强化学习 #自适应计算 #实时AI #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。