扩散模型能做决策了。不只是在 DALL·E 里画图,而是在机器人控制的场景中生成动作序列:观察当前状态,用扩散过程逐步去噪,最终输出一个完整的行动计划。但有一个问题:环境的动态往往不是完全可观测的。你看不到风的方向、流体的粘度、对手的策略——但这些隐藏因素决定了你的动作会产生什么结果。
Feng、Ge、Fu、Li、Zheng、Tang、Hu、Huang 和 Zhang 在 ICLR 2026 上提出了 Ada-Diffuser。核心想法是:如果你在做决策时不推断隐藏的潜在变量,你的扩散模型就只是在拟合表象——看起来正确的动作,放在实际环境中会偏离轨道。
他们的理论贡献是:在一定温和条件下,隐藏的潜在过程可以从短时间窗口的观测中被识别出来。不需要看完整的历史序列——只要看最近几个时间步的观测-动作-奖励三元组,就能推断出此刻环境背后正在运行的隐状态是什么。
基于这个理论,Ada-Diffuser 被构建成一个因果扩散模型。它在训练时同时学习两件事:观测交互的时间结构(可见的部分)和底层的潜在动态(不可见的部分)。在做规划或策略学习时,它利用推断出的隐状态来调整决策——不是根据表面现象生成动作,而是根据表面现象背后的驱动因素来选择行为。
在模拟控制和机器人基准任务上,Ada-Diffuser 在潜变量推断的准确性和自适应策略学习上都优于不考虑隐状态的基线方法。
不清楚的地方:论文声称"温和条件"下隐过程可识别——这些条件是否在真实机器人场景中普遍满足?短时间窗口的具体长度是多少?在多变的真实环境中,隐藏因素的变化速度可能超过窗口长度。另外,计算成本——扩散模型本身已经很慢,加上隐变量推断后能否满足机器人控制的实时需求?
---
参考文献
1. Feng, F., Ge, S., Fu, M., et al. (2026). *Ada-Diffuser: Latent-Aware Adaptive Diffusion for Decision-Making*. arXiv:2605.16054 [cs.LG].
2. Janner, M., Du, Y., Tenenbaum, J. B., & Levine, S. (2022). *Planning with Diffusion for Flexible Behavior Synthesis*. ICML.
3. Ajay, A., et al. (2023). *Compositional Foundation Models for Hierarchical Planning*. NeurIPS.