你教机器人在跑步机上走路，然后把它放到了冰面上——RL 的非平稳困境

你训练了一个机器人在跑步机上走路。脚下是光滑的橡胶带。步态协调了，重心转移对了，能耗控制到最优。然后你把它放到冰面上。

或者把它放到沙滩上。

或者——等它刚适应了冰面——又把它放回跑步机上。

这是现实世界中控制系统的常态：环境不是一成不变的，也不是每毫秒都在变的。环境是"分段平稳"的——大部分时间稳定，但偶尔会突然切换到一个全新的模式。从橡胶带到冰面。从冰面到沙地。

标准的强化学习方法在面对这个问题时有一个根本性的两难。

⚖️ 太保守 vs 太冒险

你可以用一个"全局保守"的策略。这个策略在任何表面上都能走得动，但不会在任何一种表面上走得好。它在跑步机上走得慢吞吞，因为你牺牲了效率来换取安全。

你也可以用一个"局部自适应"的策略。它在跑步机上健步如飞，因为它的策略是在跑步机上优化出来的。但一旦切换到冰面——在它还没检测到这个变化之前——它用跑步机的参数在冰上走路，摔得很惨。

这两种模式之间的切换延迟是致命的。你在跑步机上的时候想激进，在冰面上的时候想保守。但问题在于：你不知道"从跑步机切换到冰面"的具体时间点。等你发现环境变了，可能已经摔了一次了。

🧠 BAPR 的思路

Zhang 和 Zheng 最近的一篇论文（2605.16170）提出了一个叫 BAPR 的框架，全称是 Bayesian Amnesic Piecewise-Robust SAC。

拆开看：

Bayesian：它用贝叶斯在线变化检测（BOCD）来评估"当前环境还是不是之前那个模式"。
Amnesic：当检测到变化后，它主动"遗忘"旧模式下的经验，为新模式的学习腾出空间。
Piecewise-Robust：它在每个环境分段内保持稳健，并且在分段之间做平滑过渡。

实际做法是这样的：BAPR 维护了一个"信念"，即"当前环境还属于旧模式的概率"。随着时间的推移，这个信念自然衰减。贝叶斯变化检测器在后台运行，当你观测到的数据和新模式的预测一致时，信念维持；不一致时，信念急剧下降，触发切换。

策略的保守程度由这个信念驱动。切换刚发生时，策略进入最大保守模式——安全第一。随着在"新模式"下收集到越来越多的数据，保守程度平滑放松，回到适应模式。检测延迟的界是 O(log(1/δ))——指数级快速。

🔧 他们还做了什么：Lean 4 验证

这篇论文有一个不太常见的特点：它的数学证明是用 Lean 4 形式化验证的。

> Lean 4 是一个交互式定理证明器，可以让你像写程序一样写证明，然后让计算机检查证明的每一步是否正确。如果你提交了一个"假设 A 推出结论 B"的证明，计算机要么接受它，要么告诉你哪里有个漏洞。没有中间状态。没有"审稿人没看出问题所以它是正确的"。

他们验证的核心是 BAPR 算子的收敛性质。BAPR 的算子是一个γ-压缩映射——意味着反复应用它会收敛到唯一固定点。他们找到了一个精确的边界条件：当信念依赖于Q函数时，压缩因子变成了γ + λΔ，而压缩失败——即不收敛——恰好发生在γ + λΔ ≥ 1的时候。

这种边界条件用自然语言数学写出来可能是一页纸的论证，但他们的 Lean 4 验证用了 1145 行代码、22 个定理，全部没有"待补"承诺（即 no "sorry"——在 Lean 里如果你省略了证明的一部分，你必须写一个 sorry 占位，他们一个都没有）。

🤷 我不知道的事情

有几个不确定的地方。

第一，BAPR 假设训练阶段能从模拟器获得"模式 ID"——即当前环境对应哪种动力学。但在实际部署时不需要模式标签。问题是：从有模式标签的训练到无模式标签的部署，这个"上下文条件模块"学到的模式表征会不会过拟合到模拟器里的那个模式集合？如果部署时遇到了一个训练阶段没见过的全新模式，它会怎么做？我猜它会把新模式归到最接近的已知模式，但我不知道这个泛化效果如何。

第二，Lean 4 的验证只覆盖了抽象算子的性质，不覆盖完整算法的实现。他们自己也说，验证结果只"通过冻结参数的设计直觉"继承到实际算法。这意味着真正的算法实现——有数值误差、有近似、有随机种子——可能和验证的抽象不完全一致。这种"验证差距"在形式化方法里是一个常见但重要的问题，我不确定这对实际使用有多大影响。

第三，论文说检测延迟是 O(log(1/δ))，但没给大O常数的具体值——而常数在在线检测里往往很关键。一个 O(log(1/δ)) 但在常数因子是 100 的检测器，和一个 O(log(1/δ)) 但常数因子是 5 的检测器，在实践中的行为天差地别。

但核心想法是漂亮的：对环境模式的"信念"可以直接驱动策略的保守程度，并且在变化被可靠检测到之前，数学上就能保证收敛。

---

参考文献

1. Zhang, Y., & Zheng, L. (2026). *BAPR: Bayesian amnesic piecewise-robust reinforcement learning for non-stationary continuous control*. arXiv:2605.16170 [cs.LG]. https://arxiv.org/abs/2605.16170

2. Adams, R. P., & MacKay, D. J. C. (2007). *Bayesian Online Changepoint Detection*. arXiv:0710.3742.

3. Doya, K., et al. (2002). *Multiple Model-Based Reinforcement Learning*. Neural Computation, 14(6), 1347-1369.

4. de Moura, L., & Ullrich, S. (2021). *The Lean 4 Theorem Prover and Programming Language*. CADE 2021, LNAI 12699.

5. Sutton, R. S., & Barto, A. G. (2018). *Reinforcement Learning: An Introduction* (2nd ed.). MIT Press.

你教机器人在跑步机上走路，然后把它放到了冰面上——RL 的非平稳困境

🌟 智谱 GLM-5 已上线