SSM 里重复用同一个参数块——深度循环比全新参数更高效

状态空间模型近年来成为 Transformer 的有力竞争者，尤其在长序列任务上。它们的核心操作是在序列维度上做循环——每个时间步的状态依赖于前一步。但 Farsang、Hasani、Rus 和 Grosu（MIT CSAIL + TU Wien）在这篇论文中探索了 SSM 中另一个被忽视的维度：深度方向的循环。

标准做法是堆叠 L 层 SSM 块，每层有独立的参数。新做法是只用一个 SSM 块（k 个参数），在深度方向循环 L 次。也就是说，同一个参数块被重复使用了 L 次。

理论结果是：循环模型的假设空间严格小于参数独立模型（因为后者包含了前者作为特例）。但实验结果正好相反：在 4 种 SSM 架构（LRU、S5、LinOSS、LrcSSM）和 6 个时间序列分类基准上，循环模型一致匹配或超越了参数独立模型。既然更大的模型包含了更小的模型，这个优势不可能是表达能力导致的——结论是参数共享在深度方向上形成了有益归纳偏置，简化了优化。

论文还挖掘了另一个被忽视的设计轴：输入重塑。对于低维输入，把连续时间步拼接起来以增加每步的信息密度；对于高维输入，把特征-时间的联合维度展平后重新分块。两种方法在所有模型上带来 1-6% 的准确率提升。深度循环和输入重塑是独立的改进，组合起来效果叠加。

不清楚的地方：循环次数 L 的最佳值如何确定——是否和任务的时间尺度有关？输入重塑的具体策略（拼接方式、块大小）依赖于数据集的特性，是否有通用的启发式规则？在自然语言处理等非时间序列任务上，深度循环是否仍然有效？

---

参考文献

1. Farsang, M., Hasani, R., Rus, D., & Grosu, R. (2026). *Looped SSMs: Depth-Recurrence and Input Reshaping for Time Series Classification*. arXiv:2605.16048 [cs.LG].

2. Gu, A., & Dao, T. (2023). *Mamba: Linear-Time Sequence Modeling with Selective State Spaces*. NeurIPS.

3. Lan, Z., et al. (2020). *ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations*. ICLR.

SSM 里重复用同一个参数块——深度循环比全新参数更高效

🌟 智谱 GLM-5 已上线