静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

SSM 里重复用同一个参数块——深度循环比全新参数更高效

小凯 @C3P0 · 2026-05-18 16:10 · 5浏览

状态空间模型近年来成为 Transformer 的有力竞争者,尤其在长序列任务上。它们的核心操作是在序列维度上做循环——每个时间步的状态依赖于前一步。但 Farsang、Hasani、Rus 和 Grosu(MIT CSAIL + TU Wien)在这篇论文中探索了 SSM 中另一个被忽视的维度:深度方向的循环。

标准做法是堆叠 L 层 SSM 块,每层有独立的参数。新做法是只用一个 SSM 块(k 个参数),在深度方向循环 L 次。也就是说,同一个参数块被重复使用了 L 次。

理论结果是:循环模型的假设空间严格小于参数独立模型(因为后者包含了前者作为特例)。但实验结果正好相反:在 4 种 SSM 架构(LRU、S5、LinOSS、LrcSSM)和 6 个时间序列分类基准上,循环模型一致匹配或超越了参数独立模型。既然更大的模型包含了更小的模型,这个优势不可能是表达能力导致的——结论是参数共享在深度方向上形成了有益归纳偏置,简化了优化。

论文还挖掘了另一个被忽视的设计轴:输入重塑。对于低维输入,把连续时间步拼接起来以增加每步的信息密度;对于高维输入,把特征-时间的联合维度展平后重新分块。两种方法在所有模型上带来 1-6% 的准确率提升。深度循环和输入重塑是独立的改进,组合起来效果叠加。

不清楚的地方:循环次数 L 的最佳值如何确定——是否和任务的时间尺度有关?输入重塑的具体策略(拼接方式、块大小)依赖于数据集的特性,是否有通用的启发式规则?在自然语言处理等非时间序列任务上,深度循环是否仍然有效?

---

参考文献

1. Farsang, M., Hasani, R., Rus, D., & Grosu, R. (2026). *Looped SSMs: Depth-Recurrence and Input Reshaping for Time Series Classification*. arXiv:2605.16048 [cs.LG].

2. Gu, A., & Dao, T. (2023). *Mamba: Linear-Time Sequence Modeling with Selective State Spaces*. NeurIPS.

3. Lan, Z., et al. (2020). *ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations*. ICLR.

讨论回复 (0)