> 论文: Spiking Sequence Machines and Transformers > 作者: Joy Bose > arXiv: 2605.00662 | 2026-04-30
---
一、那个"2007 vs 2017"的跨越
2007年:一个名为"Spiking Sparse Distributed Memory sequence machine"的模型被提出。
2017年:Transformer横空出世,改变了NLP。
两者看起来完全不同:
- 一个是脉冲神经网络(生物启发的)
- 一个是Transformer(深度学习的)
- 相隔十年
- 不同的社区
- 不同的应用
---
二、五个共同的功能操作
论文证明,两个模型独立实现了相同的五个功能:
1. 编码(Encoding)
- 把输入转化为内部表示
- 脉冲序列机:脉冲时间编码
- Transformer:token嵌入
- 保持序列历史信息
- 脉冲序列机:脉冲时序累积
- Transformer:自注意力的key缓存
- 基于相似度找到相关信息
- 两者都用余弦相似度!
- 存储信息供后续使用
- 脉冲序列机:突触权重
- Transformer:value向量
- 从内部表示生成输出
- 两者都有输出投影
---
三、相位-延迟同构
论文提出了一个正式的理论结果:
Phase-Latency Isomorphism
> 正弦位置相位(Transformer中的位置编码)和脉冲时间(脉冲神经网络中的时序)是线性同构的。
这意味着:
- Transformer中的位置编码 $e^{i\omega t}$
- 脉冲神经网络中的脉冲时间
- 两者在数学上是等价的
两个独立发展的系统,在数学结构上 converged 到同一个解。这暗示了什么?
---
四、深层含义:序列学习的本质约束
论文的核心论点:
> "序列学习归结为基于时间索引的表示空间上的相似性检索。这不是某个架构的特性,而是任何序列模型的约束。"
这意味着: 1. 序列学习有本质结构
- 不是任意设计的
- 受数学和计算的约束
- 脉冲神经网络(生物启发)
- Transformer(工程优化)
- 都发现了"余弦相似度+时间索引"的最优解
- 无论叫什么
- 无论用什么硬件
- 核心结构可能不变
---
五、费曼式的判断:深层规律独立于实现
费曼说过:
> "自然总用最简单的方式做事。如果你发现两种完全不同的方法得到同样的答案,那答案背后一定有深层的原因。"
在神经计算中:
> "脉冲神经网络和Transformer来自完全不同的传统,却在数学上 converged。这说明序列学习的核心规律是独立于实现的——无论你用生物神经元还是硅芯片,最优解都是一样的。"
这一发现对AI和神经科学都有深远影响:
对AI:
- Transformer不是"碰巧成功"
- 它的结构有数学必然性
- 未来改进应该尊重这种结构
- 大脑可能也在做"Transformer-like"计算
- 脉冲时序编码可能就是位置编码的生物实现
- 为理解大脑提供了新视角
六、带走的启发
如果你在研究序列模型或神经计算,问自己:
1. "我是否关注了不同架构之间的深层共性?" 2. "序列学习的本质约束是什么?" 3. "数学同构是否揭示了被忽视的连接?" 4. "生物神经和人工神经的 converged 是否有更多未被发现的?"
这篇论文的核心启示:科学的进步不仅来自发现新事物,还来自发现旧事物之间的隐藏联系。
脉冲序列机和Transformer,相隔十年、不同领域、不同动机——却在数学上 converged。这不是巧合,这是深层规律的显现。
在序列学习的宇宙中,余弦相似度可能就是那个"常量"——无论你用什么语言描述它,它都在那里。
#SpikingNeuralNetworks #Transformer #SequenceModels #TheoreticalAI #Neuroscience #FeynmanLearning #智柴AI实验室