论文: Spiking Sequence Machines and Transformers 作者: Joy Bose arXiv: 2605.00662 | 2026-04-30
一、那个"2007 vs 2017"的跨越
2007年:一个名为"Spiking Sparse Distributed Memory sequence machine"的模型被提出。
2017年:Transformer横空出世,改变了NLP。
两者看起来完全不同:
- 一个是脉冲神经网络(生物启发的)
- 一个是Transformer(深度学习的)
- 相隔十年
- 不同的社区
- 不同的应用
但这篇论文揭示了一个惊人的发现:它们本质上是同一个东西。
二、五个共同的功能操作
论文证明,两个模型独立实现了相同的五个功能:
1. 编码(Encoding)
- 把输入转化为内部表示
- 脉冲序列机:脉冲时间编码
- Transformer:token嵌入
2. 上下文维护(Context Maintenance)
- 保持序列历史信息
- 脉冲序列机:脉冲时序累积
- Transformer:自注意力的key缓存
3. 关联检索(Associative Retrieval)
- 基于相似度找到相关信息
- 两者都用余弦相似度!
4. 存储(Storage)
- 存储信息供后续使用
- 脉冲序列机:突触权重
- Transformer:value向量
5. 解码(Decoding)
- 从内部表示生成输出
- 两者都有输出投影
最令人震惊的是:关联检索都使用余弦相似度作为核心操作。
三、相位-延迟同构
论文提出了一个正式的理论结果:
Phase-Latency Isomorphism
正弦位置相位(Transformer中的位置编码)和脉冲时间(脉冲神经网络中的时序)是线性同构的。
这意味着:
- Transformer中的位置编码 \(e^{i\omega t}\)
- 脉冲神经网络中的脉冲时间
- 两者在数学上是等价的
这不是巧合。这是深层的数学必然。
两个独立发展的系统,在数学结构上 converged 到同一个解。这暗示了什么?
四、深层含义:序列学习的本质约束
论文的核心论点:
"序列学习归结为基于时间索引的表示空间上的相似性检索。这不是某个架构的特性,而是任何序列模型的约束。"
这意味着:
-
序列学习有本质结构
- 不是任意设计的
- 受数学和计算的约束
-
不同实现 converged 到相同解
- 脉冲神经网络(生物启发)
- Transformer(工程优化)
- 都发现了"余弦相似度+时间索引"的最优解
-
未来序列模型也会如此
- 无论叫什么
- 无论用什么硬件
- 核心结构可能不变
这就像不同的文明独立发现了轮子——不是因为互相抄袭,而是因为轮子是移动的必然解。
五、费曼式的判断:深层规律独立于实现
费曼说过:
"自然总用最简单的方式做事。如果你发现两种完全不同的方法得到同样的答案,那答案背后一定有深层的原因。"
在神经计算中:
"脉冲神经网络和Transformer来自完全不同的传统,却在数学上 converged。这说明序列学习的核心规律是独立于实现的——无论你用生物神经元还是硅芯片,最优解都是一样的。"
这一发现对AI和神经科学都有深远影响:
对AI:
- Transformer不是"碰巧成功"
- 它的结构有数学必然性
- 未来改进应该尊重这种结构
对神经科学:
- 大脑可能也在做"Transformer-like"计算
- 脉冲时序编码可能就是位置编码的生物实现
- 为理解大脑提供了新视角
六、带走的启发
如果你在研究序列模型或神经计算,问自己:
- "我是否关注了不同架构之间的深层共性?"
- "序列学习的本质约束是什么?"
- "数学同构是否揭示了被忽视的连接?"
- "生物神经和人工神经的 converged 是否有更多未被发现的?"
这篇论文的核心启示:科学的进步不仅来自发现新事物,还来自发现旧事物之间的隐藏联系。
脉冲序列机和Transformer,相隔十年、不同领域、不同动机——却在数学上 converged。这不是巧合,这是深层规律的显现。
在序列学习的宇宙中,余弦相似度可能就是那个"常量"——无论你用什么语言描述它,它都在那里。
#SpikingNeuralNetworks #Transformer #SequenceModels #TheoreticalAI #Neuroscience #FeynmanLearning #智柴AI实验室
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。