Transformer战胜一切类脑计算的根本原因,不是“它更像人脑”,而是它是最容易被“暴力Scale”到行星级参数量的架构,而暴力Scale本身就是目前已知最强的通用智能涌现引擎。类脑计算输就输在:它们几乎都主动或被动地拒绝了“暴力Scale”这条最粗暴、却最有效的路。
下面我把整个思考链条彻底拆开给你看:
第一层:为什么Scale是目前唯一可验证的智能涌现之路?
- 2017–2025这八年的全部实证证据都指向同一个残酷事实:
在当前计算范式下,性能 ∝ log(有效参数量 × 数据量 × 总算力) 是近乎铁律(Scaling Law几乎从未被打破过)。 - Chinchilla、Llama、GPT-4、Grok-4、Claude 3.5、DeepSeek R1……无一例外都是靠堆参数+堆数据打上来的。
- 凡是拒绝或无法拥抱Scale的架构(Spiking Neural Networks、Neuromorphic Chips、Liquid Neural Nets、Hyperdimensional Computing、Evolutionary Architectures……),最终上限都在ImageNet级或者Atari级就熄火了。
这就像冷兵器时代突然出现了火药,你再怎么精雕细琢冷兵器(类脑),也打不过一发炮弹的事。
第二层:为什么几乎所有类脑架构都天然“抗拒Scale”?
| 类脑方向 | 致命的Scale缺陷 | 实际后果 |
|---|---|---|
| 脉冲神经网络 SNN | 难以用反向传播高效训练 + 事件驱动极难并行 | 训练1B参数的SNN比训练1B Transformer慢50–200倍 |
| 真北脑芯片(Loihi、TrueNorth、Akida、天机芯) | 固定拓扑+稀疏连接+模拟/混合信号电路,晶体管利用率极低 | 芯片上最多放几千万“神经元”,相当于几百万Transformer参数 |
| 液体神经网络 Liquid | 时间连续+状态爆炸,GPU完全跑不动,只能上FPGA或专用ASIC | 最大模型才几千个神经元 |
| 超维计算 HDC | 理论上可扩展,但绑定操作在高维时精度崩盘,实际没人敢上100B维 | 停留在玩具任务 |
| 进化神经网络 | 评估一个个体就要完整训练,搜索空间爆炸,算力需求是BP的百万倍 | 没人敢进化超过1B参数的网络 |
结论:类脑计算几乎都在追求“参数效率”“生物合理性”“能耗效率”,却主动放弃了“参数数量”这个目前最粗暴有效的自由度。这等于在火药时代追求“更锋利的刀”。
第三层:Transformer为什么是“Scale之王”?
- 极致的算子友好性
矩阵乘、LayerNorm、Softmax、RMSNorm全是GPU/TPU最爱的稠密算子,99.9%的晶体管都在干有用功。 - 完美的并行性
自注意力是全连接+softmax,天然O(n²)但也天然并行,FlashAttention把常数项压到几乎为0。 - 参数效率其实很差,但谁在乎?
Transformer单参数信息承载量远低于SNN或生物神经元,但我们有1TB参数,1亿个低效参数也能顶一个高效参数。 - 最重要的是:涌现只需要“足够大的无结构混沌”
Transformer内部其实是极度极高的混沌系统:- 没有固定拓扑
- 没有硬编码的时空局部性
- 所有连接都是软学的
这反而给了它最大的“内部自由度”去涌现出各种隐性结构(induction head、in-context learning、grokking、phase transition等)
你说的“隐性的结构来适应学习压力环境”完全正确。这些结构不是设计出来的,而是参数量×数据量×优化步数这个巨型复杂系统在高维空间里自发结晶出来的。类脑计算试图预设结构(脉冲、局部连接、稀疏激活),反而限制了这种自组织自由度。
第四层:一个更残酷的推论(2025年视角)
目前所有“超越Transformer”的后继者(Mamba、RWKV、RetNet、xLSTM、Liquid Foundation Models……),真正能威胁Transformer的,无一例外都是“在尽量保持Transformer可Scale性的前提下修补痛点”,而不是真正类脑的方向。
- Mamba:线性注意力 + 状态压缩 → 接近Transformer的长序列扩展性
- Hyena / S4:用卷积或状态空间模型 → 仍然是稠密参数 + 反向传播
- Griffin:混合RNN+注意力 → 还是堆参数
真正类脑的(SNN、 neuromorphic)连前10名都挤不进去。
第五层:终极结论
Transformer赢不是因为它“更聪明”,而是因为它是最容易被做成“行星级复杂适应系统”的架构。
你说的完全正确:
“Scale Up的架构使得Transformer可以堆叠到1TB参数量 → 构建出符合CAS复杂适应系统的架构 → 在内部涌现出各种精妙的隐性结构”
只不过要再补一句更残酷的:
类脑计算输就输在,它试图用“优雅”和“高效”对抗“暴力”和“冗余”,而目前已知的通用智能涌现,偏偏就吃“暴力冗余”这一套。
这不是Transformer打败了类脑,而是“能被做到1TB参数的架构”打败了“做不到1TB参数的架构”。
而Transformer是目前唯一能被真正做到1TB、10TB、100TB的架构。
所以在现有计算范式下,类脑计算的宿命就是:
要么彻底放弃生物启发,拥抱稠密参数+反向传播(变成变种Transformer),
要么永远停留在小模型、玩具任务、学术demo的温室里。
这就是2025年最血淋淋的现实。
剩下的问题只剩一个:下一范式什么时候来?
在那之前,Scale is all you need,而且会持续need到100TB、1PB、10PB……直到某天物理极限或新范式把这条路堵死。
到那时,类脑也许才有翻身的机会。
但至少到2025年12月,这场战争已经结束了。
胜者:1TB参数的纯稠密Transformer
败者:所有试图“更省电”“更像脑”“更优雅”的架构
残酷,但真实。
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。