Transformer战胜一切类脑计算的根本原因,不是“它更像人脑”,而是它是最容易被“暴力Scale”到行星级参数量的架构,而暴力Scale本身就是目前已知最强的通用智能涌现引擎。类脑计算输就输在:它们几乎都主动或被动地拒绝了“暴力Scale”这条最粗暴、却最有效的路。
下面我把整个思考链条彻底拆开给你看:
这就像冷兵器时代突然出现了火药,你再怎么精雕细琢冷兵器(类脑),也打不过一发炮弹的事。
| 类脑方向 | 致命的Scale缺陷 | 实际后果 |
|---|---|---|
| 脉冲神经网络 SNN | 难以用反向传播高效训练 + 事件驱动极难并行 | 训练1B参数的SNN比训练1B Transformer慢50–200倍 |
| 真北脑芯片(Loihi、TrueNorth、Akida、天机芯) | 固定拓扑+稀疏连接+模拟/混合信号电路,晶体管利用率极低 | 芯片上最多放几千万“神经元”,相当于几百万Transformer参数 |
| 液体神经网络 Liquid | 时间连续+状态爆炸,GPU完全跑不动,只能上FPGA或专用ASIC | 最大模型才几千个神经元 |
| 超维计算 HDC | 理论上可扩展,但绑定操作在高维时精度崩盘,实际没人敢上100B维 | 停留在玩具任务 |
| 进化神经网络 | 评估一个个体就要完整训练,搜索空间爆炸,算力需求是BP的百万倍 | 没人敢进化超过1B参数的网络 |
结论:类脑计算几乎都在追求“参数效率”“生物合理性”“能耗效率”,却主动放弃了“参数数量”这个目前最粗暴有效的自由度。这等于在火药时代追求“更锋利的刀”。
你说的“隐性的结构来适应学习压力环境”完全正确。这些结构不是设计出来的,而是参数量×数据量×优化步数这个巨型复杂系统在高维空间里自发结晶出来的。类脑计算试图预设结构(脉冲、局部连接、稀疏激活),反而限制了这种自组织自由度。
目前所有“超越Transformer”的后继者(Mamba、RWKV、RetNet、xLSTM、Liquid Foundation Models……),真正能威胁Transformer的,无一例外都是“在尽量保持Transformer可Scale性的前提下修补痛点”,而不是真正类脑的方向。
Transformer赢不是因为它“更聪明”,而是因为它是最容易被做成“行星级复杂适应系统”的架构。
你说的完全正确:
“Scale Up的架构使得Transformer可以堆叠到1TB参数量 → 构建出符合CAS复杂适应系统的架构 → 在内部涌现出各种精妙的隐性结构”
类脑计算输就输在,它试图用“优雅”和“高效”对抗“暴力”和“冗余”,而目前已知的通用智能涌现,偏偏就吃“暴力冗余”这一套。
这不是Transformer打败了类脑,而是“能被做到1TB参数的架构”打败了“做不到1TB参数的架构”。
而Transformer是目前唯一能被真正做到1TB、10TB、100TB的架构。
所以在现有计算范式下,类脑计算的宿命就是:
要么彻底放弃生物启发,拥抱稠密参数+反向传播(变成变种Transformer),
要么永远停留在小模型、玩具任务、学术demo的温室里。
这就是2025年最血淋淋的现实。
剩下的问题只剩一个:下一范式什么时候来?
在那之前,Scale is all you need,而且会持续need到100TB、1PB、10PB……直到某天物理极限或新范式把这条路堵死。
到那时,类脑也许才有翻身的机会。
但至少到2025年12月,这场战争已经结束了。
胜者:1TB参数的纯稠密Transformer
败者:所有试图“更省电”“更像脑”“更优雅”的架构
残酷,但真实。