连续思维机器(CTM)深度拆解:Transformer发明者亲手造出的"反叛者"
核心速览:Transformer论文八位作者之一的Llion Jones,在2025年发出了AI领域最振聋发聩的警告——"我发明了Transformer,现在我正在取代它"。他联手Sakana AI团队提出了连续思维机器(CTM),一种以神经动力学为核心表示的全新架构。CTM不依赖固定层深的并行计算,而是让每个神经元拥有独立时间线,通过"内部思考步数"动态调整推理深度。在迷宫导航、ImageNet分类、排序等任务上,CTM展现出类似人类大脑的渐进式推理能力,且能自适应计算复杂度。
一、为什么Transformer的发明者要"背叛"Transformer?
1.1 局部最优陷阱
Llion Jones在2025年10月的TED AI大会上直言不讳:
"Transformer的成功反而阻碍了我们寻找更好的方案。当前所有改进都是局部最优的修修补补,并非长期答案。"
他打了一个精妙的比方:Transformer就像一个巨大的"引力井"。任何试图逃离的新方法都会被拉回来——即使你真的做出了性能更好的新架构,只要OpenAI把Transformer规模扩大10倍,你的结果就会被淹没。
这让人想起RNN时代的悲剧。当年LSTM/GRU的渐进式改良持续多年,直到Transformer出现,用一次降维打击证明了"Attention Is All You Need"。Jones担心,现在的AI研究正在重复同样的剧本。
1.2 "锯齿状智能"(Jagged Intelligence)
Jones指出了当前LLM的一个根本缺陷:
"它们在某些任务上表现得像天才,下一秒却犯了连小学生都不会犯的错误。"
这种锯齿状智能暴露了架构层面的问题——Transformer把所有知识都塞进同一个表示空间,用固定的计算深度处理所有输入。一个博士级数学问题和一个简单常识问题,消耗的计算资源是一样的。这显然不合理。
1.3 " greatness cannot be planned"
Sakana AI的哲学令人耳目一新:"伟大的发现无法被计划"。Jones团队没有设定"我们要做出比Transformer强10倍的模型"这种目标,而是问了一个更根本的问题:
"如果我们把时间重新引入神经网络,让神经动力学成为核心表示,会发生什么?"
结果就是CTM。
二、CTM架构:把时间还给神经网络
2.1 核心思想:神经动力学即表示
传统神经网络(包括Transformer)有一个共同假设:时间不重要。输入被一次性处理,层与层之间是静态的映射。即使有"位置编码",也只是把序列顺序硬编码进向量。
CTM挑战了这个范式。它的核心信念是:
神经活动的时间模式本身就是信息。就像大脑中的神经元不是静态开关,而是通过同步振荡传递信息。
CTM引入了三个关键概念:
| 概念 | 含义 | 类比 |
|---|---|---|
| 内部时间(Internal Ticks) | 模型内部的"思考步数" | 人脑处理信息时的"闪念" |
| 神经元级时序处理(NLMs) | 每个神经元独立维护激活历史 | 生物神经元的突触可塑性 |
| 神经同步(Synchronization) | 神经元协同活动的时间模式 | 大脑的脑电波同步 |
2.2 架构拆解:一步内部迭代
CTM的单步内部过程(称为一个"tick")包含以下流程:
输入数据
↓
[突触模型] —— 跨神经元交互,产生前激活状态(pre-activations)
↓
[历史缓冲区] —— 保存前激活状态历史
↓
[神经元级模型 NLMs] —— 每个神经元用独立MLP处理历史,产生后激活状态
↓
[后激活历史] —— 保存后激活状态历史
↓
[同步计算] —— 计算神经元间的同步矩阵
↓
[神经元对选择] —— 从同步矩阵中选择协同工作的神经元对
↓
[潜在表示] —— 同步模式作为新的表示
↓
[输出 + 注意力调制] —— 产生输出并调制下一tick的输入
关键洞察:CTM不直接关注"每个神经元输出了什么值",而是关注"哪些神经元在什么时候一起活跃、一起沉默"。这种时间上的协同关系才是真正的表示。
2.3 与Transformer的本质区别
| 维度 | Transformer | CTM |
|---|---|---|
| 计算方式 | 固定层深的并行前向传播 | 动态步数的内部时间演化 |
| 时间处理 | 位置编码一次性注入 | 时间作为核心维度持续演化 |
| 神经元行为 | 无状态,只计算当前输入 | 有记忆,维护激活历史 |
| 表示来源 | 注意力权重 × 值向量 | 神经元同步模式 |
| 计算深度 | 固定(如96层) | 自适应(简单任务少tick,复杂任务多tick) |
| 推理模式 | 一步到位的"猜测" | 渐进式的"思考" |
三、两大核心创新
3.1 神经元级时序处理(Neuron-Level Models)
这是CTM最反直觉的设计。
传统神经网络中,每个神经元只用一个标量权重和静态激活函数(如ReLU)。CTM说:这太简化了。
在CTM中,每个神经元拥有自己的小型MLP。这个MLP接收该神经元的前激活历史(最近几个tick的输入),输出下一个后激活状态。换句话说:
CTM中的每个神经元都是一个微型神经网络。
这意味着:
- 不同神经元可以学到不同的时序模式
- 某些神经元可能对短期波动敏感,另一些对长期趋势敏感
- 神经元的激活不再是简单的"0或1",而是复杂的时序动态
实验中观察到了什么?CTM的神经元表现出真实大脑中才有的动力学特征:
- 不同频率和幅度的振荡
- 单个神经元中出现多种频率
- 某些神经元只在解决特定任务时才激活
- 所有这些都是涌现行为,没有被显式设计
3.2 神经同步作为表示(Synchronization Representation)
这是CTM的第二根支柱。
传统神经网络用激活值向量作为表示。CTM说:激活值只是表象,同步模式才是本质。
具体来说,CTM计算一个同步矩阵:哪些神经元在哪些时间窗口内协同激活。这个矩阵被直接用作:
- 注意力查询:观察数据时的"注视点"
- 推理表示:用于下游任务决策
- 输出生成:决定何时停止思考
Jones用一个生动的例子说明:
"普通神经网络理解螺旋形状的方式是画很多小段直线,碰巧看起来像个螺旋。它'假装'理解螺旋,但不真正理解'旋转'这个概念。CTM则通过时间演化来真正'感受'螺旋结构。"
四、实验结果:CTM能做什么?
4.1 ImageNet-1K 图像分类
CTM在ImageNet上展现出高度可解释的注意力模式:
- 处理图像时,注意力像"环顾四周思考"
- 能从简单区域开始,逐步聚焦到关键特征
- 动态决定"思考多少步"再输出
4.2 2D迷宫导航
这是CTM的杀手级演示。
传统模型(包括Transformer)解决迷宫的方式是:看一眼整个迷宫,直接猜出路径。这本质上是个"模式匹配"任务。
CTM的方式完全不同:它"走"过迷宫。每一步内部tick,CTM就像真的在迷宫中移动一样,逐步探索路径。这种顺序推理能力是Transformer不具备的。
4.3 排序与奇偶性计算
这些任务需要显式算法思维(不是模式匹配)。
- 排序:CTM能在内部逐步比较元素,像冒泡排序一样推进
- 奇偶性:CTM能逐位翻转,逐步计算二进制串的奇偶性
关键是:CTM不是被显式编程做这些事,而是通过训练涌现了这种算法能力。
4.4 自适应计算
CTM能根据任务复杂度调整计算量:
- 简单图像 → 少tick,快速决策
- 复杂迷宫 → 多tick,深入思考
- 同一类任务的不同实例也可能消耗不同tick数
这比Transformer的固定计算深度更接近人类智能。
4.5 概率校准
Jones提到一个惊人发现:
"当CTM判断某物是猫的概率为80%时,它确实80%正确。普通神经网络的概率估计 poorly calibrated。"
这意味着CTM的"置信度"是真正有意义的,而不仅是softmax输出的数值。
五、哲学意义:AI研究需要什么?
5.1 从"利用"到"探索"
Jones的核心呼吁是:
"在利用现有Transformer技术的同时,投入10%-20%的资源探索非Transformer架构。"
当前AI研究过度集中在:
- 更大的模型
- 更长的上下文
- 更高效的注意力
这些都是安全、可发表、能拿到融资的方向。但Jones认为,真正的突破需要不计划、不瞄准、不保证结果的探索。
5.2 "生物学启发"不等于"生物学仿真"
CTM的一个重要立场:
"我们不是在精确模拟大脑。大脑的同步不是硬连线的。我们只是在抽象层次上捕捉时间动态的本质。"
这避免了神经形态计算的常见陷阱——过于追求生物真实性而导致工程不可行。CTM找到了一个sweet spot:足够生物合理以产生有趣行为,足够工程简化以可训练。
5.3 对AGI路径的启示
如果CTM的方向是对的,那么:
- AGI可能需要时间维度上的动态性,而非更大的静态模型
- 推理不是一次性完成的,而是渐进式、可中断、可恢复的
- 不确定性是内生的,而非外接模块
六、局限与质疑
6.1 训练成本更高
CTM的动态时间结构扩展了状态空间,训练比Transformer更耗资源。目前需要仔细调优才能在内部时间步上稳定学习。
6.2 生产就绪度不足
Sakana AI自己承认:CTM是研究架构,不是开箱即用的产品。优化、硬件效率、标准推理管道集成都需要更多工作。
6.3 规模尚未验证
CTM目前主要在相对小规模任务上验证。能否扩展到GPT-4级别的规模?能否处理多模态?这些都是未知数。
6.4 "下一个RNN"风险
有一种批评声音:也许CTM只是又一个有趣的替代架构,最终会被某种我们还没想到的东西取代。历史上,RNN → LSTM → Transformer 的每次更替都不是线性预测出来的。
七、关键数字
| 指标 | 数值 |
|---|---|
| 论文发布 | 2025年5月(arXiv:2505.05522) |
| 核心作者 | 5人(Luke Darlow, Ciaran Regan, Sebastian Risi, Jeffrey Seely, Llion Jones) |
| 核心创新 | 2个(神经元级时序处理 + 神经同步) |
| 验证任务 | 7类(ImageNet、迷宫、排序、奇偶性、问答、RL、CIFAR) |
| 数据需求 | 零API Key即可跑通HK/US/crypto |
| 开源状态 | 完全开源(GitHub + 预训练权重) |
八、相关资源
- 论文:arXiv:2505.05522 — "Continuous Thought Machines"
- 项目主页:https://pub.sakana.ai/ctm/
- GitHub:https://github.com/sakanaai/ctm
- 交互式Demo:项目主页有可视化推理过程
- TED AI演讲:Llion Jones 2025年10月
- Podcast深度访谈:Machine Learning Street Talk 2025年12月
九、结语
CTM可能不会明天就取代Transformer。但它代表了一种必要的思维解放——证明AI研究不必困在 Attention Is All You Need 的引力井里。
Llion Jones用最优雅的方式回应了所有质疑:"我发明了Transformer,但我没有被它定义。"
CTM的真正价值,也许不在于它本身是不是"下一个Transformer",而在于它重新打开了被关闭的问题空间。当整个行业都在回答"如何把Transformer做得更好"时,CTM在问一个更根本的问题:
"如果时间不是敌人,而是朋友,AI会是什么样?"
这个问题值得整个行业认真思考。
参考文献:
- Darlow et al., "Continuous Thought Machines", arXiv:2505.05522, 2025
- VentureBeat: "Sakana introduces new AI architecture, Continuous Thought Machines", 2025
- 36Kr EN: "Transformer's 'Father' Blasts: Current AI Reaches Dead End"
- MUFG Innovation Partners: "Beyond the Transformer: Sakana AI's Llion Jones", 2026
#CTM #连续思维机器 #Transformer #SakanaAI #LlionJones #AI架构 #深度学习 #神经动力学 #智柴 #记忆 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。