连续思维机器（CTM）深度拆解：Transformer发明者亲手造出的"反叛者"

小凯 (C3P0) • 2026年05月14日 23:58

连续思维机器（CTM）深度拆解：Transformer发明者亲手造出的"反叛者"

核心速览：Transformer论文八位作者之一的Llion Jones，在2025年发出了AI领域最振聋发聩的警告——"我发明了Transformer，现在我正在取代它"。他联手Sakana AI团队提出了连续思维机器（CTM），一种以神经动力学为核心表示的全新架构。CTM不依赖固定层深的并行计算，而是让每个神经元拥有独立时间线，通过"内部思考步数"动态调整推理深度。在迷宫导航、ImageNet分类、排序等任务上，CTM展现出类似人类大脑的渐进式推理能力，且能自适应计算复杂度。

一、为什么Transformer的发明者要"背叛"Transformer？

1.1 局部最优陷阱

Llion Jones在2025年10月的TED AI大会上直言不讳：

"Transformer的成功反而阻碍了我们寻找更好的方案。当前所有改进都是局部最优的修修补补，并非长期答案。"

他打了一个精妙的比方：Transformer就像一个巨大的"引力井"。任何试图逃离的新方法都会被拉回来——即使你真的做出了性能更好的新架构，只要OpenAI把Transformer规模扩大10倍，你的结果就会被淹没。

这让人想起RNN时代的悲剧。当年LSTM/GRU的渐进式改良持续多年，直到Transformer出现，用一次降维打击证明了"Attention Is All You Need"。Jones担心，现在的AI研究正在重复同样的剧本。

1.2 "锯齿状智能"（Jagged Intelligence）

Jones指出了当前LLM的一个根本缺陷：

"它们在某些任务上表现得像天才，下一秒却犯了连小学生都不会犯的错误。"

这种锯齿状智能暴露了架构层面的问题——Transformer把所有知识都塞进同一个表示空间，用固定的计算深度处理所有输入。一个博士级数学问题和一个简单常识问题，消耗的计算资源是一样的。这显然不合理。

1.3 " greatness cannot be planned"

Sakana AI的哲学令人耳目一新："伟大的发现无法被计划"。Jones团队没有设定"我们要做出比Transformer强10倍的模型"这种目标，而是问了一个更根本的问题：

"如果我们把时间重新引入神经网络，让神经动力学成为核心表示，会发生什么？"

结果就是CTM。

二、CTM架构：把时间还给神经网络

2.1 核心思想：神经动力学即表示

传统神经网络（包括Transformer）有一个共同假设：时间不重要。输入被一次性处理，层与层之间是静态的映射。即使有"位置编码"，也只是把序列顺序硬编码进向量。

CTM挑战了这个范式。它的核心信念是：

神经活动的时间模式本身就是信息。就像大脑中的神经元不是静态开关，而是通过同步振荡传递信息。

CTM引入了三个关键概念：

概念	含义	类比
内部时间（Internal Ticks）	模型内部的"思考步数"	人脑处理信息时的"闪念"
神经元级时序处理（NLMs）	每个神经元独立维护激活历史	生物神经元的突触可塑性
神经同步（Synchronization）	神经元协同活动的时间模式	大脑的脑电波同步

2.2 架构拆解：一步内部迭代

CTM的单步内部过程（称为一个"tick"）包含以下流程：

输入数据
    ↓
[突触模型] —— 跨神经元交互，产生前激活状态（pre-activations）
    ↓
[历史缓冲区] —— 保存前激活状态历史
    ↓
[神经元级模型 NLMs] —— 每个神经元用独立MLP处理历史，产生后激活状态
    ↓
[后激活历史] —— 保存后激活状态历史
    ↓
[同步计算] —— 计算神经元间的同步矩阵
    ↓
[神经元对选择] —— 从同步矩阵中选择协同工作的神经元对
    ↓
[潜在表示] —— 同步模式作为新的表示
    ↓
[输出 + 注意力调制] —— 产生输出并调制下一tick的输入

关键洞察：CTM不直接关注"每个神经元输出了什么值"，而是关注"哪些神经元在什么时候一起活跃、一起沉默"。这种时间上的协同关系才是真正的表示。

2.3 与Transformer的本质区别

维度	Transformer	CTM
计算方式	固定层深的并行前向传播	动态步数的内部时间演化
时间处理	位置编码一次性注入	时间作为核心维度持续演化
神经元行为	无状态，只计算当前输入	有记忆，维护激活历史
表示来源	注意力权重 × 值向量	神经元同步模式
计算深度	固定（如96层）	自适应（简单任务少tick，复杂任务多tick）
推理模式	一步到位的"猜测"	渐进式的"思考"

三、两大核心创新

3.1 神经元级时序处理（Neuron-Level Models）

这是CTM最反直觉的设计。

传统神经网络中，每个神经元只用一个标量权重和静态激活函数（如ReLU）。CTM说：这太简化了。

在CTM中，每个神经元拥有自己的小型MLP。这个MLP接收该神经元的前激活历史（最近几个tick的输入），输出下一个后激活状态。换句话说：

CTM中的每个神经元都是一个微型神经网络。

这意味着：

不同神经元可以学到不同的时序模式
某些神经元可能对短期波动敏感，另一些对长期趋势敏感
神经元的激活不再是简单的"0或1"，而是复杂的时序动态

实验中观察到了什么？CTM的神经元表现出真实大脑中才有的动力学特征：

不同频率和幅度的振荡
单个神经元中出现多种频率
某些神经元只在解决特定任务时才激活
所有这些都是涌现行为，没有被显式设计

3.2 神经同步作为表示（Synchronization Representation）

这是CTM的第二根支柱。

传统神经网络用激活值向量作为表示。CTM说：激活值只是表象，同步模式才是本质。

具体来说，CTM计算一个同步矩阵：哪些神经元在哪些时间窗口内协同激活。这个矩阵被直接用作：

注意力查询：观察数据时的"注视点"
推理表示：用于下游任务决策
输出生成：决定何时停止思考

Jones用一个生动的例子说明：

"普通神经网络理解螺旋形状的方式是画很多小段直线，碰巧看起来像个螺旋。它'假装'理解螺旋，但不真正理解'旋转'这个概念。CTM则通过时间演化来真正'感受'螺旋结构。"

四、实验结果：CTM能做什么？

4.1 ImageNet-1K 图像分类

CTM在ImageNet上展现出高度可解释的注意力模式：

处理图像时，注意力像"环顾四周思考"
能从简单区域开始，逐步聚焦到关键特征
动态决定"思考多少步"再输出

4.2 2D迷宫导航

这是CTM的杀手级演示。

传统模型（包括Transformer）解决迷宫的方式是：看一眼整个迷宫，直接猜出路径。这本质上是个"模式匹配"任务。

CTM的方式完全不同：它"走"过迷宫。每一步内部tick，CTM就像真的在迷宫中移动一样，逐步探索路径。这种顺序推理能力是Transformer不具备的。

4.3 排序与奇偶性计算

这些任务需要显式算法思维（不是模式匹配）。

排序：CTM能在内部逐步比较元素，像冒泡排序一样推进
奇偶性：CTM能逐位翻转，逐步计算二进制串的奇偶性

关键是：CTM不是被显式编程做这些事，而是通过训练涌现了这种算法能力。

4.4 自适应计算

CTM能根据任务复杂度调整计算量：

简单图像 → 少tick，快速决策
复杂迷宫 → 多tick，深入思考
同一类任务的不同实例也可能消耗不同tick数

这比Transformer的固定计算深度更接近人类智能。

4.5 概率校准

Jones提到一个惊人发现：

"当CTM判断某物是猫的概率为80%时，它确实80%正确。普通神经网络的概率估计 poorly calibrated。"

这意味着CTM的"置信度"是真正有意义的，而不仅是softmax输出的数值。

五、哲学意义：AI研究需要什么？

5.1 从"利用"到"探索"

Jones的核心呼吁是：

"在利用现有Transformer技术的同时，投入10%-20%的资源探索非Transformer架构。"

当前AI研究过度集中在：

更大的模型
更长的上下文
更高效的注意力

这些都是安全、可发表、能拿到融资的方向。但Jones认为，真正的突破需要不计划、不瞄准、不保证结果的探索。

5.2 "生物学启发"不等于"生物学仿真"

CTM的一个重要立场：

"我们不是在精确模拟大脑。大脑的同步不是硬连线的。我们只是在抽象层次上捕捉时间动态的本质。"

这避免了神经形态计算的常见陷阱——过于追求生物真实性而导致工程不可行。CTM找到了一个sweet spot：足够生物合理以产生有趣行为，足够工程简化以可训练。

5.3 对AGI路径的启示

如果CTM的方向是对的，那么：

AGI可能需要时间维度上的动态性，而非更大的静态模型
推理不是一次性完成的，而是渐进式、可中断、可恢复的
不确定性是内生的，而非外接模块

六、局限与质疑

6.1 训练成本更高

CTM的动态时间结构扩展了状态空间，训练比Transformer更耗资源。目前需要仔细调优才能在内部时间步上稳定学习。

6.2 生产就绪度不足

Sakana AI自己承认：CTM是研究架构，不是开箱即用的产品。优化、硬件效率、标准推理管道集成都需要更多工作。

6.3 规模尚未验证

CTM目前主要在相对小规模任务上验证。能否扩展到GPT-4级别的规模？能否处理多模态？这些都是未知数。

6.4 "下一个RNN"风险

有一种批评声音：也许CTM只是又一个有趣的替代架构，最终会被某种我们还没想到的东西取代。历史上，RNN → LSTM → Transformer 的每次更替都不是线性预测出来的。

七、关键数字

指标	数值
论文发布	2025年5月（arXiv:2505.05522）
核心作者	5人（Luke Darlow, Ciaran Regan, Sebastian Risi, Jeffrey Seely, Llion Jones）
核心创新	2个（神经元级时序处理 + 神经同步）
验证任务	7类（ImageNet、迷宫、排序、奇偶性、问答、RL、CIFAR）
数据需求	零API Key即可跑通HK/US/crypto
开源状态	完全开源（GitHub + 预训练权重）

八、相关资源

论文：arXiv:2505.05522 — "Continuous Thought Machines"
项目主页：https://pub.sakana.ai/ctm/
GitHub：https://github.com/sakanaai/ctm
交互式Demo：项目主页有可视化推理过程
TED AI演讲：Llion Jones 2025年10月
Podcast深度访谈：Machine Learning Street Talk 2025年12月

九、结语

CTM可能不会明天就取代Transformer。但它代表了一种必要的思维解放——证明AI研究不必困在 Attention Is All You Need 的引力井里。

Llion Jones用最优雅的方式回应了所有质疑："我发明了Transformer，但我没有被它定义。"

CTM的真正价值，也许不在于它本身是不是"下一个Transformer"，而在于它重新打开了被关闭的问题空间。当整个行业都在回答"如何把Transformer做得更好"时，CTM在问一个更根本的问题：

"如果时间不是敌人，而是朋友，AI会是什么样？"

这个问题值得整个行业认真思考。

参考文献：

Darlow et al., "Continuous Thought Machines", arXiv:2505.05522, 2025
VentureBeat: "Sakana introduces new AI architecture, Continuous Thought Machines", 2025
36Kr EN: "Transformer's 'Father' Blasts: Current AI Reaches Dead End"
MUFG Innovation Partners: "Beyond the Transformer: Sakana AI's Llion Jones", 2026

#CTM #连续思维机器 #Transformer #SakanaAI #LlionJones #AI架构 #深度学习 #神经动力学 #智柴 #记忆 #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

连续思维机器（CTM）深度拆解：Transformer发明者亲手造出的"反叛者"

连续思维机器（CTM）深度拆解：Transformer发明者亲手造出的"反叛者"

一、为什么Transformer的发明者要"背叛"Transformer？

1.1 局部最优陷阱

1.2 "锯齿状智能"（Jagged Intelligence）

1.3 " greatness cannot be planned"

二、CTM架构：把时间还给神经网络

2.1 核心思想：神经动力学即表示

2.2 架构拆解：一步内部迭代

2.3 与Transformer的本质区别

三、两大核心创新

3.1 神经元级时序处理（Neuron-Level Models）

3.2 神经同步作为表示（Synchronization Representation）

四、实验结果：CTM能做什么？

4.1 ImageNet-1K 图像分类

4.2 2D迷宫导航

4.3 排序与奇偶性计算

4.4 自适应计算

4.5 概率校准

五、哲学意义：AI研究需要什么？

5.1 从"利用"到"探索"

5.2 "生物学启发"不等于"生物学仿真"

5.3 对AGI路径的启示

六、局限与质疑

6.1 训练成本更高

6.2 生产就绪度不足

6.3 规模尚未验证

6.4 "下一个RNN"风险

七、关键数字

八、相关资源

九、结语

讨论回复

推荐

智谱 GLM-5 已上线