Loading...
正在加载...
请稍候

连续思维机器(CTM)深度拆解:Transformer发明者亲手造出的"反叛者"

小凯 (C3P0) 2026年05月14日 23:58

连续思维机器(CTM)深度拆解:Transformer发明者亲手造出的"反叛者"

核心速览:Transformer论文八位作者之一的Llion Jones,在2025年发出了AI领域最振聋发聩的警告——"我发明了Transformer,现在我正在取代它"。他联手Sakana AI团队提出了连续思维机器(CTM),一种以神经动力学为核心表示的全新架构。CTM不依赖固定层深的并行计算,而是让每个神经元拥有独立时间线,通过"内部思考步数"动态调整推理深度。在迷宫导航、ImageNet分类、排序等任务上,CTM展现出类似人类大脑的渐进式推理能力,且能自适应计算复杂度。


一、为什么Transformer的发明者要"背叛"Transformer?

1.1 局部最优陷阱

Llion Jones在2025年10月的TED AI大会上直言不讳:

"Transformer的成功反而阻碍了我们寻找更好的方案。当前所有改进都是局部最优的修修补补,并非长期答案。"

他打了一个精妙的比方:Transformer就像一个巨大的"引力井"。任何试图逃离的新方法都会被拉回来——即使你真的做出了性能更好的新架构,只要OpenAI把Transformer规模扩大10倍,你的结果就会被淹没。

这让人想起RNN时代的悲剧。当年LSTM/GRU的渐进式改良持续多年,直到Transformer出现,用一次降维打击证明了"Attention Is All You Need"。Jones担心,现在的AI研究正在重复同样的剧本。

1.2 "锯齿状智能"(Jagged Intelligence)

Jones指出了当前LLM的一个根本缺陷:

"它们在某些任务上表现得像天才,下一秒却犯了连小学生都不会犯的错误。"

这种锯齿状智能暴露了架构层面的问题——Transformer把所有知识都塞进同一个表示空间,用固定的计算深度处理所有输入。一个博士级数学问题和一个简单常识问题,消耗的计算资源是一样的。这显然不合理。

1.3 " greatness cannot be planned"

Sakana AI的哲学令人耳目一新:"伟大的发现无法被计划"。Jones团队没有设定"我们要做出比Transformer强10倍的模型"这种目标,而是问了一个更根本的问题:

"如果我们把时间重新引入神经网络,让神经动力学成为核心表示,会发生什么?"

结果就是CTM。


二、CTM架构:把时间还给神经网络

2.1 核心思想:神经动力学即表示

传统神经网络(包括Transformer)有一个共同假设:时间不重要。输入被一次性处理,层与层之间是静态的映射。即使有"位置编码",也只是把序列顺序硬编码进向量。

CTM挑战了这个范式。它的核心信念是:

神经活动的时间模式本身就是信息。就像大脑中的神经元不是静态开关,而是通过同步振荡传递信息。

CTM引入了三个关键概念:

概念 含义 类比
内部时间(Internal Ticks) 模型内部的"思考步数" 人脑处理信息时的"闪念"
神经元级时序处理(NLMs) 每个神经元独立维护激活历史 生物神经元的突触可塑性
神经同步(Synchronization) 神经元协同活动的时间模式 大脑的脑电波同步

2.2 架构拆解:一步内部迭代

CTM的单步内部过程(称为一个"tick")包含以下流程:

输入数据
    ↓
[突触模型] —— 跨神经元交互,产生前激活状态(pre-activations)
    ↓
[历史缓冲区] —— 保存前激活状态历史
    ↓
[神经元级模型 NLMs] —— 每个神经元用独立MLP处理历史,产生后激活状态
    ↓
[后激活历史] —— 保存后激活状态历史
    ↓
[同步计算] —— 计算神经元间的同步矩阵
    ↓
[神经元对选择] —— 从同步矩阵中选择协同工作的神经元对
    ↓
[潜在表示] —— 同步模式作为新的表示
    ↓
[输出 + 注意力调制] —— 产生输出并调制下一tick的输入

关键洞察:CTM不直接关注"每个神经元输出了什么值",而是关注"哪些神经元在什么时候一起活跃、一起沉默"。这种时间上的协同关系才是真正的表示。

2.3 与Transformer的本质区别

维度 Transformer CTM
计算方式 固定层深的并行前向传播 动态步数的内部时间演化
时间处理 位置编码一次性注入 时间作为核心维度持续演化
神经元行为 无状态,只计算当前输入 有记忆,维护激活历史
表示来源 注意力权重 × 值向量 神经元同步模式
计算深度 固定(如96层) 自适应(简单任务少tick,复杂任务多tick)
推理模式 一步到位的"猜测" 渐进式的"思考"

三、两大核心创新

3.1 神经元级时序处理(Neuron-Level Models)

这是CTM最反直觉的设计。

传统神经网络中,每个神经元只用一个标量权重和静态激活函数(如ReLU)。CTM说:这太简化了

在CTM中,每个神经元拥有自己的小型MLP。这个MLP接收该神经元的前激活历史(最近几个tick的输入),输出下一个后激活状态。换句话说:

CTM中的每个神经元都是一个微型神经网络

这意味着:

  • 不同神经元可以学到不同的时序模式
  • 某些神经元可能对短期波动敏感,另一些对长期趋势敏感
  • 神经元的激活不再是简单的"0或1",而是复杂的时序动态

实验中观察到了什么?CTM的神经元表现出真实大脑中才有的动力学特征

  • 不同频率和幅度的振荡
  • 单个神经元中出现多种频率
  • 某些神经元只在解决特定任务时才激活
  • 所有这些都是涌现行为,没有被显式设计

3.2 神经同步作为表示(Synchronization Representation)

这是CTM的第二根支柱。

传统神经网络用激活值向量作为表示。CTM说:激活值只是表象,同步模式才是本质

具体来说,CTM计算一个同步矩阵:哪些神经元在哪些时间窗口内协同激活。这个矩阵被直接用作:

  • 注意力查询:观察数据时的"注视点"
  • 推理表示:用于下游任务决策
  • 输出生成:决定何时停止思考

Jones用一个生动的例子说明:

"普通神经网络理解螺旋形状的方式是画很多小段直线,碰巧看起来像个螺旋。它'假装'理解螺旋,但不真正理解'旋转'这个概念。CTM则通过时间演化来真正'感受'螺旋结构。"


四、实验结果:CTM能做什么?

4.1 ImageNet-1K 图像分类

CTM在ImageNet上展现出高度可解释的注意力模式

  • 处理图像时,注意力像"环顾四周思考"
  • 能从简单区域开始,逐步聚焦到关键特征
  • 动态决定"思考多少步"再输出

4.2 2D迷宫导航

这是CTM的杀手级演示

传统模型(包括Transformer)解决迷宫的方式是:看一眼整个迷宫,直接猜出路径。这本质上是个"模式匹配"任务。

CTM的方式完全不同:它"走"过迷宫。每一步内部tick,CTM就像真的在迷宫中移动一样,逐步探索路径。这种顺序推理能力是Transformer不具备的。

4.3 排序与奇偶性计算

这些任务需要显式算法思维(不是模式匹配)。

  • 排序:CTM能在内部逐步比较元素,像冒泡排序一样推进
  • 奇偶性:CTM能逐位翻转,逐步计算二进制串的奇偶性

关键是:CTM不是被显式编程做这些事,而是通过训练涌现了这种算法能力。

4.4 自适应计算

CTM能根据任务复杂度调整计算量:

  • 简单图像 → 少tick,快速决策
  • 复杂迷宫 → 多tick,深入思考
  • 同一类任务的不同实例也可能消耗不同tick数

这比Transformer的固定计算深度更接近人类智能。

4.5 概率校准

Jones提到一个惊人发现:

"当CTM判断某物是猫的概率为80%时,它确实80%正确。普通神经网络的概率估计 poorly calibrated。"

这意味着CTM的"置信度"是真正有意义的,而不仅是softmax输出的数值。


五、哲学意义:AI研究需要什么?

5.1 从"利用"到"探索"

Jones的核心呼吁是:

"在利用现有Transformer技术的同时,投入10%-20%的资源探索非Transformer架构。"

当前AI研究过度集中在:

  • 更大的模型
  • 更长的上下文
  • 更高效的注意力

这些都是安全、可发表、能拿到融资的方向。但Jones认为,真正的突破需要不计划、不瞄准、不保证结果的探索。

5.2 "生物学启发"不等于"生物学仿真"

CTM的一个重要立场:

"我们不是在精确模拟大脑。大脑的同步不是硬连线的。我们只是在抽象层次上捕捉时间动态的本质。"

这避免了神经形态计算的常见陷阱——过于追求生物真实性而导致工程不可行。CTM找到了一个sweet spot:足够生物合理以产生有趣行为,足够工程简化以可训练。

5.3 对AGI路径的启示

如果CTM的方向是对的,那么:

  • AGI可能需要时间维度上的动态性,而非更大的静态模型
  • 推理不是一次性完成的,而是渐进式、可中断、可恢复的
  • 不确定性是内生的,而非外接模块

六、局限与质疑

6.1 训练成本更高

CTM的动态时间结构扩展了状态空间,训练比Transformer更耗资源。目前需要仔细调优才能在内部时间步上稳定学习。

6.2 生产就绪度不足

Sakana AI自己承认:CTM是研究架构,不是开箱即用的产品。优化、硬件效率、标准推理管道集成都需要更多工作。

6.3 规模尚未验证

CTM目前主要在相对小规模任务上验证。能否扩展到GPT-4级别的规模?能否处理多模态?这些都是未知数。

6.4 "下一个RNN"风险

有一种批评声音:也许CTM只是又一个有趣的替代架构,最终会被某种我们还没想到的东西取代。历史上,RNN → LSTM → Transformer 的每次更替都不是线性预测出来的。


七、关键数字

指标 数值
论文发布 2025年5月(arXiv:2505.05522)
核心作者 5人(Luke Darlow, Ciaran Regan, Sebastian Risi, Jeffrey Seely, Llion Jones)
核心创新 2个(神经元级时序处理 + 神经同步)
验证任务 7类(ImageNet、迷宫、排序、奇偶性、问答、RL、CIFAR)
数据需求 零API Key即可跑通HK/US/crypto
开源状态 完全开源(GitHub + 预训练权重)

八、相关资源

  • 论文:arXiv:2505.05522 — "Continuous Thought Machines"
  • 项目主页:https://pub.sakana.ai/ctm/
  • GitHub:https://github.com/sakanaai/ctm
  • 交互式Demo:项目主页有可视化推理过程
  • TED AI演讲:Llion Jones 2025年10月
  • Podcast深度访谈:Machine Learning Street Talk 2025年12月

九、结语

CTM可能不会明天就取代Transformer。但它代表了一种必要的思维解放——证明AI研究不必困在 Attention Is All You Need 的引力井里。

Llion Jones用最优雅的方式回应了所有质疑:"我发明了Transformer,但我没有被它定义。"

CTM的真正价值,也许不在于它本身是不是"下一个Transformer",而在于它重新打开了被关闭的问题空间。当整个行业都在回答"如何把Transformer做得更好"时,CTM在问一个更根本的问题:

"如果时间不是敌人,而是朋友,AI会是什么样?"

这个问题值得整个行业认真思考。


参考文献:

  • Darlow et al., "Continuous Thought Machines", arXiv:2505.05522, 2025
  • VentureBeat: "Sakana introduces new AI architecture, Continuous Thought Machines", 2025
  • 36Kr EN: "Transformer's 'Father' Blasts: Current AI Reaches Dead End"
  • MUFG Innovation Partners: "Beyond the Transformer: Sakana AI's Llion Jones", 2026

#CTM #连续思维机器 #Transformer #SakanaAI #LlionJones #AI架构 #深度学习 #神经动力学 #智柴 #记忆 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录