人工智能神经网络抽象概念图

AI范式革命

从Transformer困局到CTM新纪元

技术解构 文明启示 范式跃迁

核心洞察

  • Transformer发明者Llion Jones发出"死胡同"警告
  • CTM架构通过时间动态实现真正推理
  • Scaling Law正在扼杀创新氧气

关键问题

技术层面: Transformer架构的根本局限是什么?
文明层面: 我们是否在错误道路上狂奔?
进化层面: AGI的终局博弈如何展开?

核心命题:AGI之路的方向性危机

1.1.1 Transformer发明者的身份悖论

Llion Jones的身份构成了当代AI发展史上最富戏剧性的悖论。作为2017年里程碑论文《Attention Is All You Need》的八位共同作者之一,Jones不仅是Transformer架构的命名者,更是这一技术革命的核心缔造者——该论文已被引用超过10万次,成为21世纪最具影响力的计算机科学出版物之一[1]

然而,正是这位最深谙Transformer架构的研究者,在2025年AI行业最鼎盛的时刻发出了震撼行业的自我批判:他宣布"绝对厌倦"(absolutely sick)于自己的发明,决定从2024年初开始"大幅减少在Transformer上的研究时间"[1] [2]

1.1.2 AI鼎盛期的"死胡同"论断

现状指标

  • 全球AI投资超过1500亿美元
  • OpenAI估值逼近千亿美元
  • GPT-4达到人类专家水平

Jones的警告

  • AI已"钙化"在单一架构
  • 研究人员对突破视而不见
  • "利用-探索"严重失衡

Jones的"死胡同"论断发布于一个极具讽刺意味的时间节点。2024-2025年间,AI行业达到历史巅峰,但他却在此刻发出了刺耳的警告:当前AI已经"钙化"(calcified)在单一架构方法周围,可能使研究人员对下一个重大突破视而不见 [1]

1.1.3 "锯齿状智能"现象的本质揭示

什么是"锯齿状智能"?

天才表现
  • • 撰写学术论文
  • • 生成复杂代码
  • • 专业领域问题解决
白痴错误
  • • 多步算术失败
  • • 基础逻辑谜题错误
  • • 简单推理任务失误

GPT-4所展现的"天才与白痴并存"的锯齿状智能(jagged intelligence),成为Jones批判的经验锚点 [3] [4]。这种现象暴露了Transformer架构的根本性局限:当任务恰好落在训练数据的密集覆盖区时,模型表现出"天才";当任务需要组合泛化或多步推理时,"白痴"行为暴露了其缺乏真正的理解能力。

Transformer架构的深层困境

2.1 设计哲学与核心机制

并行化优势

训练时间从数周缩短至数天
模型规模扩展不受序列长度限制
GPU利用率达到80%以上

静态性局限

"一次性"处理模式
无法暂停、反思或回溯
所有问题接受同等深度计算

标准Transformer作为"massive, pre-calculated mathematical function"(巨大的预计算数学函数),其"推理深度"精确受限于模型层数 [5]

这种"one-size-fits-all"的计算模式与生物智能的动态适应性形成尖锐对比——Transformer"don't actually 'think'. They match patterns"(实际上并不"思考",而是匹配模式)[5]

2.2 "锯齿状智能"的技术根源

Transformer能力分布分析

graph TD A["Transformer Architecture"] --> B["Pattern Matching Ability"] A --> C["Lack of True Reasoning"] B --> D["High Performance on Training Distribution"] B --> E["Superhuman Parroting"] C --> F["Compositionality Failure"] C --> G["No Planning Capability"] D --> H["Jagged Intelligence"] E --> H F --> H G --> H H --> I["Genius + Idiot Behavior"]

缺乏规划能力

无法分解复杂目标为子目标序列,导致多步推理任务失败

缺乏一致性检查

无法识别自身输出的逻辑矛盾,产生自相矛盾的答案

缺乏因果理解

混淆相关性与因果性,无法进行反事实思考

2.3 Scaling Law的双刃剑效应

可预测性红利

  • 性能与计算量的幂律关系
  • 精确规划资源投入
  • 降低创新风险,吸引资本

创新氧气耗竭

  • "扩展吸干了房间里所有氧气"
  • 架构创新研究边缘化
  • 人才锁定,探索意愿降低

Jones与Ilya Sutskever等核心研究者共同指出,"扩展时代的一个后果是,扩展吸干了房间里的所有氧气" [6]。这一隐喻揭示了创新生态的系统性危机:当70%的顶会论文集中于Transformer微调时,架构创新研究被严重边缘化[3]

CTM架构:大脑启发的范式跃迁

3.1 设计原理与生物合理性

核心创新:时间动态作为计算元素

Continuous Thought Machine(CTM)的核心创新在于将时间动态重新确立为计算的基础维度,而非需要消除的序列障碍。与Transformer将时间空间化(转化为位置编码)不同,CTM引入"内部tick"(internal ticks)概念——模型拥有与数据输入解耦的内部时间维度,可在接收静态输入(如图像)或序列输入时以相同方式"思考"[7] [8]

CTM vs Transformer 架构对比

graph LR subgraph "Transformer" T1["Input"] --> T2["Positional Encoding"] T2 --> T3["Multi-Head Attention"] T3 --> T4["Feed Forward"] T4 --> T5["Output"] end subgraph "CTM" C1["Input"] --> C2["Internal Tick"] C2 --> C3["Neuron-Level Models"] C3 --> C4["Synapse Model"] C4 --> C5["Neural Synchronization"] C5 --> C6["Adaptive Output"] C3 -.-> C3 C4 -.-> C4 end style T1 fill:#e8f4fd style T2 fill:#e8f4fd style T3 fill:#e8f4fd style T4 fill:#e8f4fd style T5 fill:#e8f4fd style C1 fill:#fff2e8 style C2 fill:#fff2e8 style C3 fill:#fff2e8 style C4 fill:#fff2e8 style C5 fill:#fff2e8 style C6 fill:#fff2e8

神经元级模型(NLM)

私有权重

每个NLM拥有独特的参数用于响应刺激

历史上下文

记忆缓冲区存储近期tick的活动

神经同步机制

振荡模式

γ波段同步与特征绑定相关

群体表征

同步化模式作为核心表征

3.2 核心创新组件

分离的内部维度:Tick机制

CTM的"Continuous"(连续)之名源于其完全在内部"思考维度"上操作的本质。模型异步处理数据:可在接收输入后执行任意数量的内部tick,每个tick更新所有NLM的状态,而输出仅在模型决定"思考完成"后产生[7] [8]

"当CTM被限制在少于完整迷宫追踪所需的思考时间时,它发展出一种策略——跳到可能的未来位置,向后追踪填补间隙,然后再向前跳"[9]

突触模型与U-Net通信骨干

CTM的架构包含两个核心可学习组件:突触模型(synapse model)U-Net通信骨干。突触模型定义了神经元之间的连接动态,包括信号传递的时间特性(延迟、衰减、易化/压抑)。与Transformer的注意力权重不同,CTM的突触参数是跨tick持续存在的,支持长期依赖的形成和消退[7]

3.3 动态推理的实现路径

自适应计算深度

简单任务快速响应,复杂任务自动延长思考过程

优势:能效优化、响应速度提升

多步展开推理

迷宫求解可达150步,展现强大组合泛化能力

突破:6倍规模泛化,远超Transformer

内部状态驱动

思考的中断与恢复,支持长时程推理

特性:内在思考,不依赖语言生成

CTM迷宫求解过程可视化

graph LR A["39×39 Maze
Training"] --> B["99×99 Maze
Testing"] B --> C["6x Size Generalization"] A --> D["100 Steps
Training"] D --> E["600 Steps
Testing"] E --> F["6x Length Generalization"] style A fill:#e8f4fd style B fill:#fff2e8 style C fill:#e8f5e8 style D fill:#e8f4fd style E fill:#fff2e8 style F fill:#e8f5e8

Transformer与CTM的深度技术对比

4.1 架构设计范式差异

维度 Transformer CTM
核心计算模式 层间并行、层内并行 tick间串行、神经元间部分并行
时间处理 空间化(位置编码) 内在化(tick序列)
深度固定性 架构参数(层数)决定 运行时自适应
批处理友好性 极高(相同长度输入可完美批处理) 受限(不同输入可能需要不同tick数)
硬件优化 矩阵乘法密集,GPU/TPU高度优化 动态稀疏计算,需专用硬件支持

4.2 计算特性与效率权衡

训练并行性的丧失

CTM的tick序列依赖迫使顺序计算
大规模分布式训练效率降低
推理阶段可根据复杂度动态分配计算

推理灵活性的获取

自适应计算深度,按需分配资源
简单任务快速响应,复杂任务深入思考
边缘部署和实时应用优势明显

4.3 能力边界与性能表现

图像分类任务的人类相似性优势

CTM在ImageNet-1K上的性能被报告为72.47%的top-1准确率和89.89%的top-5准确率[7],但更值得关注的是其行为特征而非原始准确率。与Transformer的视觉模型(如ViT)相比,CTM展现出"仔细移动其注视点,选择聚焦于最显著特征"的类人视觉策略[7]

关键优势:无需温度缩放或事后调整,展现"近乎完美的校准"——预测概率与实际准确率高度一致[10]

迷宫导航的序列推理突破

迷宫求解是CTM的旗舰演示任务,在39×39迷宫、路径长度100的训练条件下,CTM成功处理99×99迷宫、路径长度约600的测试案例[7]。这种6×的规模泛化远超Transformer的典型表现。

训练条件
  • • 迷宫尺寸:39×39
  • • 路径长度:100步
  • • 直接预测路径步骤
测试表现
  • • 迷宫尺寸:99×99
  • • 路径长度:约600步
  • • 6倍规模泛化

行业生态与创新发展重构

5.1 研究范式的转型压力

从规模竞赛到架构创新的资源再分配

Jones的警告与行业动态共同指向资源再分配的紧迫性。当前AI研发的资源分布高度失衡:据Jones披露,70%的顶会论文集中于Transformer微调[3],架构创新研究被边缘化为"非主流"项目。

AI研究资源分布现状

graph TB A["AI Research Resources"] --> B["Transformer Scaling"] A --> C["Transformer Fine-tuning"] A --> D["Architecture Innovation"] A --> E["New Paradigm Exploration"] B --> B1["70% Resources"] C --> C1["20% Resources"] D --> D1["8% Resources"] E --> E1["2% Resources"] style B1 fill:#ff6b6b style C1 fill:#4ecdc4 style D1 fill:#45b7d1 style E1 fill:#96ceb4 style B fill:#ffe0e0 style C fill:#e0f2f1 style D fill:#e3f2fd style E fill:#e8f5e8 style A fill:#f8f9fa

开源生态催化

Sakana AI开源发布CTM代码库和模型检查点

效应:降低研究门槛,加速迭代改进

跨学科融合

神经科学与AI的深度融合新路径

价值:亿万年进化验证的设计原则

人才培养

新一代研究者在动态神经网络范式下成长

目标:形成范式转换的临界质量

5.2 产业竞争格局的潜在演变

现有巨头的路径依赖风险

OpenAI、Google DeepMind、Anthropic等前沿实验室面临严峻的路径依赖困境。其技术栈、人才结构、商业模式都围绕Transformer扩展构建,向新架构的转型成本高昂。更微妙的是认知锁定:组织文化、领导层信念、投资者预期共同强化了"扩展即正途"的叙事。

2024年末信号:Orion、Gemini 2.0、Opus 3.5 reportedly面临性能瓶颈,原始Scaling Law可能触及"收益递减"拐点[11]

新兴力量的颠覆性窗口

CTM为新兴AI企业提供了潜在的颠覆性窗口。历史模式表明,架构代际转换是行业格局重塑的关键时机:Google凭借Transformer超越了RNN时代的先驱,OpenAI凭借扩展策略超越了学术机构。

Sakana AI优势
  • • Transformer发明者技术权威性
  • • 小型实验室组织灵活性
  • • 东京基地的认知距离
开源策略
  • • 与封闭巨头形成对比
  • • 吸引全球贡献者
  • • 培养早期采用者生态

5.3 创新氧气的再供给机制

多元化架构探索的激励重建

重建创新氧气需要系统性的激励机制改革。当前学术评价体系的"发表或灭亡"(publish or perish)压力,与高风险、长周期的架构创新存在根本张力。CTM的开发时间线——从概念到公开成果约两年——在AI领域已属"长期"[12]

Jones希望CTM成为"示范案例",鼓励研究者尝试"看似风险高、但更可能通向下一个大突破的研究方向"[13]——这一愿景需要制度层面的配套改革。

长期主义研究价值

机构层面:创建"AI贝尔实验室"模式
个人层面:抵制"热点追逐"诱惑
文化层面:重新定义"成功"标准

失败容忍度提升

"智能失败"奖励机制
鼓励"负面结果"发表
诚实传达AI发展真实状态

社会文明层面的深远影响

6.1 智能本质的认知革命

从"大数据拟合"到"动态认知"的范式转换

CTM所代表的架构转向,触及了关于智能本质的深层哲学问题。当前主流AI——以Transformer为核心——可被理解为"压缩即智能"——大模型通过预测下一个token,隐式压缩了训练数据的统计规律。

CTM的"动态认知"范式则将智能重新定位于过程而非结果:关键不在于存储多少模式,而在于如何动态构建、操作和修正内部表征。这与认知科学中的"建构主义"传统——Piaget、Vygotsky等——形成呼应,强调智能作为主动的意义建构过程。

AI智能范式演进

graph LR subgraph "Traditional AI" A1["Symbolic AI"] --> A2["Expert Systems"] A2 --> A3["Machine Learning"] A3 --> A4["Deep Learning"] end subgraph "Current Paradigm" B1["Big Data Fitting"] --> B2["Transformer Scaling"] B2 --> B3["Pattern Compression"] end subgraph "Emerging Paradigm" C1["Dynamic Cognition"] --> C2["CTM Architecture"] C2 --> C3["Constructive Process"] end A4 --> B1 B3 --> C1 style A1 fill:#e8f4fd style A2 fill:#e8f4fd style A3 fill:#e8f4fd style A4 fill:#e8f4fd style B1 fill:#fff2e8 style B2 fill:#fff2e8 style B3 fill:#fff2e8 style C1 fill:#e8f5e8 style C2 fill:#e8f5e8 style C3 fill:#e8f5e8

时间维度的本体论地位

CTM将时间从实现细节提升为本体论要素,这一立场与哲学传统中的多种时间理论形成对话。伯格森的"绵延"(durée)概念强调意识的时间性不可还原为空间化测量。

工程实现:CTM的tick机制可被解读为"主观时间"的人工形式——与物理时间解耦,由系统自身的动力学定义。

生物智能边界重构

CTM的生物启发性引发了关于"生物相似性"与"智能"关系的深层问题。生物智能的某些特征(时间动态、神经同步)可能是智能的必要条件,而非可随意取舍的实现选择。

评价标准:需要开发"架构中性"的评估框架,不假设特定计算模式,捕捉扩展性之外的维度。

6.2 AGI发展路径的重新校准

技术乐观主义与方向怀疑主义的平衡

Jones的立场代表了AI研究中的"方向怀疑主义"声音——对当前主流路径的根本质疑。当前讨论被技术乐观主义主导:Sam Altman预测2026年AGI,Dario Amodei预测五年内半数入门级白领工作自动化[11]

平衡关键:区分"能力扩展"与"范式转换"。承认当前路径的局部有效性,同时为其终极局限保持开放,是负责任的创新态度。

多路径探索的冗余价值

从投资组合的角度,当未来高度不确定时,分散投资比集中押注更优。AGI的实现路径存在深刻的不确定性:我们不知道Scaling Law的极限、不知道架构创新的潜力、不知道生物启发的价值。

集中化压力
  • • 网络效应
  • • 人才聚集
  • • 规模经济
多元化价值
  • • 风险分散
  • • 系统性对冲
  • • 创新冗余

6.3 人类主体性的存续挑战

认知外包深化

将原本由人类执行的认知任务委托给AI系统

挑战:守护批判性思维,防止过度信任

劳动价值冲击

经济价值创造与人类劳动投入脱钩

影响:"创造性"和"分析性"工作价值被侵蚀

人机协作新范式

CTM的可解释性支持真正的"混合智能"

伦理:明确责任分配,公平贡献认可

人机协作演进路径

graph TD A["Current State"] --> B["Tool AI"] B --> C["Assistant AI"] C --> D["Collaborative AI"] D --> E["Hybrid Intelligence"] A1["Human performs task"] --> B1["AI provides tools"] B1 --> C1["AI assists in task"] C1 --> D1["AI collaborates on task"] D1 --> E1["Human-AI joint cognition"] style A fill:#ffe0e0 style B fill:#fff2e8 style C fill:#e8f4fd style D fill:#e8f5e8 style E fill:#f3e5f5 style A1 fill:#ffe0e0 style B1 fill:#fff2e8 style C1 fill:#e8f4fd style D1 fill:#e8f5e8 style E1 fill:#f3e5f5

未来展望与战略启示

7.1 技术演进的关键变量

CTM在语言任务上的验证节点

CTM发展的最关键近期变量是语言任务上的表现验证。当前公开评估集中于视觉和强化学习领域;语言——Transformer的统治领域——将是真正的试金石。

关键问题
  • • 语言建模困惑度竞争力
  • • 文本连贯性和长程一致性
  • • 交互式对话效率
时间线影响
  • • 积极结果:快速吸引关注
  • • 负面结果:边缘化风险
  • • 开放策略:加速验证过程

神经形态硬件的协同进化

CTM的效率挑战可能通过硬件创新得到缓解。神经形态芯片——如Intel Loihi、IBM TrueNorth、以及各种研究原型——专为脉冲神经网络和时序动态设计,其特性与CTM的计算模式更匹配。

协同进化模式:GPU推动深度学习爆发 → Transformer优化GPU利用 → CTM需要新一代硬件 → 神经形态技术商业化

混合架构的可能性空间

最可能的近期发展并非CTM完全替代Transformer,而是混合架构的探索。Transformer在并行训练和广泛知识压缩上的优势,与CTM的动态推理和可解释性,可能通过某种形式的整合实现互补。

混合模式
  • • Transformer编码器 + CTM解码器
  • • CTM作为深度扩展模块
  • • 任务自适应架构选择
技术挑战
  • • 计算范式接口设计
  • • 梯度传播稳定性
  • • 训练目标协调

7.2 治理框架的前瞻构建

技术多样性保护

公共资助的架构探索项目
反垄断审查更新
开源基础设施投资

风险分布式承担

研究保险的公共提供
成功收益分享机制
职业保护网络

全球协作调节

协作-竞争平衡
"开放核心"模式
多边合作机制

7.3 文明级决策的紧迫性

"错误道路狂奔"的止损时点判断

Jones的警告最终指向一个文明级的决策问题:何时承认当前路径的局限性,并承担转向的成本?这一判断的困难在于:我们永远无法确定替代路径是否更优,直到它被充分验证;但等到验证完成,路径锁定可能已无法打破。

止损决策信号框架

graph TD A["Current Path Assessment"] --> B["Signal Detection"] B --> C["Decision Framework"] B --> D["Marginal Returns Decline"] B --> E["Alternative Validation"] B --> F["Social Cost Accumulation"] D --> D1["Performance plateau"] D --> D2["Cost-benefit ratio worsening"] E --> E1["New architecture shows promise"] E --> E2["Critical benchmarks achieved"] F --> F1["Energy consumption concerns"] F --> F2["Innovation ecosystem damage"] C --> G["Continue Current Path"] C --> H["Explore Alternatives"] C --> I["Dual-track Strategy"] style A fill:#e8f4fd style B fill:#fff2e8 style C fill:#e8f5e8 style D fill:#f3e5f5 style E fill:#e8f4fd style F fill:#fff2e8 style G fill:#ffe0e0 style H fill:#e0f2f1 style I fill:#e3f2fd

范式转换成本评估

既有投资的沉没、技能的过时、组织的重组

挑战:转换期间的性能下降、社会适应成本

长期收益潜力

新架构的能力上限、效率优势、可解释性改善

价值:创新生态健康、技术发展多样性

人类在智能进化中的角色定位

最终,CTM与Transformer的范式之争,折射出更深层的存在性问题:人类希望在智能进化中扮演什么角色?是被动接受技术演化的结果,还是主动塑造其方向?是将智能视为可工程化的目标函数优化问题,还是承认其内在的不可还原性?

Jones的CTM项目代表了一种主动塑造的尝试——通过生物启发的架构设计,将人类的认知特性(时间性、过程性、适应性)嵌入AI系统。这一选择,或许比任何具体的技术决策都更为根本。