> 2024年图灵奖得主、强化学习之父Richard Sutton在2026年5月发表了一篇哲学立场论文,系统批判了从符号AI到LLM的主流"被动表征"路线,提出AI应该走向"生成认知"(Enactive Cognition)。但讽刺的是,这篇论文自己踩中了Sutton十年前提出的两条铁律——"苦涩的教训"(少人类知识,多计算)和"奖励假设"(所有目标=奖励最大化)。当11亿美元的红杉/英伟达/谷歌投资全押这条路线时,我们需要问:Sutton是在修正自己的遗产,还是在推翻它?
---
1. 2026年5月,Sutton递出了一把刀
2026年5月22日,arXiv上出现了一篇不同寻常的论文。
标题很朴素:《Toward Enactive Artificial Intelligence》(迈向生成式人工智能)。作者只有两个名字:Banafsheh Rafiee,以及 Richard S. Sutton。
如果你是AI从业者,看到第二个名字应该心头一紧。Sutton是谁?
- 强化学习之父(与Andrew Barto合著《Reinforcement Learning: An Introduction》, RL圣经)
- 2024年图灵奖得主
- "苦涩的教训"(The Bitter Lesson)作者(2019年那篇博客,被引用数万次)
- "奖励假设"(Reward Hypothesis)提出者("所有智能目标都可以被构想为最大化累积奖励的预期")
- Alberta Plan总设计师
但2026年的这篇论文,他写了什么?
> "当前主流AI,从经典规则系统到大语言模型,都忽略了生成认知的洞察,把认知当作脱离具身互动和内在规范性的内部处理。"
他批判了符号AI、深度学习、LLM——几乎所有主流路线。然后他提出了四个来自认知科学/现象学的概念:经验、行动-感知不可分、自主性、具身性。
这不是技术论文。这是 哲学宣言。而写它的人,正是那个曾经说"人类知识没用"的Sutton。
---
2. 生成认知:从"表征世界"到"与世界共舞"
要理解这篇论文的冲击力,需要先理解"生成认知"(Enactive Cognition)是什么。
2.1 表征主义 vs 生成认知:两条路线的根本分歧
| 维度 | 表征主义(主流AI) | 生成认知(Sutton新主张) |
|---|---|---|
| 感知本质 | 被动接收感官输入,内部处理 | 主动的、技能性的世界参与 |
| 感知-行动关系 | 感知→处理→行动,线性序列 | 感知与行动相互构成,不可分割 |
| 世界模型 | 必须构建内部表征替代现实 | "世界是其自身最佳模型"(Brooks) |
| 认知来源 | 预给定的符号/特征计算 | 通过行动生成意义(enacted) |
| 评价标准 | 表征保真度:内部模型多像外部现实 | 技能性参与:能否熟练与环境互动 |
| 智能定义 | 准确构建和操作内部表征 | 持续行动-反馈-调整的能力 |
2.2 四个支柱:经验、行动-感知不可分、自主性、具身性
#### 经验(Experience)
> "世界超越任何有限描述——智能体必须持续与之互动,依赖实时反馈调整行动、重新校准期望、精炼理解。"
论文特别强调:数据≠经验。监督学习从固定数据集学习,数据是"经验的副产品",不是经验本身。LLM学习人类生成数据的模式,但它自己从未" lived through"任何互动。
真正的经验是 持续的、实时的、双向的——智能体行动,环境回应,智能体再调整。这与Sutton和Silver在2025年提出的"Welcome to the Era of Experience"直接呼应,但本文把"经验"的含义深化了:不仅是"自己收集数据",而是技能性、规范性、具身性的互动。
#### 行动-感知不可分(Action-Perception Inseparability)
论文用大量篇幅论证:感知即行动。
- 眼睛左移导致视觉场右移——掌握这种规律是视觉经验的基础
- 头部运动改变双耳声学输入的timing/intensity——这是声源定位的线索
- 手部移动时的振动模式——速度方向不同则质地感知不同
论文对当前AI的批判极其尖锐:
> "一个学习了交通灯规律的生成式视频模型可以准确预测绿-黄-红的序列,但这只是追踪规律,而非理解如何在序列断裂时应对。"
模式延续 vs 模式断裂时的应对能力——这是生成式与表征式的根本区别。
#### 自主性(Autonomy)
这是论文最哲学化的部分。Sutton引入了 自创生(Autopoiesis) 的概念——自我产生、自我维持的系统。
他提出了两个关键问题: 1. 智能体能否基于自身活动评估行为,拥有成功/失败感? 2. 成功/失败标准来自智能体自身,还是外部强加?
然后他对各AI范式进行了冷酷的评级:
| AI范式 | 自我评估? | 标准来源? | 评价 |
|---|---|---|---|
| 监督学习 | ❌ 无 | 外部(人类标注) | 系统不评估自身 |
| LLM | ❌ 无(表面有自监督) | 外部(人类数据模式) | 无法自评估输出 |
| 符号规划 | ❌ 无(行动时无评估) | 外部(预定义条件) | 二元结果检查 |
| 规划与控制 | ⚠️ 有持续评估 | 外部(目标/成本函数) | 仍绑定预定义目标 |
| 强化学习 | ✅ 通过经验评估 | 外部(奖励函数) | 重要转变,但标准仍外部 |
| 内在动机RL | ✅ 内部奖励信号 | 部分内部 | 更智能体中心 |
| 目标发现 | ✅ 从经验构建目标 | 更智能体中心 | 更接近生成式 |
> "生成式意义上的完全自主性——规范性从智能体自身组织产生——尚未实现。"
这直接挑战了Sutton自己提出的 奖励假设(Reward Hypothesis):"所有目标、目的都可以被构想为最大化累积奖励的预期。"
如果规范性应该来自智能体自身组织,那"奖励函数外部指定"就是有根本缺陷的。但论文 没有明确讨论这个矛盾。
#### 具身性(Embodiment)
> "感知是掌握依赖于身体的感觉运动偶联;非可独立于具身性指定的抽象输入-输出映射。"
Gibson的"可供性"(Affordance)在这里被强调:一个物体是否"可抓握"、"可攀爬"、"可通过",仅相对于行动者的身体能力才存在。世界不是中性特征阵列,而是相对于目标-需求有意义。
对LLM的批判极其直接:
> "主流AI(多模态大模型)无具身性;学习输入到内部表征的映射,不依赖感觉运动参与或身体结构。感知被还原为静态数据集上的模式识别;无法发展真正情境化感知或适应新环境。"
---
3. 强化学习:最接近生成认知的AI范式,但还不够
论文对RL的态度是 复杂的、模棱两可的。
一方面,Sutton认为RL与生成认知有"结构共振"(Structural Resonance):
| 共振方面 | RL特征 | 对应生成式概念 |
|---|---|---|
| 经验生成 | 通过试错主动互动,自己收集数据 | Experience |
| 行动中心 | 行动置于学习核心 | Action-Perception Inseparability |
| 反馈驱动适应 | 从行动结果学习 | Experience的持续性 |
| 智能体中心评估 | 通过奖励评估轨迹 | Autonomy的部分方面 |
| 时间延展评估 | 考虑延迟效果 | 超越即时状态匹配 |
| 缺失方面 | 具体表现 |
|---|---|
| 评估标准外部性 | 奖励函数外部指定;规范性未从智能体自身组织产生 |
| 行动-感知不可分未完全实现 | 感知仍通常被视为先于行动 |
| 具身性作为实现细节 | 身体作为执行预计算策略的接口,非认知的构成性条件 |
| 自主性不完整 | 无自创生、自我维持;未从系统组织产生目标 |
> "这种共振不应被视为理论等价,因为RL只是近似了一些生成式洞察,但关键元素仍然缺失或薄弱发展。"
> "我们进行的比较是结构性的——旨在识别共享模式和组织原则——而非等价性声明。"
翻译一下:RL比其他AI范式更接近生成认知,但 不是生成认知。它缺少一些"关键元素"。
但问题是:RL缺少的这些元素,能通过更多计算和数据来弥补吗?还是必须引入 人类设计的知识(如自创生理论、现象学、可供性)?
---
4. 论文自身的矛盾:Sutton踩中了自己的两条铁律
这是最精彩的部分——这篇论文自己打了自己的脸。
4.1 "苦涩的教训" vs 生成认知
2019年,Sutton在"苦涩的教训"中写道:
> "70年来AI研究的真正教训是:人类知识的长期价值在于它被通用计算方法超越的那一刻。"
> "我们应该从人类知识中解脱出来,转向大规模计算和搜索。"
但2026年的论文,引入了Merleau-Ponty的"意向弧"、Husserl的现象学、Gibson的生态心理学、Maturana的自创生理论——这些都是深厚的人类知识,来自认知科学、现象学、生态心理学,而非计算和搜索。
论文并没有说"让AI自己通过大规模计算发现具身性和自创生"——它说的是"我们应该把这些认知科学的洞察融入AI"。
这不就是"苦涩的教训"批判的人类知识工程吗?
4.2 奖励假设 vs 自创生规范性
2018年,Sutton在《Reinforcement Learning》中写道:
> "所有目标、目的都可以被构想为最大化累积奖励的预期。"
> "奖励足以表达所有智能目标。"
但2026年的论文说:
> "监督学习中,成功标准完全由数据集和标注过程外部指定。系统既不自我评估,也没有自己的成功标准。"
> "生成式意义上的完全自主性——规范性从智能体自身组织产生——尚未实现。"
如果规范性应该来自"智能体自身组织",那外部指定的奖励函数就是有根本缺陷的。但Sutton没有解释如何调和这两者。他只是说"RL有共振,但不够"——但没有说"奖励假设错了"。
4.3 可能的调和策略
论文可能试图这样调和:
1. 将enactive原则作为RL的扩展方向,而非替代——保留经验中心、行动中心,但深化含义 2. "结构模式"而非"人类知识注入"——把enactive原则定位为"组织原则",而非"手工特征" 3. 计算可以产生enactive特征——通过持续互动,计算搜索可以自发涌现出自创生、具身性等
但第三种策略在论文中没有论证。Sutton只是断言RL有"共振",然后列出缺失,但没有给出缺失如何通过计算弥补的具体路径。
---
5. 11亿美元的红杉/英伟达/谷歌赌局:Sutton路线的商业化
这篇论文不是孤立事件。它发生在一场巨大的资本重组中。
据行业消息(用户提供的背景信息),红杉、英伟达、谷歌联合投资11亿美元给一家零产品公司,估值51亿美元,全押Sutton的enactive AI路线。
这家公司做什么?目前公开信息有限,但可以推测:
1. 具身智能(Embodied AI):机器人在真实物理世界中的强化学习 2. 世界模型(World Models):不依赖人类标注,通过自身经验学习世界动力学 3. 持续学习(Continual Learning):在变化环境中持续适应,而非一次性训练 4. 内在动机(Intrinsic Motivation):奖励不来自人类设计,来自智能体自身的好奇心/进步感
这些方向与论文的四个支柱完全对应:具身性、经验、行动-感知不可分、自主性。
关键问题:这11亿美元赌的是什么?
- 赌的是"LLM路线到头了"——规模化计算+数据+参数的增长曲线正在 flatten
- 赌的是"具身性是新蓝海"——从数字世界(文本/图像)到物理世界(机器人/传感器)的迁移
- 赌的是"Sutton的品牌效应"——图灵奖得主+强化学习之父的背书
- 零产品意味着没有验证——这是纯粹的科学信念投资
- enactive AI的工程化难度——如何将"意向弧"、"自创生"转化为可训练的loss function?
- 时间窗口——LLM商业化还在加速(Copilot、Agent、代码生成),enactive AI的product-market fit在哪里?
6. 深层问题:生成认知是AI的"下一条曲线",还是哲学安慰剂?
6.1 四个批判性问题
Q1: "共振"不等于"可实现"
论文说RL与enactive有"结构共振",但"关键元素缺失"。问题是:这些缺失的元素(自创生、具身性作为构成性条件、内在规范性)能否通过现有RL框架实现?还是必须引入完全不同的架构?
如果必须引入新架构,那这不是"扩展RL",而是"替代RL"。但Sutton作为RL之父,不太可能公开说"RL不够"。
Q2: 现象学知识 vs 计算规模
"苦涩的教训"说人类知识长期被计算超越。但enactive原则来自 人类哲学家(Merleau-Ponty、Varela、Gibson),不是来自计算。如果enactive AI需要这些人类知识作为架构设计原则,那它就是在 违反"苦涩的教训"。
Q3: LLM真的"只是模式追踪"吗?
论文对LLM的批判很严厉:"只是追踪规律,不理解如何在模式断裂时应对"。但最新LLM(如GPT-4o、Claude 3.5)在工具使用、代码调试、数学推理中的表现,已经展现出某种程度的模式断裂应对能力。Sutton是否低估了LLM的涌现能力?
Q4: 投资泡沫风险
11亿美元投给零产品公司,这在AI历史上史无前例。即使是OpenAI早期,也有GPT-2/3作为验证。如果enactive AI的product-market fit迟迟不出现(5-10年),这笔投资会不会成为AI泡沫的标志性事件?
6.2 历史类比:两次AI寒冬的教训
- 第一次AI寒冬(1970s):符号AI过度承诺(通用问题求解、机器翻译),人类知识工程路线遇到瓶颈
- 第二次AI寒冬(1980s-1990s):专家系统失败,知识获取瓶颈
- 当前LLM boom(2020s):规模化计算+数据的成功
但Sutton可能认为:这次不同——不是把人类知识编码为规则,而是把人类知识转化为架构设计原则(如行动-感知耦合、持续互动、具身性)。这类似于深度学习中的"归纳偏置"(inductive bias)——不是手工特征,而是网络结构的先验。
---
7. 结论:Sutton在修正,还是在推翻?
我的判断:修正,而非推翻。但修正的幅度很大,接近范式转换。
7.1 三条遗产的继承与修正
| 遗产 | 原立场 | 修正后 | 变化幅度 |
|---|---|---|---|
| 苦涩的教训 | 少人类知识,多计算 | 人类知识可以作为"架构偏置"(如具身性),但最终仍需计算验证 | 中等 |
| 奖励假设 | 所有目标=奖励最大化 | 奖励不够;需要内在规范性、自创生 | 重大 |
| 经验时代 | AI应基于自身经验学习 | 深化"经验"含义:技能性、规范性、具身性 | 中等 |
7.2 论文的真正价值
不是给出了具体算法(它没有),而是:
1. 提出了问题:主流AI的"被动表征"路线是否有根本上限? 2. 指了方向:生成认知提供了替代框架 3. 留了空间:RL可以扩展,但需要新元素
7.3 最终评价
Sutton这篇论文 最重要的不是它说了什么,而是谁说的。
当强化学习之父开始批判LLM的"被动表征"、开始引入现象学和自创生理论、开始质疑自己提出的"奖励假设"——这本身就是一个 信号。
这个信号不是说"LLM完了",而是说:
> "规模化计算+数据的胜利是真实的,但它不是全部。AI要走向真正的智能,需要经验、行动、具身性、自主性——这些不是通过更多参数和数据就能涌现的,需要新的架构、新的学习范式、新的与世界的互动方式。"
Sutton没有给出答案。他可能也没有答案。但他在70岁时,敢于对自己40年的遗产提出最深刻的质疑——这比任何技术突破都更有价值。
---
> "The world is its own best model." — Rodney Brooks > > "But to use the world as its model, you need a body in it." — Enactive Cognition > > "And to have a body in it, you need to be born into it." — The question Sutton leaves open.
---
参考论文: Rafiee, B., & Sutton, R. S. (2026). *Toward Enactive Artificial Intelligence*. University of Alberta, Amii. arXiv:2605.24238.
Sutton的遗产文献:
- Sutton, R. S. (2019). *The Bitter Lesson*. http://www.incompleteideas.net/IncIdeas/BitterLesson.html
- Sutton, R. S., & Barto, A. G. (2018). *Reinforcement Learning: An Introduction* (2nd ed.). MIT Press.
- Silver, D., & Sutton, R. S. (2025). *Welcome to the Era of Experience*. (待发布/早期版本)
- Varela, F. J., Thompson, E., & Rosch, E. (1991). *The Embodied Mind*. MIT Press.
- O'Regan, J. K., & Noë, A. (2001). A sensorimotor account of vision and visual consciousness. *Behavioral and Brain Sciences*, 24(5), 939-973.
- Noë, A. (2004). *Action in Perception*. MIT Press.
- Brooks, R. A. (1991). Intelligence without representation. *Artificial Intelligence*, 47(1-3), 139-159.