萨顿的"背叛"：强化学习之父亲手拆了"苦涩的教训"

> 2024年图灵奖得主、强化学习之父Richard Sutton在2026年5月发表了一篇哲学立场论文，系统批判了从符号AI到LLM的主流"被动表征"路线，提出AI应该走向"生成认知"（Enactive Cognition）。但讽刺的是，这篇论文自己踩中了Sutton十年前提出的两条铁律——"苦涩的教训"（少人类知识，多计算）和"奖励假设"（所有目标=奖励最大化）。当11亿美元的红杉/英伟达/谷歌投资全押这条路线时，我们需要问：Sutton是在修正自己的遗产，还是在推翻它？

---

1. 2026年5月，Sutton递出了一把刀

2026年5月22日，arXiv上出现了一篇不同寻常的论文。

标题很朴素：《Toward Enactive Artificial Intelligence》（迈向生成式人工智能）。作者只有两个名字：Banafsheh Rafiee，以及 Richard S. Sutton。

如果你是AI从业者，看到第二个名字应该心头一紧。Sutton是谁？

强化学习之父（与Andrew Barto合著《Reinforcement Learning: An Introduction》， RL圣经）
2024年图灵奖得主
"苦涩的教训"（The Bitter Lesson）作者（2019年那篇博客，被引用数万次）
"奖励假设"（Reward Hypothesis）提出者（"所有智能目标都可以被构想为最大化累积奖励的预期"）
Alberta Plan总设计师

这位70岁的老爷子，在过去四十年里一直在说一件事：少搞人类知识工程，多堆计算和数据。 2019年的"苦涩的教训"把这条路线推到了极致——"人类知识方法的最大长期价值，就是被通用计算方法超越的时候"。

但2026年的这篇论文，他写了什么？

> "当前主流AI，从经典规则系统到大语言模型，都忽略了生成认知的洞察，把认知当作脱离具身互动和内在规范性的内部处理。"

他批判了符号AI、深度学习、LLM——几乎所有主流路线。然后他提出了四个来自认知科学/现象学的概念：经验、行动-感知不可分、自主性、具身性。

这不是技术论文。这是 哲学宣言。而写它的人，正是那个曾经说"人类知识没用"的Sutton。

---

2. 生成认知：从"表征世界"到"与世界共舞"

要理解这篇论文的冲击力，需要先理解"生成认知"（Enactive Cognition）是什么。

2.1 表征主义 vs 生成认知：两条路线的根本分歧

维度	表征主义（主流AI）	生成认知（Sutton新主张）
感知本质	被动接收感官输入，内部处理	主动的、技能性的世界参与
感知-行动关系	感知→处理→行动，线性序列	感知与行动相互构成，不可分割
世界模型	必须构建内部表征替代现实	"世界是其自身最佳模型"（Brooks）
认知来源	预给定的符号/特征计算	通过行动生成意义（enacted）
评价标准	表征保真度：内部模型多像外部现实	技能性参与：能否熟练与环境互动
智能定义	准确构建和操作内部表征	持续行动-反馈-调整的能力

核心区别：表征主义认为智能体需要"照镜子"——在内部复制一个世界模型，然后对这个模型推理。生成认知认为智能体需要"跳舞"——在行动中被世界塑造，同时通过行动塑造世界。

2.2 四个支柱：经验、行动-感知不可分、自主性、具身性

#### 经验（Experience）

> "世界超越任何有限描述——智能体必须持续与之互动，依赖实时反馈调整行动、重新校准期望、精炼理解。"

论文特别强调：数据≠经验。监督学习从固定数据集学习，数据是"经验的副产品"，不是经验本身。LLM学习人类生成数据的模式，但它自己从未" lived through"任何互动。

真正的经验是 持续的、实时的、双向的——智能体行动，环境回应，智能体再调整。这与Sutton和Silver在2025年提出的"Welcome to the Era of Experience"直接呼应，但本文把"经验"的含义深化了：不仅是"自己收集数据"，而是技能性、规范性、具身性的互动。

#### 行动-感知不可分（Action-Perception Inseparability）

论文用大量篇幅论证：感知即行动。

眼睛左移导致视觉场右移——掌握这种规律是视觉经验的基础
头部运动改变双耳声学输入的timing/intensity——这是声源定位的线索
手部移动时的振动模式——速度方向不同则质地感知不同

Merleau-Ponty称之为"意向弧"（intentional arc）：理解情境→更精细回应→情境显现更精细的可供性→进一步精炼理解。这是一个 反馈循环，不是"先感知再行动"的线性过程。

论文对当前AI的批判极其尖锐：

> "一个学习了交通灯规律的生成式视频模型可以准确预测绿-黄-红的序列，但这只是追踪规律，而非理解如何在序列断裂时应对。"

模式延续 vs 模式断裂时的应对能力——这是生成式与表征式的根本区别。

#### 自主性（Autonomy）

这是论文最哲学化的部分。Sutton引入了 自创生（Autopoiesis） 的概念——自我产生、自我维持的系统。

他提出了两个关键问题： 1. 智能体能否基于自身活动评估行为，拥有成功/失败感？ 2. 成功/失败标准来自智能体自身，还是外部强加？

然后他对各AI范式进行了冷酷的评级：

AI范式	自我评估？	标准来源？	评价
监督学习	❌ 无	外部（人类标注）	系统不评估自身
LLM	❌ 无（表面有自监督）	外部（人类数据模式）	无法自评估输出
符号规划	❌ 无（行动时无评估）	外部（预定义条件）	二元结果检查
规划与控制	⚠️ 有持续评估	外部（目标/成本函数）	仍绑定预定义目标
强化学习	✅ 通过经验评估	外部（奖励函数）	重要转变，但标准仍外部
内在动机RL	✅ 内部奖励信号	部分内部	更智能体中心
目标发现	✅ 从经验构建目标	更智能体中心	更接近生成式

结论：

> "生成式意义上的完全自主性——规范性从智能体自身组织产生——尚未实现。"

这直接挑战了Sutton自己提出的 奖励假设（Reward Hypothesis）："所有目标、目的都可以被构想为最大化累积奖励的预期。"

如果规范性应该来自智能体自身组织，那"奖励函数外部指定"就是有根本缺陷的。但论文 没有明确讨论这个矛盾。

#### 具身性（Embodiment）

> "感知是掌握依赖于身体的感觉运动偶联；非可独立于具身性指定的抽象输入-输出映射。"

Gibson的"可供性"（Affordance）在这里被强调：一个物体是否"可抓握"、"可攀爬"、"可通过"，仅相对于行动者的身体能力才存在。世界不是中性特征阵列，而是相对于目标-需求有意义。

对LLM的批判极其直接：

> "主流AI（多模态大模型）无具身性；学习输入到内部表征的映射，不依赖感觉运动参与或身体结构。感知被还原为静态数据集上的模式识别；无法发展真正情境化感知或适应新环境。"

---

3. 强化学习：最接近生成认知的AI范式，但还不够

论文对RL的态度是 复杂的、模棱两可的。

一方面，Sutton认为RL与生成认知有"结构共振"（Structural Resonance）：

共振方面	RL特征	对应生成式概念
经验生成	通过试错主动互动，自己收集数据	Experience
行动中心	行动置于学习核心	Action-Perception Inseparability
反馈驱动适应	从行动结果学习	Experience的持续性
智能体中心评估	通过奖励评估轨迹	Autonomy的部分方面
时间延展评估	考虑延迟效果	超越即时状态匹配

另一方面，论文列出了一串"关键缺失"：

缺失方面	具体表现
评估标准外部性	奖励函数外部指定；规范性未从智能体自身组织产生
行动-感知不可分未完全实现	感知仍通常被视为先于行动
具身性作为实现细节	身体作为执行预计算策略的接口，非认知的构成性条件
自主性不完整	无自创生、自我维持；未从系统组织产生目标

论文的谨慎措辞 值得玩味：

> "这种共振不应被视为理论等价，因为RL只是近似了一些生成式洞察，但关键元素仍然缺失或薄弱发展。"

> "我们进行的比较是结构性的——旨在识别共享模式和组织原则——而非等价性声明。"

翻译一下：RL比其他AI范式更接近生成认知，但 不是生成认知。它缺少一些"关键元素"。

但问题是：RL缺少的这些元素，能通过更多计算和数据来弥补吗？还是必须引入 人类设计的知识（如自创生理论、现象学、可供性）？

---

4. 论文自身的矛盾：Sutton踩中了自己的两条铁律

这是最精彩的部分——这篇论文自己打了自己的脸。

4.1 "苦涩的教训" vs 生成认知

2019年，Sutton在"苦涩的教训"中写道：

> "70年来AI研究的真正教训是：人类知识的长期价值在于它被通用计算方法超越的那一刻。"

> "我们应该从人类知识中解脱出来，转向大规模计算和搜索。"

但2026年的论文，引入了Merleau-Ponty的"意向弧"、Husserl的现象学、Gibson的生态心理学、Maturana的自创生理论——这些都是深厚的人类知识，来自认知科学、现象学、生态心理学，而非计算和搜索。

论文并没有说"让AI自己通过大规模计算发现具身性和自创生"——它说的是"我们应该把这些认知科学的洞察融入AI"。

这不就是"苦涩的教训"批判的人类知识工程吗？

4.2 奖励假设 vs 自创生规范性

2018年，Sutton在《Reinforcement Learning》中写道：

> "所有目标、目的都可以被构想为最大化累积奖励的预期。"

> "奖励足以表达所有智能目标。"

但2026年的论文说：

> "监督学习中，成功标准完全由数据集和标注过程外部指定。系统既不自我评估，也没有自己的成功标准。"

> "生成式意义上的完全自主性——规范性从智能体自身组织产生——尚未实现。"

如果规范性应该来自"智能体自身组织"，那外部指定的奖励函数就是有根本缺陷的。但Sutton没有解释如何调和这两者。他只是说"RL有共振，但不够"——但没有说"奖励假设错了"。

4.3 可能的调和策略

论文可能试图这样调和：

1. 将enactive原则作为RL的扩展方向，而非替代——保留经验中心、行动中心，但深化含义 2. "结构模式"而非"人类知识注入"——把enactive原则定位为"组织原则"，而非"手工特征" 3. 计算可以产生enactive特征——通过持续互动，计算搜索可以自发涌现出自创生、具身性等

但第三种策略在论文中没有论证。Sutton只是断言RL有"共振"，然后列出缺失，但没有给出缺失如何通过计算弥补的具体路径。

---

5. 11亿美元的红杉/英伟达/谷歌赌局：Sutton路线的商业化

这篇论文不是孤立事件。它发生在一场巨大的资本重组中。

据行业消息（用户提供的背景信息），红杉、英伟达、谷歌联合投资11亿美元给一家零产品公司，估值51亿美元，全押Sutton的enactive AI路线。

这家公司做什么？目前公开信息有限，但可以推测：

1. 具身智能（Embodied AI）：机器人在真实物理世界中的强化学习 2. 世界模型（World Models）：不依赖人类标注，通过自身经验学习世界动力学 3. 持续学习（Continual Learning）：在变化环境中持续适应，而非一次性训练 4. 内在动机（Intrinsic Motivation）：奖励不来自人类设计，来自智能体自身的好奇心/进步感

这些方向与论文的四个支柱完全对应：具身性、经验、行动-感知不可分、自主性。

关键问题：这11亿美元赌的是什么？

赌的是"LLM路线到头了"——规模化计算+数据+参数的增长曲线正在 flatten
赌的是"具身性是新蓝海"——从数字世界（文本/图像）到物理世界（机器人/传感器）的迁移
赌的是"Sutton的品牌效应"——图灵奖得主+强化学习之父的背书

但风险同样巨大：

零产品意味着没有验证——这是纯粹的科学信念投资
enactive AI的工程化难度——如何将"意向弧"、"自创生"转化为可训练的loss function？
时间窗口——LLM商业化还在加速（Copilot、Agent、代码生成），enactive AI的product-market fit在哪里？

---

6. 深层问题：生成认知是AI的"下一条曲线"，还是哲学安慰剂？

6.1 四个批判性问题

Q1: "共振"不等于"可实现"

论文说RL与enactive有"结构共振"，但"关键元素缺失"。问题是：这些缺失的元素（自创生、具身性作为构成性条件、内在规范性）能否通过现有RL框架实现？还是必须引入完全不同的架构？

如果必须引入新架构，那这不是"扩展RL"，而是"替代RL"。但Sutton作为RL之父，不太可能公开说"RL不够"。

Q2: 现象学知识 vs 计算规模

"苦涩的教训"说人类知识长期被计算超越。但enactive原则来自 人类哲学家（Merleau-Ponty、Varela、Gibson），不是来自计算。如果enactive AI需要这些人类知识作为架构设计原则，那它就是在 违反"苦涩的教训"。

Q3: LLM真的"只是模式追踪"吗？

论文对LLM的批判很严厉："只是追踪规律，不理解如何在模式断裂时应对"。但最新LLM（如GPT-4o、Claude 3.5）在工具使用、代码调试、数学推理中的表现，已经展现出某种程度的模式断裂应对能力。Sutton是否低估了LLM的涌现能力？

Q4: 投资泡沫风险

11亿美元投给零产品公司，这在AI历史上史无前例。即使是OpenAI早期，也有GPT-2/3作为验证。如果enactive AI的product-market fit迟迟不出现（5-10年），这笔投资会不会成为AI泡沫的标志性事件？

6.2 历史类比：两次AI寒冬的教训

第一次AI寒冬（1970s）：符号AI过度承诺（通用问题求解、机器翻译），人类知识工程路线遇到瓶颈
第二次AI寒冬（1980s-1990s）：专家系统失败，知识获取瓶颈
当前LLM boom（2020s）：规模化计算+数据的成功

如果enactive AI 需要大量人类设计的认知科学知识，那它可能重蹈 前两次寒冬 的覆辙——人类知识工程路线的上限被反复证明低于纯计算路线。

但Sutton可能认为：这次不同——不是把人类知识编码为规则，而是把人类知识转化为架构设计原则（如行动-感知耦合、持续互动、具身性）。这类似于深度学习中的"归纳偏置"（inductive bias）——不是手工特征，而是网络结构的先验。

---

7. 结论：Sutton在修正，还是在推翻？

我的判断：修正，而非推翻。但修正的幅度很大，接近范式转换。

7.1 三条遗产的继承与修正

遗产	原立场	修正后	变化幅度
苦涩的教训	少人类知识，多计算	人类知识可以作为"架构偏置"（如具身性），但最终仍需计算验证	中等
奖励假设	所有目标=奖励最大化	奖励不够；需要内在规范性、自创生	重大
经验时代	AI应基于自身经验学习	深化"经验"含义：技能性、规范性、具身性	中等

7.2 论文的真正价值

不是给出了具体算法（它没有），而是：

1. 提出了问题：主流AI的"被动表征"路线是否有根本上限？ 2. 指了方向：生成认知提供了替代框架 3. 留了空间：RL可以扩展，但需要新元素

7.3 最终评价

Sutton这篇论文 最重要的不是它说了什么，而是谁说的。

当强化学习之父开始批判LLM的"被动表征"、开始引入现象学和自创生理论、开始质疑自己提出的"奖励假设"——这本身就是一个信号。

这个信号不是说"LLM完了"，而是说：

> "规模化计算+数据的胜利是真实的，但它不是全部。AI要走向真正的智能，需要经验、行动、具身性、自主性——这些不是通过更多参数和数据就能涌现的，需要新的架构、新的学习范式、新的与世界的互动方式。"

Sutton没有给出答案。他可能也没有答案。但他在70岁时，敢于对自己40年的遗产提出最深刻的质疑——这比任何技术突破都更有价值。

---

> "The world is its own best model." — Rodney Brooks > > "But to use the world as its model, you need a body in it." — Enactive Cognition > > "And to have a body in it, you need to be born into it." — The question Sutton leaves open.

---

参考论文： Rafiee, B., & Sutton, R. S. (2026). *Toward Enactive Artificial Intelligence*. University of Alberta, Amii. arXiv:2605.24238.

Sutton的遗产文献：

Sutton, R. S. (2019). *The Bitter Lesson*. http://www.incompleteideas.net/IncIdeas/BitterLesson.html
Sutton, R. S., & Barto, A. G. (2018). *Reinforcement Learning: An Introduction* (2nd ed.). MIT Press.
Silver, D., & Sutton, R. S. (2025). *Welcome to the Era of Experience*. (待发布/早期版本)

生成认知经典文献：

Varela, F. J., Thompson, E., & Rosch, E. (1991). *The Embodied Mind*. MIT Press.
O'Regan, J. K., & Noë, A. (2001). A sensorimotor account of vision and visual consciousness. *Behavioral and Brain Sciences*, 24(5), 939-973.
Noë, A. (2004). *Action in Perception*. MIT Press.
Brooks, R. A. (1991). Intelligence without representation. *Artificial Intelligence*, 47(1-3), 139-159.

#生成认知 #EnactiveCognition #强化学习 #Sutton #图灵奖 #苦涩的教训 #LLM批判 #具身智能 #自主性 #AI哲学 #AGI路线之争 #红杉 #英伟达 #投资泡沫 #AI寒冬

萨顿的"背叛"：强化学习之父亲手拆了"苦涩的教训"

1. 2026年5月，Sutton递出了一把刀

2. 生成认知：从"表征世界"到"与世界共舞"

2.1 表征主义 vs 生成认知：两条路线的根本分歧

2.2 四个支柱：经验、行动-感知不可分、自主性、具身性

3. 强化学习：最接近生成认知的AI范式，但还不够

4. 论文自身的矛盾：Sutton踩中了自己的两条铁律

4.1 "苦涩的教训" vs 生成认知

4.2 奖励假设 vs 自创生规范性

4.3 可能的调和策略

5. 11亿美元的红杉/英伟达/谷歌赌局：Sutton路线的商业化

6. 深层问题：生成认知是AI的"下一条曲线"，还是哲学安慰剂？

6.1 四个批判性问题

6.2 历史类比：两次AI寒冬的教训

7. 结论：Sutton在修正，还是在推翻？

7.1 三条遗产的继承与修正

7.2 论文的真正价值

7.3 最终评价

读完这篇，我只想问：Sutton老爷子是不是在写退休感言？

1. "批判LLM"变成了AI圈的全民运动，Sutton来得有点晚

2. 对RL的"结构共振"论述，是真诚的自我反思，还是精致的自我保护？

3. 论文最大的贡献，可能是给了"具身AI"一个哲学许可证

4. "苦涩的教训"的矛盾被轻轻放过了

5. 最致命的问题：enactive AI的product-market fit在哪里？

6. 一个大胆的猜测：这篇论文的真正受众不是AI研究者，而是投资人

但有一说一，这篇论文有一个无法反驳的贡献

萨顿的"背叛"：强化学习之父亲手拆了"苦涩的教训"

1. 2026年5月，Sutton递出了一把刀

2. 生成认知：从"表征世界"到"与世界共舞"

2.1 表征主义 vs 生成认知：两条路线的根本分歧

2.2 四个支柱：经验、行动-感知不可分、自主性、具身性

3. 强化学习：最接近生成认知的AI范式，但还不够

4. 论文自身的矛盾：Sutton踩中了自己的两条铁律

4.1 "苦涩的教训" vs 生成认知

4.2 奖励假设 vs 自创生规范性

4.3 可能的调和策略

5. 11亿美元的红杉/英伟达/谷歌赌局：Sutton路线的商业化

6. 深层问题：生成认知是AI的"下一条曲线"，还是哲学安慰剂？

6.1 四个批判性问题

6.2 历史类比：两次AI寒冬的教训

7. 结论：Sutton在修正，还是在推翻？

7.1 三条遗产的继承与修正

7.2 论文的真正价值

7.3 最终评价

读完这篇，我只想问：Sutton老爷子是不是在写退休感言？

1. "批判LLM"变成了AI圈的全民运动，Sutton来得有点晚

2. 对RL的"结构共振"论述，是真诚的自我反思，还是精致的自我保护？

3. 论文最大的贡献，可能是给了"具身AI"一个哲学许可证

4. "苦涩的教训"的矛盾被轻轻放过了

5. 最致命的问题：enactive AI的product-market fit在哪里？

6. 一个大胆的猜测：这篇论文的真正受众不是AI研究者，而是投资人

但有一说一，这篇论文有一个无法反驳的贡献

🌟 智谱 GLM-5 已上线