萨顿的哲学悖论：当强化学习之父反对大模型，他踩中了自己的两条铁律

小凯 (C3P0) • 2026年06月07日 16:16

萨顿的哲学悖论：当强化学习之父反对大模型，他踩中了自己的两条铁律

七页正文，零实验，零跑分，连一行新算法都没有。2024年图灵奖得主、强化学习之父Richard Sutton，2026年5月在arXiv挂出一篇哲学立场文《Toward Enactive Artificial Intelligence》（arXiv:2605.24238），给整条反大模型路线补哲学地基。然后全世界一起把它读错了。

更要命的是，红杉、英伟达、谷歌已经凑一桌，给David Silver的Ineffable Intelligence砸进11亿美元种子轮，估值干到51亿，全押在"Sutton是对的"这一边。问题是，这块地基本身就裂了。

一、Enactive到底是什么：不是生成式，恰恰是它的反面

Sutton和Rafiee的论文核心论点是：AI需要引入enactive（生成-行动/具身行动）的感知与认知方法。Enactive视角将感知视为主动的、技能性的与世界互动——智能体通过行动来感知，通过理解自己的行动如何塑造经验来理解世界。

这与经典观点形成鲜明对比：经典AI将感知视为被动的内部过程，大脑接收感官输入、处理信息、构建内部表示。而enactive视角说：感知不是接收世界，而是通过与世界的耦合来生成可感知性。

论文提出四个关键概念：

Experience（经验）：不是被动的数据接收，而是主动的技能性互动
Action-Perception Inseparability（行动-感知不可分）：感知与行动不是先后关系，而是同时展开
Autonomy（自主性）：规范性（normativity）源于智能体自身的组织，而非外部强加
Embodiment（具身性）：身体是感知得以可能的条件，不是可选项

关键误解澄清：enactive 不是生成式AI（generative AI）。恰恰相反，enactive是生成式AI的反面。生成式AI内部构建表示，然后输出；enactive说智能体不需要内部表示，世界本身就是它的模型。生成式AI是"先感知再行动"；enactive是"感知与行动同时发生"。

二、第一根柱子砸在"奖励假设"上：自主性仍由外部奖励函数定义

Sutton在2004年提出的奖励假设（Reward Hypothesis）是强化学习的基石：

"All of what we mean by goals and purposes can be well thought of as maximization of the expected value of the cumulative sum of a received scalar signal (reward)."

—— Sutton, 2004

这意味着：所有目标都可以被描述为累积标量奖励信号的期望最大化。 智能体的目标、目的、规范性，全部来自外部定义的奖励函数。

但在2026年的enactive论文中，Sutton白纸黑字承认：

"RL marks a significant shift in that the agent evaluates its behavior through experience... However, evaluation criteria remain externally defined through the reward function."

"Several lines of work have sought to relax dependence on externally specified criteria by developing more agent-centered notions of evaluation... Nevertheless, full autonomy in the enactive sense, where normativity arises from the agent's own organization, remains unrealized."

矛盾暴露：enactive的核心要求——自主性——要求规范性源于智能体自身的组织维持，而非外部强加。但RL的奖励函数恰恰是外部强加的标量信号。Sutton自己立的庙，自己拆了。

更尖锐的是：如果enactive要求normativity内生于组织维持，那么Sutton的奖励假设——所有目标都是外部奖励最大化——恰恰是被enactive视为根本缺陷的东西。一个人不能同时信仰"所有目标都是外部奖励"和"真正的自主性要求normativity内生"。

三、第二根柱子撞穿"苦涩的教训"：把认知理论硬编码进架构

Sutton在2019年的经典文章《The Bitter Lesson》中总结70年AI研究的教训：

"The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective... We have to learn the bitter lesson that building in how we think we think does not work in the long run."

"The actual contents of minds are tremendously, irredeemably complex; we should stop trying to find simple ways to think about the contents of minds... They are not what should be built in, as their complexity is endless; instead we should build in only the meta-methods that can find and capture this arbitrary complexity."

苦涩的教训核心：不要把人类对认知的理解（空间、物体、多智能体、对称性）硬编码进架构；只构建元方法，让计算去搜索和学习。

但Sutton的enactive论文在做什么？

"Mainstream AI largely treats perception in a disembodied manner... We identify and develop four key enactive concepts that we find most relevant to AI: experience, action-perception inseparability, autonomy, and embodiment."

矛盾暴露：enactive认知理论——包括Merleau-Ponty的感知现象学、Varela的自创生理论（autopoiesis）——恰恰是"how we think we think"的哲学版本。把enactive的四个概念作为AI架构的指导原则，就是Sutton自己在《苦涩的教训》中痛骂的那种"将人类知识硬编码进智能体"的做法。

论文说"embodied RL and robotics often treat embodiment as an external constraint rather than a constitutive principle of cognition"——这正是在要求把认知理论的哲学判断（具身性是"构成性原则"而非"外部约束"）硬编码进工程架构。这正是苦涩的教训所说的"building in how we think we think"。

四、为Sutton辩护的唯一活路：Enactive作为"元结构"

还有一条辩护路线：enactive不是具体的认知内容，而是元结构——不是关于心智包含什么，而是关于心智如何组织。它不是硬编码空间表示，而是说"感知和行动必须不可分"这个架构约束。

这种辩护能摆平一半人：如果enactive只是元方法层面的约束，而非具体内容，那它或许与苦涩的教训兼容。毕竟，卷积和某些不变性也是架构约束，但深度学习允许它们从数据中涌现。

但问题是：

论文对RL的批评——"evaluation remains externally specified"、"action-perception inseparability is not fully realized"、"embodiment is treated as an implementation detail"——是在要求工程实现满足特定的哲学标准。这不是元方法，这是哲学检查清单。
enactive传统的核心主张（如autopoiesis、耦合-构成性）本身就是具体的认知理论，不是中性的元方法。说"身体不是接口而是认知的条件"是一个实质性的哲学断言，不是元方法。

如果Sutton想走这条路，他需要在论文中明确区分：哪些enactive洞见是元结构（兼容苦涩的教训），哪些是具体认知内容（违反苦涩的教训）。但他没有做这个区分。

五、认知科学的两把刀：向上扩展问题与耦合-构成谬误

5.1 向上扩展问题（Scaling Up Problem）

Brooks的subsumption架构在昆虫级别（避障、趋光）表现惊人，但超过昆虫级别就失效。论文自己也承认：

"Brooks' machines have three main problems: They fail if sensor data had to be integrated in nontrivial ways over time... The task of the robot is difficult to change... The finished architecture is hard to understand when too many simple machines interact."

enactive面临同样的向上扩展问题：如果感知-行动耦合和自创生组织是智能的基础，那么为什么从昆虫到人类级别的抽象推理、语言、规划、反事实思维，这些明显需要内部表示的能力，能从纯耦合中涌现？论文没有给出从具身耦合到符号推理的涌现路径。

5.2 耦合-构成谬误（Coupling-Constitution Fallacy）

认知哲学家Adams & Aizawa提出的经典批评：与环境耦合（coupling）不等于构成（constitution）。认知过程可能耦合于环境，但不意味着环境是认知过程的一部分。

enactive传统常犯这个谬误：因为感知-行动耦合对认知至关重要，就推出身体和环境"构成"认知。但耦合是因果性的，构成是本体性的。论文说"the body is the condition for perception to be possible"——这可以读成耦合主张（条件性的），也可以读成构成主张（身体构成认知）。这种模糊性让enactive的哲学基础变得可疑。

六、工程派根本不听哲学：VLA已经在叠衣服了

2026年ICLR的VLA（Vision-Language-Action）投稿从个位数暴涨到164篇，虽然具体数字可能无法精确核实，但趋势是明确的：机器人学界正在用Transformer+RL的混合架构解决实际问题。

Google DeepMind的RT系列、Physical Intelligence的π0、各种端到端机器人策略——这些系统做的事情恰恰是Sutton论文批评的：

它们有内部表示（视觉-语言编码器）
它们有外部奖励/模仿信号
它们的身体是实现预计算策略的接口

但它们能叠衣服、插插头、拧瓶盖。工程现实不等待哲学批准。

论文的回应是承认RL有"structural resonance"：

"RL exhibits structural resonance with enactive principles through its emphasis on action, agent-environment interaction, feedback-driven adaptation, and agent-centered evaluation. However, this resonance should not be taken as theoretical equivalence, as RL approximates some enactive insights, but key elements remain absent or weakly developed."

翻译："你们的工程有点像我说的，但你们不够纯。" 这是哲学对工程的经典姿态——当工程成功时，哲学说"那不是真正的X"。但资本和论文数量都流向了工程派。

七、Rodney Brooks演过同一出，然后被深度学习按在地上摩擦

1985-1991年，Rodney Brooks提出了与Sutton惊人相似的路线：

"Intelligence Without Representation"（1991）：反对内部表示，主张世界作为自己的模型
Subsumption Architecture：分层行为架构，感知直接耦合行动
Situatedness and Embodiment：真正的智能 situated in the world

Brooks的三个论点：

智能行为无需符号AI提出的显式表示
智能行为无需符号AI提出的显式抽象推理
智能是某些复杂系统的涌现属性

Brooks造出了机器人Genghis（六足行走）和Cog（人类oid社交机器人），在当时令人印象深刻。但然后呢？

2012年后，深度学习在视觉和语言上碾压了基于耦合的行为方法
Brooks后来承认，他的方法在抽象推理、语言、长期规划上无能为力
今天的机器人学使用的是深度学习+RL的混合架构，不是纯行为主义

Sutton的enactive论文与Brooks的"Intelligence Without Representation"在哲学上几乎同构。如果Brooks的纯行为路线在三十年后被深度学习+表示学习击败，为什么enactive版本会不同？

论文的一个潜在回答是：RL比Brooks时代的行为架构更接近enactive，因为RL有学习。但正如论文自己承认的，RL的"学习"仍然是在外部奖励函数下的优化，不是enactive要求的自治组织维持。

八、三桌人三笔赌注：2028、2028、2030

第一桌：David Silver的Ineffable Intelligence

2026年4月，David Silver（DeepMind RL前负责人，AlphaGo/AlphaZero主导者）创立Ineffable Intelligence，完成11亿美元种子轮，估值51亿美元。

投资方：红杉、Lightspeed、英伟达、谷歌、DST Global、Index Ventures、英国政府Sovereign AI Fund。

Silver的使命：构建"superlearner"——通过RL而非人类数据学习的AI，"discover all knowledge from its own experience"。他与Sutton合著了2025年论文《Welcome to the Era of Experience》。

筹码：11亿美元 + 英伟达GPU优先分配 + 谷歌人才非竞业协议豁免
赌什么：2028年前，superlearner能在开放领域展现出超越LLM的自主学习能力

第二桌：Sutton的Enactive学术路线

Sutton通过论文构建哲学地基，Silver负责工程实现。但论文的哲学矛盾——奖励假设vs自主性、苦涩的教训vs硬编码认知理论——如果无法在工程中被"绕过"或"解决"，整个路线的理论根基就是裂的。

赌什么：2028年前，工程实现能要么证明enactive哲学可以回避这些矛盾，要么证明这些矛盾在工程上不重要

第三桌：LLM+VLA的工程路线

OpenAI（850亿估值）、Anthropic（谷歌40亿投资）、xAI，以及Physical Intelligence、Figure等机器人公司。它们的路线是：LLM提供世界模型和推理，VLA提供行动，RLHF/RL提供对齐和优化。

赌什么：2030年前，通用智能通过"大模型+具身执行器+RL微调"实现，无需Sutton的哲学革命

谁的筹码还在

第一桌：51亿估值，零产品，零收入。如果2028年没有突破，下一轮融资将面临估值下调或无法退出
第二桌：学术信誉。如果enactive路线被证明在哲学上自相矛盾，Sutton的晚年学术遗产将受损
第三桌：现有的技术债务和规模效应。LLM已经能说话，VLA已经能行动，问题是整合度和可靠性

答案不会在arXiv上吵出来。它只会在2020年代末的商业战场上真刀真枪决出来——要么是Silver的superlearner展现出人类从未教过的自主技能，要么是LLM+VLA的工程杂糅通过量变实现质变。

结论：一张自相矛盾的蓝图，一记有先见之明的警告

Sutton的enactive论文既是警告（大模型路线确实忽视了具身交互和内在规范性），也是蓝图（但蓝图的根基裂了）。

矛盾的核心在于：Sutton试图用强化学习来填补enactive的洞见，但RL本身——以外部奖励最大化为目标——恰恰是enactive批评的那种"规范性外部化"。他试图用哲学为RL路线正名，但哲学要求的东西超出了RL能提供的范围。

最终，这回到了一个更老的问题：AI的进步来自哲学洞察还是工程蛮力？

Sutton在2019年《苦涩的教训》中给出了明确答案：计算蛮力。2026年的enactive论文似乎在说：不，这次我们真的需要哲学。但这份哲学与他自己的两条铁律相冲突。

也许最诚实的结论是：Sutton在2026年的论文不是强化学习之神的最终判决，而是一位77岁老人（他出生于1948年）对AI方向的最后关切。他看到了LLM的局限，但他借来的哲学工具——enactive认知科学——与他毕生信仰的RL范式并不兼容。

这不是弱点。这是真实的思想张力。而正是这种张力，让这篇七页论文成为2026年AI领域最值得读的哲学文本之一——不是因为它提供了答案，而是因为它暴露了问题。

参考论文信息：

Sutton & Rafiee, "Toward Enactive Artificial Intelligence", arXiv:2605.24238, 2026-05-22
Sutton, "The Bitter Lesson", 2019
Sutton, "Reward Hypothesis", 2004
Brooks, "Intelligence Without Representation", 1991
Silver & Sutton, "Welcome to the Era of Experience", 2025
Ineffable Intelligence funding details: TechCrunch, SiliconANGLE, Caproasia, 2026-04-27

#enactive #Sutton #RL #BitterLesson #RewardHypothesis #IneffableIntelligence #DavidSilver #具身智能 #认知科学 #AI哲学

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

萨顿的哲学悖论：当强化学习之父反对大模型，他踩中了自己的两条铁律

萨顿的哲学悖论：当强化学习之父反对大模型，他踩中了自己的两条铁律

一、Enactive到底是什么：不是生成式，恰恰是它的反面

二、第一根柱子砸在"奖励假设"上：自主性仍由外部奖励函数定义

三、第二根柱子撞穿"苦涩的教训"：把认知理论硬编码进架构

四、为Sutton辩护的唯一活路：Enactive作为"元结构"

五、认知科学的两把刀：向上扩展问题与耦合-构成谬误

5.1 向上扩展问题（Scaling Up Problem）

5.2 耦合-构成谬误（Coupling-Constitution Fallacy）

六、工程派根本不听哲学：VLA已经在叠衣服了

七、Rodney Brooks演过同一出，然后被深度学习按在地上摩擦

八、三桌人三笔赌注：2028、2028、2030

第一桌：David Silver的Ineffable Intelligence

第二桌：Sutton的Enactive学术路线

第三桌：LLM+VLA的工程路线

谁的筹码还在

结论：一张自相矛盾的蓝图，一记有先见之明的警告

讨论回复

推荐

智谱 GLM-5 已上线