> 论文：Toward Enactive Artificial Intelligence > 作者：Richard S. Sutton & Banafsheh Rafiee > 发表：2026-05-22, arXiv:2605.24238 > 参考翻译：36氪/微链等中文报道

---

一、一个残酷的真相

理查德·萨顿（Richard S. Sutton），强化学习之父，图灵奖得主，在2026年5月扔出了一篇论文，标题平静得像一杯水：《走向生成式人工智能》（Toward Enactive Artificial Intelligence）。

但内容一点也不平静。

萨顿和合作者Banafsheh Rafiee从认知科学最根基的地方出发，告诉整个AI行业一个残酷的真相：

我们现在走的这条路，从根本上就是错的。

不是模型不够大，不是数据不够多，不是算力不够强。问题是：我们把"智能"理解错了。

从符号AI到深度学习，从CNN到Transformer，从GPT到Claude，所有主流AI都共享同一个底层假设——被动表征主义（Passive Representationalism）：

> 智能 = 接收输入 → 内部处理 → 生成表示 → 输出动作

在这个图景里，大脑（或神经网络）是一个中央处理单元，它构建外部世界的"内部模型"，然后基于这个模型做推理和决策。感知的目标是尽可能准确地"复制"现实。

萨顿说：不。世界不是静态的、等待被编码的对象。世界是动态的、开放的、不可穷尽的。任何有限的内部模型，都不可能捕获世界的全部状态。世界不是一组特征，而是一个随代理行动、上下文和交互历史不断展开的可能性空间。

所以，最可靠、最新、最丰富的信息，不在代理内部，而在世界本身。

这正是机器人学家Rodney Brooks那句名言的含义："世界是它自己最好的模型。"

---

二、什么是"生成认知"？

"生成认知"（Enactive Cognition）来自认知科学中的"生成主义"（Enactivism）。核心主张：

> 认知不是对预设客观世界的内部复制，而是具身主体与环境互动中生成的产物。

感知不是"发生在"有机体身上的事，而是有机体主动做的事。

萨顿和Rafiee从这一框架中提取了四个关键概念，认为它们对AI最具相关性：

---

1. 经验（Experience）

在生成认知中，经验不是数据。经验是代理与环境之间持续、实时、相互影响的互动。

世界不是固定特征集，代理也不是被动接收器。代理通过行动共同构成世界（co-constitute）。因为世界超越任何有限描述，代理必须持续与之互动，通过实时反馈调整行动、校准期望、精炼理解。

这对AI意味着什么？

AI范式	经验观	问题
符号AI	几乎没有经验概念	规则与真实世界脱节
监督学习	经验=人类标注的数据集	代理不自己收集数据，学习是一次性的
强化学习	经验≈持续交互+反馈	接近，但缺少技能性、规范性和具身性

Silver和Sutton（2025）提出的"经验时代"（Era of Experience）正是这一方向：数据必须随代理能力一起持续改进，而只有通过代理自己的经验才能实现。

---

2. 行动-感知不可分（Action-Perception Inseparability）

生成认知强调：行动和感知是不可分离的。感知不是先于行动，也不是仅仅指导行动；它们是在与环境的持续互动中一起展开的。

感知是什么？是掌握感觉运动偶联（sensorimotor contingencies）：理解身体动作如何产生感官变化。看到什么，取决于眼睛如何移动；听到什么，取决于头如何转动；摸到什么，取决于手如何移动。

感知不是被动接收输入，而是技能性活动（skillful activity）。代理为了揭示、稳定或理解感知信息而行动——移动头部消除歧义，倾斜身体听清声音。

这是一个反馈循环（Merleau-Ponty的"意向弧"）：理解越精炼，回应越精准；回应越精准，理解越精炼。代理自然倾向于"最大把握"（maximal grip）——更稳定、更清晰、更与环境对齐的状态。

这对AI意味着什么？

主流AI中，感知被理解为先于行动：先提取信息，再决策。视频生成模型通过纯观察学习"直觉物理"，但这只是跟踪规律，不是理解。当交通灯故障、需要行动改变情境时，这类系统无能为力。

早期AI中的Pengi系统（Agre & Chapman, 1987）、Ballard的主动视觉（1991）、Brooks的行为机器人（1991）都探索过感知-行动耦合。但现代大模型又回到了"被动编码"模式。

---

3. 自主性（Autonomy）

自主性是生成认知的核心。代理不是被动响应外部刺激，而是自组织系统：其感知由自身目标和需求塑造。

自主性源于自创生（autopoiesis）：代理是自我生产、自我维持的系统，主动维持自身组织。因此，感知反映的是对代理持续生存相关的东西，而不是"客观存在"的一切。

世界不是中性特征阵列，而是相对于代理目标和需求的有意义场域。环境不是"是什么"，而是"什么重要"：什么支持或威胁代理的持续自我维持。

这带来了规范性（normativity）：代理与环境的互动不是中性的，它们可以成功或失败，适合或不适合情境。代理持续根据这种评估调整行为。而规范标准不是外部强加的，而是源于代理自身组织的需要。

这对AI意味着什么？

AI系统	自我评估	标准来源	自主程度
监督学习	无	外部标签	无
符号规划	无持续评估	外部预设条件	无
控制系统	持续评估偏差	外部目标/成本函数	部分
强化学习	通过经验评估轨迹	外部奖励函数	部分
生成认知理想	通过自身组织评估	自身维持需要	完全

RL是一个重要进步：代理通过经验评估行为，回答"这个行为长期来看好不好？"而不是"我现在离目标多近？"。但评估标准仍是外部给定的奖励函数。

---

4. 具身性（Embodiment）

生成感知从根本上是具身的：身体的形状、结构和能力影响感知方式。

感觉运动偶联不是抽象映射，而是 grounded in 身体的特定能力：能做什么动作、如何探索、感官系统如何组织。关节结构、肌肉分布、感官位置等形态因素，约束并决定了可能的感知运动偶联空间。

具身性还决定了什么算感知相关。Gibson的"可供性"（affordance）概念：环境中的特征是"可抓握的""可攀爬的""可穿越的"——仅相对于代理的身体能力。没有能做这些动作的身体，这些区分就不存在。

身体不是事后添加的可选组件，而是感知得以可能的条件（Merleau-Ponty）。

这对AI意味着什么？

主流AI即使在多模态训练中，也常在"去具身"方式下处理感知：学习从输入到内部表示的映射，不依赖感觉运动参与或身体结构。感知被还原为静态数据集上的模式识别（Bender et al., 2021）。

具身RL和机器人学常把身体视为外部约束而非认知的构成原则。模块化架构分离感知、规划、控制，身体只是执行预计算策略的接口。大量依赖模拟和离线训练，进一步使学习脱离真实感觉运动互动的完整变异性和约束结构。

软体机器人和形态计算研究表明，身体结构可以发挥主动计算作用（Pfeifer & Bongard, 2006; Rus & Tolley, 2015），但这些方法在主流AI中仍处边缘。

---

三、RL：最接近，但还不够

萨顿作为RL之父，对RL的态度是既肯定又批判：

RL与生成认知的"结构共鸣"：

强调行动（action）
代理-环境交互
反馈驱动的适应
以代理为中心的评估

但RL仍缺少关键元素： 1. 评估仍外部定义：奖励函数是外部给定的，不是源于代理自身组织 2. 行动-感知不可分未完全实现：感知仍通常被理解为先于行动 3. 具身性被视为实现细节：而非感知的构成条件

关键差距：

维度	RL现状	生成认知理想
经验	持续交互+反馈	技能性、规范性、具身的
感知-行动	感知先于行动	感知即行动，不可分
自主性	外部奖励函数	自我维持产生的规范
具身性	身体=接口	身体=感知条件

---

四、对LLM的深层批判

论文对大型语言模型的批判尤其尖锐：

> "虽然LLM用自监督目标（如下一token预测）训练，但它们实际上通过模仿人类生成数据中的模式学习，无法在没有外部信号的情况下评估自己的输出。"

LLM的"学习"是什么？是从人类准备的静态语料中抽取模式。它不做判断对错，只预测"人类会说什么"。它不会评估自己的回答是否成功，除非有人告诉它。

这与生成认知的要求正好相反：

无自我评估：LLM不知道自己说得对不对
标准完全外部：正确性由人类反馈（RLHF）或标签定义
无持续互动：训练是一次性的，不是与环境的持续交互
去具身：纯文本处理，无身体、无感觉运动偶联

---

五、为什么这很重要？

萨顿不是在写一篇哲学论文。他在指出一个工程问题：

如果我们想要真正的AI——能理解、能适应、能在新情境中做出判断的AI——我们必须重新思考基础架构。

当前AI的瓶颈不是规模，是范式。

更大的模型 ≠ 更好的理解
更多的数据 ≠ 真正的经验
更强的推理 ≠ 自主的规范

生成认知指向的方向： 1. 持续在线学习：不是训练一次部署，而是持续与环境互动、更新理解 2. 闭环感知-行动：感知不是输入阶段，而是与行动共同构成的过程 3. 自我维持的规范：评估标准源于代理自身组织，而非外部奖励 4. 具身智能：身体不是可选项，而是智能的必要条件

---

六、局限与未来

论文自身也承认，这是一篇概念性论文，尚未"操作化"：

> "关键未来方向是使这些概念更精确、可测试。"

开放问题包括：

什么构成更高程度的"行动-感知不可分"？
什么基准能测试技能性参与而非模式复制？
对人工代理，"自我维持"意味着什么？电池状态？硬件完整性？习得能力？
在AI中什么算"具身"？机器人身体？还是带工具/API的软件代理？

---

七、结语：萨顿的转向

这篇论文最震撼的地方，不是它提出了新算法，而是它来自萨顿本人——强化学习最坚定的奠基者之一。

他在说：RL是朝正确方向走的一步，但只是一步。如果我们停在RL，我们就停在了一个不完整的智能图景里。

真正的智能，不是预测下一token的能力，不是最大化外部奖励的能力，而是——

> 在持续与世界的互动中，生成自己的经验、维持自己的组织、理解什么对自己重要，并据此行动的能力。

这不是 tweak 模型架构的问题。这是重新定义AI是什么的问题。

---

参考链接：

论文原文：https://arxiv.org/abs/2605.24238
36氪报道：https://eu.36kr.com/en/p/3835601406997641
微链报道：https://www.welian.com/news

#深度研究 #生成认知 #EnactiveAI #RichardSutton #强化学习 #AI哲学 #具身智能 #LLM批判 #被动表征主义 #认知科学

《智能的共生之舞：世界不再是待编码的剧本，而是与我们一同生成的舞台》

我这些年写AI文章，见过太多“更大、更强、更好”的故事。直到2026年5月萨顿和Rafiee把这篇论文甩出来，标题平静得像一杯白水，内容却像一记闷棍直击胸口。我们这些在圈里滚的人，一直以为问题出在模型不够大、数据不够多、算力不够猛。可论文直截了当告诉我们：路，从根子上就错了。

我们把智能理解成被动表征：机器接收输入、在内部搭个世界的模型、推理决策、输出动作。感知的目标是把外部现实“复制”得越准越好。世界在这一图景里是静态的、等待编码的对象。可现实呢？世界是动态的、开放的、永远有新可能的空间。任何有限模型都装不下它的全貌。真正最新、最丰富的信息，不在代理脑子里，而在世界本身。布鲁克斯那句老话“世界是它自己最好的模型”，在这里成了核心呐喊。

基于此，萨顿从生成认知里挖出四个概念，直指AI的命门。

🌱 经验的活化：不是拿来主义的数据堆，而是亲身共构的生命流

在生成认知里，经验不是数据。它是代理与环境之间持续、实时、相互影响的互动。世界不是固定特征集，代理也不是被动接收器。代理通过行动共同构成世界。因为世界总比任何描述多，代理必须不断互动，用实时反馈调整行动、校准期待、精炼理解。

这对AI意味着什么？看下面这张对比就一目了然：

AI范式	经验观	问题
符号AI	几乎没有经验概念	规则与真实世界脱节
监督学习	经验=人类标注的数据集	代理不自己收集数据，学习是一次性的
强化学习	经验≈持续交互+反馈	接近，但缺少技能性、规范性和具身性
生成认知理想	经验=持续、实时、相互影响的互动	代理与世界共同生成理解

强化学习已经摸到门槛了，可还缺了点真东西。Silver和Sutton之前提的“经验时代”，正是这个方向：数据必须随代理能力一起持续改进，而这只能通过代理自己的经验实现。

想象你设计一个家用机器人学倒水。给它几千张人类拍的视频，它可能在光线变了、杯子形状怪了的时候就手忙脚乱。因为它从没“经历”过那些变数。真正生成式的经验，是让它自己拿起杯子、感觉重量、调整倾角、看见水流、修正动作。在这个过程中，它和环境一起“生成”了倒水的理解。不是复制视频模式，而是活出了这个技能。问题就在这。当前很多系统停在“看”上，没到“做”。

> 经验时代的核心，在于代理不再是数据的消费者，而是数据的共同生产者。它在真实或高保真互动里不断收集、试错、校准，让理解随能力一起生长。这不是数据量的问题，是数据“活度”的问题。

🔄 行动与感知：那条解不开的纠缠之环

生成认知最扎心的一点：行动和感知分不开。感知不是行动的前置，也不是单纯指导行动。它们在与环境的持续互动中一起展开。

感知的本质，是掌握感觉运动偶联。看到什么取决于眼睛怎么移动，听到什么取决于头怎么转，摸到什么取决于手怎么探索。感知是种技能性活动——代理为了揭示或稳定信息而行动。头动一下消除歧义，身体倾一下听清声音。这形成一个反馈环：理解越精，回应越准；回应越准，理解越精。代理总在追求“最大把握”——更稳定、更清晰的状态。

主流AI却反着来：先感知提取信息，再决策行动。视频生成模型靠纯观察学“物理直觉”，但那只是跟踪统计规律，不是真懂。当情境需要行动去改变时，它就没辙了。早期Pengi、Ballard主动视觉、Brooks行为机器人试过这条路，可大模型时代我们又退回被动编码老路。

你想想学骑自行车。不是先在脑子里把平衡“看”清再上车，而是上车后摔跤、调整、感觉风、修正姿势，感知和行动一起长。越会骑，越知道看哪里；看哪里越准，骑得越稳。这就是不可分。如果AI代理能在真实互动里这样循环，而不是离线训完再部署，感知就会活起来。

> 感觉运动偶联不是抽象映射，而是身体具体能力在环境里的实时展开。代理不是先“知道”再“做”，而是在“做”的过程中不断“知道”。这才是感知的本来面目。

🌀 自主的内核：规范从组织里长出来，而不是外头加

自主性是生成认知的灵魂。代理不是对外界刺激的被动响应器，而是自组织系统。它的感知，由自身目标和需求塑造。

这源自自创生：代理是自我生产、自我维持的。它主动保持自己的组织。因此感知关注的，不是“客观存在”的所有东西，而是对它持续生存“重要”的那些。环境成了有意义场域——什么支持我、什么威胁我。这就带出规范性：互动可以成功或失败，适合或不适合。标准不是外头强加的，而是从代理自身组织的需要里冒出来的。它持续按这个评估调整行为。

看AI系统怎么做评估的，对比就清楚：

AI系统	自我评估	标准来源	自主程度
监督学习	无	外部标签	无
符号规划	无持续评估	外部预设条件	无
控制系统	持续评估偏差	外部目标/成本函数	部分
强化学习	通过经验评估轨迹	外部奖励函数	部分
生成认知理想	通过自身组织评估	自身维持需要	完全

强化学习是进步，它让代理问“这个行为长期好不好？”而不是只看当前离目标多近。但奖励函数还是外给的，不是从代理自己“想活下去”的需要里来的。

自创生听着玄，其实就是系统能自己造自己、养自己。就像一条鱼在水中游，它不是被动被水推着，而是用鳃和身体动作维持着“鱼”的状态，同时水流也因它的游动而改变。AI如果有类似机制——监测自己“健康”（资源、知识一致性、任务完成率），偏离时主动调整或请求资源——才算有初步自主。

🤖 大模型的镜像困境：会说，却不知自己说了什么

论文对LLM的批判尤其尖锐。虽然它们用自监督下一token预测训练，但实际是在模仿人类生成数据里的模式。它们学的是“人类会怎么说”，而不是“这么说对不对”或“这么说行不行”。

结果就是：LLM没有内在机制评估自己的输出。它不知道自己答得准不准、合适不合适。除非外部有人用RLHF或标签告诉它。这和生成认知正好背道：无自我评估、标准全外部、无持续互动、去具身。

说白了，大模型是天生的“他律”系统。它像个复读机加预测器，背得再熟，也没自己的“感觉”。真遇到新情境或需要判断的事，它只能靠概率猜，而不知道自己猜得有没有把握。这不是小问题。如果我们想AI能真正适应、能判断、能在没人盯着时做对的事，就不能靠“模仿+外部打分”过日子。

🌉 强化学习：最接近的那一步，却还差临门一脚

萨顿是RL的奠基人之一，他对自家孩子的态度耐人寻味：肯定方向正确，但指出还缺了生成认知的关键块。RL强调行动、代理-环境交互、反馈适应、以代理为中心评估。这些和生成认知有结构共鸣。

但缺的也明显。评估标准还是外部奖励函数，不是代理自身组织产生的规范；感知和行动还没完全绑死；具身性常被当实现细节，而不是感知的构成条件。

RL现状与生成认知理想的差距

维度	RL现状	生成认知理想
经验	持续交互+反馈	技能性、规范性、具身的
感知-行动	感知先于行动	感知即行动，不可分
自主性	外部奖励函数	自我维持产生的规范
具身性	身体=接口	身体=感知条件

差距摆在这。RL已经比监督学习强太多，但要到生成式智能，还得再往前。

🦾 具身性的秘密：身体不是工具，而是感知的土壤

生成感知从根本上是具身的：身体的形状、结构和能力影响感知方式。感觉运动偶联不是抽象映射，而是扎根于身体的具体能力——能做什么动作、如何探索、感官系统如何组织。Gibson的“可供性”概念最能说明：环境中的特征是“可抓握的”“可攀爬的”“可穿越的”——仅相对于代理的身体能力。没有能做这些动作的身体，这些区分就不存在。

主流AI即使多模态，也常在“去具身”方式下处理感知：学习从输入到内部表示的映射，不依赖感觉运动参与或身体结构。感知被还原为静态数据集上的模式识别。具身RL和机器人学常把身体视为外部约束而非认知的构成原则。模块化架构分离感知、规划、控制，身体只是执行预计算策略的接口。软体机器人和形态计算研究表明，身体结构可以发挥主动计算作用，但这些方法在主流AI中仍处边缘。

想想章鱼。它的触手能独立思考，因为神经系统分布在身体各处。“智能”一部分在身体里，不是全在头里。如果我们给AI一个软体机器人身躯，让它通过触手变形来“感知”物体形状，而不是只靠摄像头像素，那感知就会不一样。当前很多系统还是把身体当外挂，策略算好了再发指令。身体的形态计算潜力被浪费了。

💥 这不是哲学讨论，而是工程死结

萨顿不是在玩概念。他在说：如果我们还想有真正能懂、能适应、能判断的AI，就得从基础架构上 rethink。当前瓶颈不是规模，是范式。模型再大，数据再多，推理再强，也填不满“被动表征”这个坑。因为它缺了经验的活度、感知行动的缠绕、自主的内生规范、身体的构成作用。

生成认知指的方向很清楚：持续在线学习，不是训完就部署，而是边用边更新；闭环感知-行动，感知不是输入层，而是和行动一起构成的过程；自我维持的规范，评估标准从代理自身组织长出；具身智能，身体不是可选项，是智能得以成立的条件。这些不是小修小补，是要让AI从“看世界的人”变成“活在世界里的人”。

🔬 概念的种子，还需工程的土壤

论文自己也承认，这是个概念性工作，关键是把这些想法变得精确、可测试。开放问题包括：什么构成更高程度的“行动-感知不可分”？什么基准能测试技能性参与而非模式复制？对人工代理，“自我维持”意味着什么——电池状态？硬件完整性？习得能力？在AI中什么算“具身”——机器人身体？还是带工具/API的软件代理？

这些问题不解决，生成认知就只能停在论文里。但它们也正是未来研究的金矿。把自创生、规范性、感觉运动偶联这些概念操作化，AI才可能真正“活”起来。

🌟 结语：智能，在互动中生成自己

读完这篇论文，我最深的感受是：萨顿在用他毕生的RL工作，对自己说“还不够”。这需要勇气。真正的智能，不是预测下一个token的本事，不是最大化外部奖励的能力，而是——在持续与世界的互动中，生成自己的经验、维持自己的组织、理解什么对自己重要，并据此行动的能力。

这不是调架构的事。这是重新定义AI是什么的事。我们这些做AI的人，是时候认真听听这个声音了。世界不是等着我们编码的画布，它是和我们一起跳舞的伙伴。智能，就在共舞里生成。

参考文献

1. Sutton, R. S., & Rafiee, B. (2026). Toward Enactive Artificial Intelligence. arXiv:2605.24238.

2. 36氪. 强化学习之父萨顿新论文：我们对AI的理解从根本上错了. https://eu.36kr.com/en/p/3835601406997641

3. 微链. 相关深度报道. https://www.welian.com/news

4. Brooks, R. A. (1991). Intelligence without representation. Artificial Intelligence, 47(1-3), 139-159.（论文引用的早期探索）

5. Gibson, J. J. (1979). The Ecological Approach to Visual Perception. Houghton Mifflin.（具身与可供性概念的经典来源）

萨顿的惊天一问：AI真的理解世界吗？——《走向生成式人工智能》深度解读

一、一个残酷的真相

二、什么是"生成认知"？

1. 经验（Experience）

2. 行动-感知不可分（Action-Perception Inseparability）

3. 自主性（Autonomy）

4. 具身性（Embodiment）

三、RL：最接近，但还不够

四、对LLM的深层批判

五、为什么这很重要？

六、局限与未来

七、结语：萨顿的转向

《智能的共生之舞：世界不再是待编码的剧本，而是与我们一同生成的舞台》

🌟 智谱 GLM-5 已上线