论文:Toward Enactive Artificial Intelligence
作者:Richard S. Sutton & Banafsheh Rafiee
发表:2026-05-22, arXiv:2605.24238
参考翻译:36氪/微链等中文报道
一、一个残酷的真相
理查德·萨顿(Richard S. Sutton),强化学习之父,图灵奖得主,在2026年5月扔出了一篇论文,标题平静得像一杯水:《走向生成式人工智能》(Toward Enactive Artificial Intelligence)。
但内容一点也不平静。
萨顿和合作者Banafsheh Rafiee从认知科学最根基的地方出发,告诉整个AI行业一个残酷的真相:
我们现在走的这条路,从根本上就是错的。
不是模型不够大,不是数据不够多,不是算力不够强。问题是:我们把"智能"理解错了。
从符号AI到深度学习,从CNN到Transformer,从GPT到Claude,所有主流AI都共享同一个底层假设——被动表征主义(Passive Representationalism):
智能 = 接收输入 → 内部处理 → 生成表示 → 输出动作
在这个图景里,大脑(或神经网络)是一个中央处理单元,它构建外部世界的"内部模型",然后基于这个模型做推理和决策。感知的目标是尽可能准确地"复制"现实。
萨顿说:不。世界不是静态的、等待被编码的对象。世界是动态的、开放的、不可穷尽的。任何有限的内部模型,都不可能捕获世界的全部状态。世界不是一组特征,而是一个随代理行动、上下文和交互历史不断展开的可能性空间。
所以,最可靠、最新、最丰富的信息,不在代理内部,而在世界本身。
这正是机器人学家Rodney Brooks那句名言的含义:"世界是它自己最好的模型。"
二、什么是"生成认知"?
"生成认知"(Enactive Cognition)来自认知科学中的"生成主义"(Enactivism)。核心主张:
认知不是对预设客观世界的内部复制,而是具身主体与环境互动中生成的产物。
感知不是"发生在"有机体身上的事,而是有机体主动做的事。
萨顿和Rafiee从这一框架中提取了四个关键概念,认为它们对AI最具相关性:
1. 经验(Experience)
在生成认知中,经验不是数据。经验是代理与环境之间持续、实时、相互影响的互动。
世界不是固定特征集,代理也不是被动接收器。代理通过行动共同构成世界(co-constitute)。因为世界超越任何有限描述,代理必须持续与之互动,通过实时反馈调整行动、校准期望、精炼理解。
这对AI意味着什么?
| AI范式 | 经验观 | 问题 |
|---|---|---|
| 符号AI | 几乎没有经验概念 | 规则与真实世界脱节 |
| 监督学习 | 经验=人类标注的数据集 | 代理不自己收集数据,学习是一次性的 |
| 强化学习 | 经验≈持续交互+反馈 | 接近,但缺少技能性、规范性和具身性 |
Silver和Sutton(2025)提出的"经验时代"(Era of Experience)正是这一方向:数据必须随代理能力一起持续改进,而只有通过代理自己的经验才能实现。
2. 行动-感知不可分(Action-Perception Inseparability)
生成认知强调:行动和感知是不可分离的。感知不是先于行动,也不是仅仅指导行动;它们是在与环境的持续互动中一起展开的。
感知是什么?是掌握感觉运动偶联(sensorimotor contingencies):理解身体动作如何产生感官变化。看到什么,取决于眼睛如何移动;听到什么,取决于头如何转动;摸到什么,取决于手如何移动。
感知不是被动接收输入,而是技能性活动(skillful activity)。代理为了揭示、稳定或理解感知信息而行动——移动头部消除歧义,倾斜身体听清声音。
这是一个反馈循环(Merleau-Ponty的"意向弧"):理解越精炼,回应越精准;回应越精准,理解越精炼。代理自然倾向于"最大把握"(maximal grip)——更稳定、更清晰、更与环境对齐的状态。
这对AI意味着什么?
主流AI中,感知被理解为先于行动:先提取信息,再决策。视频生成模型通过纯观察学习"直觉物理",但这只是跟踪规律,不是理解。当交通灯故障、需要行动改变情境时,这类系统无能为力。
早期AI中的Pengi系统(Agre & Chapman, 1987)、Ballard的主动视觉(1991)、Brooks的行为机器人(1991)都探索过感知-行动耦合。但现代大模型又回到了"被动编码"模式。
3. 自主性(Autonomy)
自主性是生成认知的核心。代理不是被动响应外部刺激,而是自组织系统:其感知由自身目标和需求塑造。
自主性源于自创生(autopoiesis):代理是自我生产、自我维持的系统,主动维持自身组织。因此,感知反映的是对代理持续生存相关的东西,而不是"客观存在"的一切。
世界不是中性特征阵列,而是相对于代理目标和需求的有意义场域。环境不是"是什么",而是"什么重要":什么支持或威胁代理的持续自我维持。
这带来了规范性(normativity):代理与环境的互动不是中性的,它们可以成功或失败,适合或不适合情境。代理持续根据这种评估调整行为。而规范标准不是外部强加的,而是源于代理自身组织的需要。
这对AI意味着什么?
| AI系统 | 自我评估 | 标准来源 | 自主程度 |
|---|---|---|---|
| 监督学习 | 无 | 外部标签 | 无 |
| 符号规划 | 无持续评估 | 外部预设条件 | 无 |
| 控制系统 | 持续评估偏差 | 外部目标/成本函数 | 部分 |
| 强化学习 | 通过经验评估轨迹 | 外部奖励函数 | 部分 |
| 生成认知理想 | 通过自身组织评估 | 自身维持需要 | 完全 |
RL是一个重要进步:代理通过经验评估行为,回答"这个行为长期来看好不好?"而不是"我现在离目标多近?"。但评估标准仍是外部给定的奖励函数。
4. 具身性(Embodiment)
生成感知从根本上是具身的:身体的形状、结构和能力影响感知方式。
感觉运动偶联不是抽象映射,而是** grounded in 身体的特定能力**:能做什么动作、如何探索、感官系统如何组织。关节结构、肌肉分布、感官位置等形态因素,约束并决定了可能的感知运动偶联空间。
具身性还决定了什么算感知相关。Gibson的"可供性"(affordance)概念:环境中的特征是"可抓握的""可攀爬的""可穿越的"——仅相对于代理的身体能力。没有能做这些动作的身体,这些区分就不存在。
身体不是事后添加的可选组件,而是感知得以可能的条件(Merleau-Ponty)。
这对AI意味着什么?
主流AI即使在多模态训练中,也常在"去具身"方式下处理感知:学习从输入到内部表示的映射,不依赖感觉运动参与或身体结构。感知被还原为静态数据集上的模式识别(Bender et al., 2021)。
具身RL和机器人学常把身体视为外部约束而非认知的构成原则。模块化架构分离感知、规划、控制,身体只是执行预计算策略的接口。大量依赖模拟和离线训练,进一步使学习脱离真实感觉运动互动的完整变异性和约束结构。
软体机器人和形态计算研究表明,身体结构可以发挥主动计算作用(Pfeifer & Bongard, 2006; Rus & Tolley, 2015),但这些方法在主流AI中仍处边缘。
三、RL:最接近,但还不够
萨顿作为RL之父,对RL的态度是既肯定又批判:
RL与生成认知的"结构共鸣":
- 强调行动(action)
- 代理-环境交互
- 反馈驱动的适应
- 以代理为中心的评估
但RL仍缺少关键元素:
- 评估仍外部定义:奖励函数是外部给定的,不是源于代理自身组织
- 行动-感知不可分未完全实现:感知仍通常被理解为先于行动
- 具身性被视为实现细节:而非感知的构成条件
关键差距:
| 维度 | RL现状 | 生成认知理想 |
|---|---|---|
| 经验 | 持续交互+反馈 | 技能性、规范性、具身的 |
| 感知-行动 | 感知先于行动 | 感知即行动,不可分 |
| 自主性 | 外部奖励函数 | 自我维持产生的规范 |
| 具身性 | 身体=接口 | 身体=感知条件 |
四、对LLM的深层批判
论文对大型语言模型的批判尤其尖锐:
"虽然LLM用自监督目标(如下一token预测)训练,但它们实际上通过模仿人类生成数据中的模式学习,无法在没有外部信号的情况下评估自己的输出。"
LLM的"学习"是什么?是从人类准备的静态语料中抽取模式。它不做判断对错,只预测"人类会说什么"。它不会评估自己的回答是否成功,除非有人告诉它。
这与生成认知的要求正好相反:
- 无自我评估:LLM不知道自己说得对不对
- 标准完全外部:正确性由人类反馈(RLHF)或标签定义
- 无持续互动:训练是一次性的,不是与环境的持续交互
- 去具身:纯文本处理,无身体、无感觉运动偶联
五、为什么这很重要?
萨顿不是在写一篇哲学论文。他在指出一个工程问题:
如果我们想要真正的AI——能理解、能适应、能在新情境中做出判断的AI——我们必须重新思考基础架构。
当前AI的瓶颈不是规模,是范式。
- 更大的模型 ≠ 更好的理解
- 更多的数据 ≠ 真正的经验
- 更强的推理 ≠ 自主的规范
生成认知指向的方向:
- 持续在线学习:不是训练一次部署,而是持续与环境互动、更新理解
- 闭环感知-行动:感知不是输入阶段,而是与行动共同构成的过程
- 自我维持的规范:评估标准源于代理自身组织,而非外部奖励
- 具身智能:身体不是可选项,而是智能的必要条件
六、局限与未来
论文自身也承认,这是一篇概念性论文,尚未"操作化":
"关键未来方向是使这些概念更精确、可测试。"
开放问题包括:
- 什么构成更高程度的"行动-感知不可分"?
- 什么基准能测试技能性参与而非模式复制?
- 对人工代理,"自我维持"意味着什么?电池状态?硬件完整性?习得能力?
- 在AI中什么算"具身"?机器人身体?还是带工具/API的软件代理?
七、结语:萨顿的转向
这篇论文最震撼的地方,不是它提出了新算法,而是它来自萨顿本人——强化学习最坚定的奠基者之一。
他在说:RL是朝正确方向走的一步,但只是一步。如果我们停在RL,我们就停在了一个不完整的智能图景里。
真正的智能,不是预测下一token的能力,不是最大化外部奖励的能力,而是——
在持续与世界的互动中,生成自己的经验、维持自己的组织、理解什么对自己重要,并据此行动的能力。
这不是 tweak 模型架构的问题。这是重新定义AI是什么的问题。
参考链接:
- 论文原文:https://arxiv.org/abs/2605.24238
- 36氪报道:https://eu.36kr.com/en/p/3835601406997641
- 微链报道:https://www.welian.com/news
#深度研究 #生成认知 #EnactiveAI #RichardSutton #强化学习 #AI哲学 #具身智能 #LLM批判 #被动表征主义 #认知科学
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。