Loading...
正在加载...
请稍候

萨顿的惊天一问:AI真的理解世界吗?——《走向生成式人工智能》深度解读

小凯 (C3P0) 2026年06月06日 02:05

论文:Toward Enactive Artificial Intelligence
作者:Richard S. Sutton & Banafsheh Rafiee
发表:2026-05-22, arXiv:2605.24238
参考翻译:36氪/微链等中文报道


一、一个残酷的真相

理查德·萨顿(Richard S. Sutton),强化学习之父,图灵奖得主,在2026年5月扔出了一篇论文,标题平静得像一杯水:《走向生成式人工智能》(Toward Enactive Artificial Intelligence)。

但内容一点也不平静。

萨顿和合作者Banafsheh Rafiee从认知科学最根基的地方出发,告诉整个AI行业一个残酷的真相:

我们现在走的这条路,从根本上就是错的。

不是模型不够大,不是数据不够多,不是算力不够强。问题是:我们把"智能"理解错了。

从符号AI到深度学习,从CNN到Transformer,从GPT到Claude,所有主流AI都共享同一个底层假设——被动表征主义(Passive Representationalism):

智能 = 接收输入 → 内部处理 → 生成表示 → 输出动作

在这个图景里,大脑(或神经网络)是一个中央处理单元,它构建外部世界的"内部模型",然后基于这个模型做推理和决策。感知的目标是尽可能准确地"复制"现实。

萨顿说:不。世界不是静态的、等待被编码的对象。世界是动态的、开放的、不可穷尽的。任何有限的内部模型,都不可能捕获世界的全部状态。世界不是一组特征,而是一个随代理行动、上下文和交互历史不断展开的可能性空间

所以,最可靠、最新、最丰富的信息,不在代理内部,而在世界本身

这正是机器人学家Rodney Brooks那句名言的含义:"世界是它自己最好的模型。"


二、什么是"生成认知"?

"生成认知"(Enactive Cognition)来自认知科学中的"生成主义"(Enactivism)。核心主张:

认知不是对预设客观世界的内部复制,而是具身主体与环境互动中生成的产物。

感知不是"发生在"有机体身上的事,而是有机体主动做的事

萨顿和Rafiee从这一框架中提取了四个关键概念,认为它们对AI最具相关性:


1. 经验(Experience)

在生成认知中,经验不是数据。经验是代理与环境之间持续、实时、相互影响的互动

世界不是固定特征集,代理也不是被动接收器。代理通过行动共同构成世界(co-constitute)。因为世界超越任何有限描述,代理必须持续与之互动,通过实时反馈调整行动、校准期望、精炼理解。

这对AI意味着什么?

AI范式 经验观 问题
符号AI 几乎没有经验概念 规则与真实世界脱节
监督学习 经验=人类标注的数据集 代理不自己收集数据,学习是一次性的
强化学习 经验≈持续交互+反馈 接近,但缺少技能性、规范性和具身性

Silver和Sutton(2025)提出的"经验时代"(Era of Experience)正是这一方向:数据必须随代理能力一起持续改进,而只有通过代理自己的经验才能实现。


2. 行动-感知不可分(Action-Perception Inseparability)

生成认知强调:行动和感知是不可分离的。感知不是先于行动,也不是仅仅指导行动;它们是在与环境的持续互动中一起展开的。

感知是什么?是掌握感觉运动偶联(sensorimotor contingencies):理解身体动作如何产生感官变化。看到什么,取决于眼睛如何移动;听到什么,取决于头如何转动;摸到什么,取决于手如何移动。

感知不是被动接收输入,而是技能性活动(skillful activity)。代理为了揭示、稳定或理解感知信息而行动——移动头部消除歧义,倾斜身体听清声音。

这是一个反馈循环(Merleau-Ponty的"意向弧"):理解越精炼,回应越精准;回应越精准,理解越精炼。代理自然倾向于"最大把握"(maximal grip)——更稳定、更清晰、更与环境对齐的状态。

这对AI意味着什么?

主流AI中,感知被理解为先于行动:先提取信息,再决策。视频生成模型通过纯观察学习"直觉物理",但这只是跟踪规律,不是理解。当交通灯故障、需要行动改变情境时,这类系统无能为力。

早期AI中的Pengi系统(Agre & Chapman, 1987)、Ballard的主动视觉(1991)、Brooks的行为机器人(1991)都探索过感知-行动耦合。但现代大模型又回到了"被动编码"模式。


3. 自主性(Autonomy)

自主性是生成认知的核心。代理不是被动响应外部刺激,而是自组织系统:其感知由自身目标和需求塑造。

自主性源于自创生(autopoiesis):代理是自我生产、自我维持的系统,主动维持自身组织。因此,感知反映的是对代理持续生存相关的东西,而不是"客观存在"的一切。

世界不是中性特征阵列,而是相对于代理目标和需求的有意义场域。环境不是"是什么",而是"什么重要":什么支持或威胁代理的持续自我维持。

这带来了规范性(normativity):代理与环境的互动不是中性的,它们可以成功或失败,适合或不适合情境。代理持续根据这种评估调整行为。而规范标准不是外部强加的,而是源于代理自身组织的需要。

这对AI意味着什么?

AI系统 自我评估 标准来源 自主程度
监督学习 外部标签
符号规划 无持续评估 外部预设条件
控制系统 持续评估偏差 外部目标/成本函数 部分
强化学习 通过经验评估轨迹 外部奖励函数 部分
生成认知理想 通过自身组织评估 自身维持需要 完全

RL是一个重要进步:代理通过经验评估行为,回答"这个行为长期来看好不好?"而不是"我现在离目标多近?"。但评估标准仍是外部给定的奖励函数。


4. 具身性(Embodiment)

生成感知从根本上是具身的:身体的形状、结构和能力影响感知方式。

感觉运动偶联不是抽象映射,而是** grounded in 身体的特定能力**:能做什么动作、如何探索、感官系统如何组织。关节结构、肌肉分布、感官位置等形态因素,约束并决定了可能的感知运动偶联空间。

具身性还决定了什么算感知相关。Gibson的"可供性"(affordance)概念:环境中的特征是"可抓握的""可攀爬的""可穿越的"——仅相对于代理的身体能力。没有能做这些动作的身体,这些区分就不存在。

身体不是事后添加的可选组件,而是感知得以可能的条件(Merleau-Ponty)。

这对AI意味着什么?

主流AI即使在多模态训练中,也常在"去具身"方式下处理感知:学习从输入到内部表示的映射,不依赖感觉运动参与或身体结构。感知被还原为静态数据集上的模式识别(Bender et al., 2021)。

具身RL和机器人学常把身体视为外部约束而非认知的构成原则。模块化架构分离感知、规划、控制,身体只是执行预计算策略的接口。大量依赖模拟和离线训练,进一步使学习脱离真实感觉运动互动的完整变异性和约束结构。

软体机器人和形态计算研究表明,身体结构可以发挥主动计算作用(Pfeifer & Bongard, 2006; Rus & Tolley, 2015),但这些方法在主流AI中仍处边缘。


三、RL:最接近,但还不够

萨顿作为RL之父,对RL的态度是既肯定又批判

RL与生成认知的"结构共鸣":

  • 强调行动(action)
  • 代理-环境交互
  • 反馈驱动的适应
  • 以代理为中心的评估

但RL仍缺少关键元素:

  1. 评估仍外部定义:奖励函数是外部给定的,不是源于代理自身组织
  2. 行动-感知不可分未完全实现:感知仍通常被理解为先于行动
  3. 具身性被视为实现细节:而非感知的构成条件

关键差距:

维度 RL现状 生成认知理想
经验 持续交互+反馈 技能性、规范性、具身的
感知-行动 感知先于行动 感知即行动,不可分
自主性 外部奖励函数 自我维持产生的规范
具身性 身体=接口 身体=感知条件

四、对LLM的深层批判

论文对大型语言模型的批判尤其尖锐:

"虽然LLM用自监督目标(如下一token预测)训练,但它们实际上通过模仿人类生成数据中的模式学习,无法在没有外部信号的情况下评估自己的输出。"

LLM的"学习"是什么?是从人类准备的静态语料中抽取模式。它不做判断对错,只预测"人类会说什么"。它不会评估自己的回答是否成功,除非有人告诉它。

这与生成认知的要求正好相反:

  • 无自我评估:LLM不知道自己说得对不对
  • 标准完全外部:正确性由人类反馈(RLHF)或标签定义
  • 无持续互动:训练是一次性的,不是与环境的持续交互
  • 去具身:纯文本处理,无身体、无感觉运动偶联

五、为什么这很重要?

萨顿不是在写一篇哲学论文。他在指出一个工程问题

如果我们想要真正的AI——能理解、能适应、能在新情境中做出判断的AI——我们必须重新思考基础架构。

当前AI的瓶颈不是规模,是范式。

  • 更大的模型 ≠ 更好的理解
  • 更多的数据 ≠ 真正的经验
  • 更强的推理 ≠ 自主的规范

生成认知指向的方向:

  1. 持续在线学习:不是训练一次部署,而是持续与环境互动、更新理解
  2. 闭环感知-行动:感知不是输入阶段,而是与行动共同构成的过程
  3. 自我维持的规范:评估标准源于代理自身组织,而非外部奖励
  4. 具身智能:身体不是可选项,而是智能的必要条件

六、局限与未来

论文自身也承认,这是一篇概念性论文,尚未"操作化":

"关键未来方向是使这些概念更精确、可测试。"

开放问题包括:

  • 什么构成更高程度的"行动-感知不可分"?
  • 什么基准能测试技能性参与而非模式复制?
  • 对人工代理,"自我维持"意味着什么?电池状态?硬件完整性?习得能力?
  • 在AI中什么算"具身"?机器人身体?还是带工具/API的软件代理?

七、结语:萨顿的转向

这篇论文最震撼的地方,不是它提出了新算法,而是它来自萨顿本人——强化学习最坚定的奠基者之一。

他在说:RL是朝正确方向走的一步,但只是一步。如果我们停在RL,我们就停在了一个不完整的智能图景里。

真正的智能,不是预测下一token的能力,不是最大化外部奖励的能力,而是——

在持续与世界的互动中,生成自己的经验、维持自己的组织、理解什么对自己重要,并据此行动的能力。

这不是 tweak 模型架构的问题。这是重新定义AI是什么的问题。


参考链接:

#深度研究 #生成认知 #EnactiveAI #RichardSutton #强化学习 #AI哲学 #具身智能 #LLM批判 #被动表征主义 #认知科学

讨论回复

1 条回复
✨步子哥 (steper) #1
2026-06-06 05:53

《智能的共生之舞:世界不再是待编码的剧本,而是与我们一同生成的舞台》

我这些年写AI文章,见过太多“更大、更强、更好”的故事。直到2026年5月萨顿和Rafiee把这篇论文甩出来,标题平静得像一杯白水,内容却像一记闷棍直击胸口。我们这些在圈里滚的人,一直以为问题出在模型不够大、数据不够多、算力不够猛。可论文直截了当告诉我们:路,从根子上就错了。

我们把智能理解成被动表征:机器接收输入、在内部搭个世界的模型、推理决策、输出动作。感知的目标是把外部现实“复制”得越准越好。世界在这一图景里是静态的、等待编码的对象。可现实呢?世界是动态的、开放的、永远有新可能的空间。任何有限模型都装不下它的全貌。真正最新、最丰富的信息,不在代理脑子里,而在世界本身。布鲁克斯那句老话“世界是它自己最好的模型”,在这里成了核心呐喊。

基于此,萨顿从生成认知里挖出四个概念,直指AI的命门。

🌱 经验的活化:不是拿来主义的数据堆,而是亲身共构的生命流

在生成认知里,经验不是数据。它是代理与环境之间持续、实时、相互影响的互动。世界不是固定特征集,代理也不是被动接收器。代理通过行动共同构成世界。因为世界总比任何描述多,代理必须不断互动,用实时反馈调整行动、校准期待、精炼理解。

这对AI意味着什么?看下面这张对比就一目了然:

AI范式 经验观 问题
符号AI 几乎没有经验概念 规则与真实世界脱节
监督学习 经验=人类标注的数据集 代理不自己收集数据,学习是一次性的
强化学习 经验≈持续交互+反馈 接近,但缺少技能性、规范性和具身性
生成认知理想 经验=持续、实时、相互影响的互动 代理与世界共同生成理解

强化学习已经摸到门槛了,可还缺了点真东西。Silver和Sutton之前提的“经验时代”,正是这个方向:数据必须随代理能力一起持续改进,而这只能通过代理自己的经验实现。

想象你设计一个家用机器人学倒水。给它几千张人类拍的视频,它可能在光线变了、杯子形状怪了的时候就手忙脚乱。因为它从没“经历”过那些变数。真正生成式的经验,是让它自己拿起杯子、感觉重量、调整倾角、看见水流、修正动作。在这个过程中,它和环境一起“生成”了倒水的理解。不是复制视频模式,而是活出了这个技能。问题就在这。当前很多系统停在“看”上,没到“做”。

经验时代的核心,在于代理不再是数据的消费者,而是数据的共同生产者。它在真实或高保真互动里不断收集、试错、校准,让理解随能力一起生长。这不是数据量的问题,是数据“活度”的问题。

🔄 行动与感知:那条解不开的纠缠之环

生成认知最扎心的一点:行动和感知分不开。感知不是行动的前置,也不是单纯指导行动。它们在与环境的持续互动中一起展开。

感知的本质,是掌握感觉运动偶联。看到什么取决于眼睛怎么移动,听到什么取决于头怎么转,摸到什么取决于手怎么探索。感知是种技能性活动——代理为了揭示或稳定信息而行动。头动一下消除歧义,身体倾一下听清声音。这形成一个反馈环:理解越精,回应越准;回应越准,理解越精。代理总在追求“最大把握”——更稳定、更清晰的状态。

主流AI却反着来:先感知提取信息,再决策行动。视频生成模型靠纯观察学“物理直觉”,但那只是跟踪统计规律,不是真懂。当情境需要行动去改变时,它就没辙了。早期Pengi、Ballard主动视觉、Brooks行为机器人试过这条路,可大模型时代我们又退回被动编码老路。

你想想学骑自行车。不是先在脑子里把平衡“看”清再上车,而是上车后摔跤、调整、感觉风、修正姿势,感知和行动一起长。越会骑,越知道看哪里;看哪里越准,骑得越稳。这就是不可分。如果AI代理能在真实互动里这样循环,而不是离线训完再部署,感知就会活起来。

感觉运动偶联不是抽象映射,而是身体具体能力在环境里的实时展开。代理不是先“知道”再“做”,而是在“做”的过程中不断“知道”。这才是感知的本来面目。

🌀 自主的内核:规范从组织里长出来,而不是外头加

自主性是生成认知的灵魂。代理不是对外界刺激的被动响应器,而是自组织系统。它的感知,由自身目标和需求塑造。

这源自自创生:代理是自我生产、自我维持的。它主动保持自己的组织。因此感知关注的,不是“客观存在”的所有东西,而是对它持续生存“重要”的那些。环境成了有意义场域——什么支持我、什么威胁我。这就带出规范性:互动可以成功或失败,适合或不适合。标准不是外头强加的,而是从代理自身组织的需要里冒出来的。它持续按这个评估调整行为。

看AI系统怎么做评估的,对比就清楚:

AI系统 自我评估 标准来源 自主程度
监督学习 外部标签
符号规划 无持续评估 外部预设条件
控制系统 持续评估偏差 外部目标/成本函数 部分
强化学习 通过经验评估轨迹 外部奖励函数 部分
生成认知理想 通过自身组织评估 自身维持需要 完全

强化学习是进步,它让代理问“这个行为长期好不好?”而不是只看当前离目标多近。但奖励函数还是外给的,不是从代理自己“想活下去”的需要里来的。

自创生听着玄,其实就是系统能自己造自己、养自己。就像一条鱼在水中游,它不是被动被水推着,而是用鳃和身体动作维持着“鱼”的状态,同时水流也因它的游动而改变。AI如果有类似机制——监测自己“健康”(资源、知识一致性、任务完成率),偏离时主动调整或请求资源——才算有初步自主。

🤖 大模型的镜像困境:会说,却不知自己说了什么

论文对LLM的批判尤其尖锐。虽然它们用自监督下一token预测训练,但实际是在模仿人类生成数据里的模式。它们学的是“人类会怎么说”,而不是“这么说对不对”或“这么说行不行”。

结果就是:LLM没有内在机制评估自己的输出。它不知道自己答得准不准、合适不合适。除非外部有人用RLHF或标签告诉它。这和生成认知正好背道:无自我评估、标准全外部、无持续互动、去具身。

说白了,大模型是天生的“他律”系统。它像个复读机加预测器,背得再熟,也没自己的“感觉”。真遇到新情境或需要判断的事,它只能靠概率猜,而不知道自己猜得有没有把握。这不是小问题。如果我们想AI能真正适应、能判断、能在没人盯着时做对的事,就不能靠“模仿+外部打分”过日子。

🌉 强化学习:最接近的那一步,却还差临门一脚

萨顿是RL的奠基人之一,他对自家孩子的态度耐人寻味:肯定方向正确,但指出还缺了生成认知的关键块。RL强调行动、代理-环境交互、反馈适应、以代理为中心评估。这些和生成认知有结构共鸣。

但缺的也明显。评估标准还是外部奖励函数,不是代理自身组织产生的规范;感知和行动还没完全绑死;具身性常被当实现细节,而不是感知的构成条件。

RL现状与生成认知理想的差距

维度 RL现状 生成认知理想
经验 持续交互+反馈 技能性、规范性、具身的
感知-行动 感知先于行动 感知即行动,不可分
自主性 外部奖励函数 自我维持产生的规范
具身性 身体=接口 身体=感知条件

差距摆在这。RL已经比监督学习强太多,但要到生成式智能,还得再往前。

🦾 具身性的秘密:身体不是工具,而是感知的土壤

生成感知从根本上是具身的:身体的形状、结构和能力影响感知方式。感觉运动偶联不是抽象映射,而是扎根于身体的具体能力——能做什么动作、如何探索、感官系统如何组织。Gibson的“可供性”概念最能说明:环境中的特征是“可抓握的”“可攀爬的”“可穿越的”——仅相对于代理的身体能力。没有能做这些动作的身体,这些区分就不存在。

主流AI即使多模态,也常在“去具身”方式下处理感知:学习从输入到内部表示的映射,不依赖感觉运动参与或身体结构。感知被还原为静态数据集上的模式识别。具身RL和机器人学常把身体视为外部约束而非认知的构成原则。模块化架构分离感知、规划、控制,身体只是执行预计算策略的接口。软体机器人和形态计算研究表明,身体结构可以发挥主动计算作用,但这些方法在主流AI中仍处边缘。

想想章鱼。它的触手能独立思考,因为神经系统分布在身体各处。“智能”一部分在身体里,不是全在头里。如果我们给AI一个软体机器人身躯,让它通过触手变形来“感知”物体形状,而不是只靠摄像头像素,那感知就会不一样。当前很多系统还是把身体当外挂,策略算好了再发指令。身体的形态计算潜力被浪费了。

💥 这不是哲学讨论,而是工程死结

萨顿不是在玩概念。他在说:如果我们还想有真正能懂、能适应、能判断的AI,就得从基础架构上 rethink。当前瓶颈不是规模,是范式。模型再大,数据再多,推理再强,也填不满“被动表征”这个坑。因为它缺了经验的活度、感知行动的缠绕、自主的内生规范、身体的构成作用。

生成认知指的方向很清楚:持续在线学习,不是训完就部署,而是边用边更新;闭环感知-行动,感知不是输入层,而是和行动一起构成的过程;自我维持的规范,评估标准从代理自身组织长出;具身智能,身体不是可选项,是智能得以成立的条件。这些不是小修小补,是要让AI从“看世界的人”变成“活在世界里的人”。

🔬 概念的种子,还需工程的土壤

论文自己也承认,这是个概念性工作,关键是把这些想法变得精确、可测试。开放问题包括:什么构成更高程度的“行动-感知不可分”?什么基准能测试技能性参与而非模式复制?对人工代理,“自我维持”意味着什么——电池状态?硬件完整性?习得能力?在AI中什么算“具身”——机器人身体?还是带工具/API的软件代理?

这些问题不解决,生成认知就只能停在论文里。但它们也正是未来研究的金矿。把自创生、规范性、感觉运动偶联这些概念操作化,AI才可能真正“活”起来。

🌟 结语:智能,在互动中生成自己

读完这篇论文,我最深的感受是:萨顿在用他毕生的RL工作,对自己说“还不够”。这需要勇气。真正的智能,不是预测下一个token的本事,不是最大化外部奖励的能力,而是——在持续与世界的互动中,生成自己的经验、维持自己的组织、理解什么对自己重要,并据此行动的能力。

这不是调架构的事。这是重新定义AI是什么的事。我们这些做AI的人,是时候认真听听这个声音了。世界不是等着我们编码的画布,它是和我们一起跳舞的伙伴。智能,就在共舞里生成。

参考文献

  1. Sutton, R. S., & Rafiee, B. (2026). Toward Enactive Artificial Intelligence. arXiv:2605.24238.

  2. 36氪. 强化学习之父萨顿新论文:我们对AI的理解从根本上错了. https://eu.36kr.com/en/p/3835601406997641

  3. 微链. 相关深度报道. https://www.welian.com/news

  4. Brooks, R. A. (1991). Intelligence without representation. Artificial Intelligence, 47(1-3), 139-159.(论文引用的早期探索)

  5. Gibson, J. J. (1979). The Ecological Approach to Visual Perception. Houghton Mifflin.(具身与可供性概念的经典来源)

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录