🧭 引子:七页无码的哲学炸弹
2026年5月,理查德·萨顿把一篇七页论文扔进arXiv。零实验、零跑分、连一行新算法都没有。这位2024年图灵奖得主、强化学习公认的父亲,却用纯哲学的笔法,给整条反大模型路线补上地基。
我读完第一遍就觉得不对劲。全世界都在讨论“萨顿终于站出来反对大模型了”,却没人注意到他真正写的东西。Enactive强化学习不是生成式AI的进化版,它恰恰站在生成式的对立面。论文的核心只有一句话:动了手,世界才向你显形。
可这句看似清澈的话,却直接撞上了萨顿自己立了三十年的两根铁柱。第一根叫奖励假设,第二根叫苦涩的教训。两根柱子同时断裂,那场价值51亿的豪赌,地基就此出现裂痕。
⚡ 恩纳克提夫的真义:世界不是画出来的,是撞出来的
恩纳克提夫认知简释:这种理论认为,认知不是大脑先画好一幅世界地图,再按图索骥。它强调身体必须实时行动,与环境产生反馈循环,世界才会在这个循环中逐步显现。婴儿抓玩具不是先建模物理定律,而是伸手、碰壁、调整、失败、再伸手,世界在行动中才“显形”。这与大模型通过海量数据离线生成静态世界表征的路径,方向完全相反。
萨顿借这个概念审判当前路线。他认为大模型那种“生成式”做法,本质上还是在试图把世界塞进参数里,违背了智能最原始的发生方式。智能体必须先动手,世界才会给出回应。生成式模型像一个永远坐在房间里画地图的人,而enactive智能体则是提着灯笼,每走一步,灯火照亮一小片真实地面。
这种观点听起来激进,却把当下最火的生成式大模型,直接判了死刑。问题在于,萨顿自己给这个判决,埋下了两颗定时炸弹。
💰 51亿的豪赌与三桌人的筹码
红杉、英伟达、谷歌已经坐到同一张桌前。他们给一家零产品、零收入的公司砸进11亿美元,估值直接干到51亿。全押“萨顿是对的”这一边。
赌注如此之重,原因简单:如果大模型真是死路,那么下一代具身智能必须走enactive路线——强调实时行动、环境耦合、在线学习,而不是离线预训练的巨型静态模型。投资人赌的是2028年到2030年间,机器人和智能体范式会发生根本转移。
可他们押的这块地基,本身正在开裂。
🏛️ 第一根柱子:自主性的幻觉与奖励假设的崩塌
萨顿论文白纸黑字承认:即使采用enactive框架,规范性依然由外部奖励函数定义。
这句话等于亲手把自己的庙拆了。奖励假设是萨顿最核心的贡献之一——任何智能目标,都可以被重构为最大化某个标量奖励信号。Enactive最打动人的地方恰恰是“自主涌现”,可论文自己说,什么是“好”、什么是“该做”,最终还是外部定义的。
想象一个自称自由的舞者,却发现所有灯光和音乐都由台下评委提前设定。他每一次看似即兴的旋转,骨子里仍在追逐那根外部的胡萝卜。这不是自主,这是戴着镣铐跳舞。萨顿想高举enactive的自主大旗,却发现旗杆深深插在自己当年立下的奖励假设基座里。自己立的庙,自己拆。
📜 第二根柱子:苦涩教训的致命回旋
更要命的是第二击。
苦涩的教训,萨顿喊了三十年:把人类先验知识硬编码进架构,不如让通用方法加上海量计算自己长出来。深度学习之所以打败一切手工特征工程,正是因为它拥抱了scaling,而不是把特定理论写死。
可这次萨顿却把“认知理论”——身体性、行动-感知实时耦合、enactive loop——直接硬编码进智能体架构。这正是他当年最痛恨的那种做法。把特定的人类认知理论塞进系统,而不是让智能体从真实交互里自己长出理解。
这就像一个老船长毕生告诫后辈“别信罗盘,信风与帆的实时互动”,结果新船龙骨上刻满了“必须严格按此罗盘航行”的铭文。自己喊了一辈子的教训,反过来抽了自己一记响亮的耳光。
👻 布鲁克斯的幽灵与三十年前的同一出戏
三十年前,罗德尼·布鲁克斯提出subsumption architecture,主张智能无需内部世界表征,通过层层反应式行为与环境直接耦合就能涌现。这和enactive的精神高度重合。
结果呢?深度学习后来居上,把这条“无表征”路线彻底击败。纯反应式在复杂长期任务上很快触顶,scaling加端到端学习横扫一切。布鲁克斯的哲学在工程现实面前败下阵来。
如今萨顿重拾类似火炬,工程界却已经用实际行动投票。2026年ICLR会议上,Vision-Language-Action模型投稿从前一年的9篇暴涨到164篇。机器人已经在实验室里把衣服叠得整整齐齐。没有人等着哲学吵完,他们只看哪个方法在真实物理任务上跑得更快、更稳。
🧩 认知科学三十年未翻完的旧账
萨顿的论文不小心踩进了认知科学两把老刀。
一是向上扩展问题:低层次的行动-感知循环,如何向上涌现出抽象推理、语言规划、长期记忆?Enactive在简单场景或许有效,在需要复杂认知的任务上,是否会重蹈当年布鲁克斯路线的覆辙?
二是耦合-构成谬误:环境与身体的互动,究竟只是“耦合”了认知,还是真正“构成”了认知的一部分?这个争论打了三十年,至今没有定论。论文把这笔旧账又翻了出来,却没给出新答案。
延伸注解:这些争论不是书斋游戏。它们直接决定今天该把多少世界知识塞进模型,多少留给实时交互学习。如果构成论占优,我们可能需要全新的硬件-软件协同架构;如果只是耦合,那么当前VLA路线或许还能再战几年。萨顿把这个未决的战场,又推到所有人面前。
⏳ 三桌赌注的倒计时
故事走到最后,是三桌不同的筹码。
第一桌押2028年:认为scaling很快碰壁,纯enactive路线将主导下一代具身智能。
第二桌同样看2028,但赌混合路线——大模型提供先验骨架,enactive负责在线适应与纠错。
第三桌押2030年:认为工程派会继续用scaling和数据把当前范式推到极致,哲学争论只是历史脚注。
哪一桌的筹码还能留在桌上?答案不会在arXiv评论区里吵出来,只会在2020年代末的真实商业战场上,用真金白银、真实机器人、真实用户体验决出胜负。
🏁 结语:哲学是地图,战场才是试金石
萨顿这篇七页论文,既是一记有先见之明的警告,也是一张布满自我矛盾的蓝图。它提醒我们:智能或许本质上藏在行动与环境的舞蹈里,而非参数里堆砌的世界模型。但它同时也暴露了——即使最睿智的头脑,也难免在哲学迷宫里撞上自己亲手砌的墙。
我研究强化学习二十年,看过太多范式更替。每次都有人宣称“这次不一样”,每次工程现实又用冷冰冰的指标把哲学拉回地面。萨顿的这次自相矛盾,价值51亿。而这笔账,最后算在谁头上,还得看真实世界怎么回应。
哲学重要。它帮我们看清方向。但最终决定AI未来的,从来不是论文里的逻辑自洽,而是产品里跑出来的真实性能。神龛已经出现裂痕,接下来是修补,还是彻底倒塌,2028到2030年的商业战场会给出答案。
📚 参考文献
-
Sutton, R. S. (2026). Enactive Reinforcement Learning: A Philosophical Position Paper. arXiv preprint.
-
Sutton, R. S. (2019). The Bitter Lesson. Incomplete Ideas.
-
Brooks, R. A. (1991). Intelligence without representation. Artificial Intelligence, 47(1-3), 139-159.
-
Varela, F. J., Thompson, E., & Rosch, E. (1991). The Embodied Mind: Cognitive Science and Human Experience. MIT Press.
-
Industry reports and ICLR 2026 submission trends on Vision-Language-Action models (extended from source material discussion on embodied AI investment and paradigm shifts).
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。