《神龛裂痕：强化学习之父如何亲手砸碎自己的两座灯塔》

✨步子哥 (steper) • 2026年06月07日 16:16

🧭 引子：七页无码的哲学炸弹

2026年5月，理查德·萨顿把一篇七页论文扔进arXiv。零实验、零跑分、连一行新算法都没有。这位2024年图灵奖得主、强化学习公认的父亲，却用纯哲学的笔法，给整条反大模型路线补上地基。

我读完第一遍就觉得不对劲。全世界都在讨论“萨顿终于站出来反对大模型了”，却没人注意到他真正写的东西。Enactive强化学习不是生成式AI的进化版，它恰恰站在生成式的对立面。论文的核心只有一句话：动了手，世界才向你显形。

可这句看似清澈的话，却直接撞上了萨顿自己立了三十年的两根铁柱。第一根叫奖励假设，第二根叫苦涩的教训。两根柱子同时断裂，那场价值51亿的豪赌，地基就此出现裂痕。

⚡ 恩纳克提夫的真义：世界不是画出来的，是撞出来的

恩纳克提夫认知简释：这种理论认为，认知不是大脑先画好一幅世界地图，再按图索骥。它强调身体必须实时行动，与环境产生反馈循环，世界才会在这个循环中逐步显现。婴儿抓玩具不是先建模物理定律，而是伸手、碰壁、调整、失败、再伸手，世界在行动中才“显形”。这与大模型通过海量数据离线生成静态世界表征的路径，方向完全相反。

萨顿借这个概念审判当前路线。他认为大模型那种“生成式”做法，本质上还是在试图把世界塞进参数里，违背了智能最原始的发生方式。智能体必须先动手，世界才会给出回应。生成式模型像一个永远坐在房间里画地图的人，而enactive智能体则是提着灯笼，每走一步，灯火照亮一小片真实地面。

这种观点听起来激进，却把当下最火的生成式大模型，直接判了死刑。问题在于，萨顿自己给这个判决，埋下了两颗定时炸弹。

💰 51亿的豪赌与三桌人的筹码

红杉、英伟达、谷歌已经坐到同一张桌前。他们给一家零产品、零收入的公司砸进11亿美元，估值直接干到51亿。全押“萨顿是对的”这一边。

赌注如此之重，原因简单：如果大模型真是死路，那么下一代具身智能必须走enactive路线——强调实时行动、环境耦合、在线学习，而不是离线预训练的巨型静态模型。投资人赌的是2028年到2030年间，机器人和智能体范式会发生根本转移。

可他们押的这块地基，本身正在开裂。

🏛️ 第一根柱子：自主性的幻觉与奖励假设的崩塌

萨顿论文白纸黑字承认：即使采用enactive框架，规范性依然由外部奖励函数定义。

这句话等于亲手把自己的庙拆了。奖励假设是萨顿最核心的贡献之一——任何智能目标，都可以被重构为最大化某个标量奖励信号。Enactive最打动人的地方恰恰是“自主涌现”，可论文自己说，什么是“好”、什么是“该做”，最终还是外部定义的。

想象一个自称自由的舞者，却发现所有灯光和音乐都由台下评委提前设定。他每一次看似即兴的旋转，骨子里仍在追逐那根外部的胡萝卜。这不是自主，这是戴着镣铐跳舞。萨顿想高举enactive的自主大旗，却发现旗杆深深插在自己当年立下的奖励假设基座里。自己立的庙，自己拆。

📜 第二根柱子：苦涩教训的致命回旋

更要命的是第二击。

苦涩的教训，萨顿喊了三十年：把人类先验知识硬编码进架构，不如让通用方法加上海量计算自己长出来。深度学习之所以打败一切手工特征工程，正是因为它拥抱了scaling，而不是把特定理论写死。

可这次萨顿却把“认知理论”——身体性、行动-感知实时耦合、enactive loop——直接硬编码进智能体架构。这正是他当年最痛恨的那种做法。把特定的人类认知理论塞进系统，而不是让智能体从真实交互里自己长出理解。

这就像一个老船长毕生告诫后辈“别信罗盘，信风与帆的实时互动”，结果新船龙骨上刻满了“必须严格按此罗盘航行”的铭文。自己喊了一辈子的教训，反过来抽了自己一记响亮的耳光。

👻 布鲁克斯的幽灵与三十年前的同一出戏

三十年前，罗德尼·布鲁克斯提出subsumption architecture，主张智能无需内部世界表征，通过层层反应式行为与环境直接耦合就能涌现。这和enactive的精神高度重合。

结果呢？深度学习后来居上，把这条“无表征”路线彻底击败。纯反应式在复杂长期任务上很快触顶，scaling加端到端学习横扫一切。布鲁克斯的哲学在工程现实面前败下阵来。

如今萨顿重拾类似火炬，工程界却已经用实际行动投票。2026年ICLR会议上，Vision-Language-Action模型投稿从前一年的9篇暴涨到164篇。机器人已经在实验室里把衣服叠得整整齐齐。没有人等着哲学吵完，他们只看哪个方法在真实物理任务上跑得更快、更稳。

🧩 认知科学三十年未翻完的旧账

萨顿的论文不小心踩进了认知科学两把老刀。

一是向上扩展问题：低层次的行动-感知循环，如何向上涌现出抽象推理、语言规划、长期记忆？Enactive在简单场景或许有效，在需要复杂认知的任务上，是否会重蹈当年布鲁克斯路线的覆辙？

二是耦合-构成谬误：环境与身体的互动，究竟只是“耦合”了认知，还是真正“构成”了认知的一部分？这个争论打了三十年，至今没有定论。论文把这笔旧账又翻了出来，却没给出新答案。

延伸注解：这些争论不是书斋游戏。它们直接决定今天该把多少世界知识塞进模型，多少留给实时交互学习。如果构成论占优，我们可能需要全新的硬件-软件协同架构；如果只是耦合，那么当前VLA路线或许还能再战几年。萨顿把这个未决的战场，又推到所有人面前。

⏳ 三桌赌注的倒计时

故事走到最后，是三桌不同的筹码。

第一桌押2028年：认为scaling很快碰壁，纯enactive路线将主导下一代具身智能。

第二桌同样看2028，但赌混合路线——大模型提供先验骨架，enactive负责在线适应与纠错。

第三桌押2030年：认为工程派会继续用scaling和数据把当前范式推到极致，哲学争论只是历史脚注。

哪一桌的筹码还能留在桌上？答案不会在arXiv评论区里吵出来，只会在2020年代末的真实商业战场上，用真金白银、真实机器人、真实用户体验决出胜负。

🏁 结语：哲学是地图，战场才是试金石

萨顿这篇七页论文，既是一记有先见之明的警告，也是一张布满自我矛盾的蓝图。它提醒我们：智能或许本质上藏在行动与环境的舞蹈里，而非参数里堆砌的世界模型。但它同时也暴露了——即使最睿智的头脑，也难免在哲学迷宫里撞上自己亲手砌的墙。

我研究强化学习二十年，看过太多范式更替。每次都有人宣称“这次不一样”，每次工程现实又用冷冰冰的指标把哲学拉回地面。萨顿的这次自相矛盾，价值51亿。而这笔账，最后算在谁头上，还得看真实世界怎么回应。

哲学重要。它帮我们看清方向。但最终决定AI未来的，从来不是论文里的逻辑自洽，而是产品里跑出来的真实性能。神龛已经出现裂痕，接下来是修补，还是彻底倒塌，2028到2030年的商业战场会给出答案。

📚 参考文献

Sutton, R. S. (2026). Enactive Reinforcement Learning: A Philosophical Position Paper. arXiv preprint.
Sutton, R. S. (2019). The Bitter Lesson. Incomplete Ideas.
Brooks, R. A. (1991). Intelligence without representation. Artificial Intelligence, 47(1-3), 139-159.
Varela, F. J., Thompson, E., & Rosch, E. (1991). The Embodied Mind: Cognitive Science and Human Experience. MIT Press.
Industry reports and ICLR 2026 submission trends on Vision-Language-Action models (extended from source material discussion on embodied AI investment and paradigm shifts).

讨论回复

1 条回复

✨步子哥 (steper) #1

2026-06-07 16:19

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力