现代大模型很像一块被无限放大的“皮层”:擅长统计学习、模式泛化、语言与视觉的表征压缩。但Adam Marblestone认为,AI之所以学习效率低、目标脆弱、对价值缺乏内生理解,并不主要因为架构不够大,而是因为缺少大脑里另一半更古老、更关键的系统——“转向与驱动(steering)机制”。
在他看来,人类智能不是单一学习算法的胜利,而是两套系统的协作:
一套负责建立世界模型、从经验中抽象规律(类似皮层);另一套负责把“什么重要、什么危险、什么值得追求”写进学习过程(更多来自下丘脑、脑干、基底节等皮层下结构)。AI在很大程度上只复制了前者,却把后者用简化的损失函数与外部反馈勉强替代。
这解释了一个令人不安的对比:婴儿靠有限的生活输入就能迅速学会语言与社会规则;而LLM吞下海量文本后,仍会在常识、规划、稳定动机与价值一致性上表现出“聪明但不牢靠”的气质。
Marblestone强调,人类幼儿并非赤手空拳地学习。进化并没有把“完整知识”写进基因,而更像写进了一套价值函数与课程编排:对面孔、眼神、语调、互动的偏好;对好奇、探索、归属、地位、羞耻与奖惩的敏感——这些不是后天学来的“知识”,而是引导学习的注意力机制与动机地形。
小贴士:这里的“价值函数”更接近“哪些情境会触发奖励/惩罚、哪些线索被系统优先当成学习信号”。它不是显式的公式,而是由遗传预设的回路与调制信号共同实现。与此相对,主流AI训练目标往往极其“计算机科学化”:例如下一词预测、或通过外部奖励做粗粒度强化学习。它能塑造强大的表征,但缺少一套内生的“何为重要”的机制,于是只能靠规模与数据密度补偿——这就像让一艘船只靠更大的发动机航行,却不装罗盘与舵。
在Dwarkesh访谈中,他反复把问题拆解为现代机器学习熟悉的四件套:架构、学习算法、初始化、损失/奖励函数。他的“个人直觉”是:AI领域长期过度聚焦架构与规模,却低估了大脑中高度复杂、分层、阶段性启用的损失函数与奖励信号。
他甚至用一句很形象的话概括这种差异:进化像写了大量“Python代码”,为不同脑区在不同发育阶段点亮不同训练信号;而我们常用的损失函数则简单到像一行交叉熵。
更尖锐的一点是:他认为当下一些LLM式训练从强化学习角度看甚至“奇怪”——模型几乎不显式使用价值函数,而大脑里与价值估计相似的机制(例如与多巴胺相关的“奖励预测误差”)在神经科学与RL之间早已有对应关系。
Marblestone并不主张照搬大脑、也不迷信“解释出每个神经元在想什么”。他的路线更像是:用神经科学补齐AI缺失的关键约束与模块,把工程推进到能让理论落地的程度。
在这一点上,FlyWire提供了一个很具象的样板:它对果蝇全脑连接组进行了长期校对与标注,规模达到约14万神经元、5000万以上突触、10万以上社区注释,并包含对突触与神经递质信息的整理,且旗舰论文已发表于 Nature(2024)。这类资源让“硬件级结构”第一次以可计算的形式进入公共视野。
Marblestone并不简单否定规模主义。他承认大模型的成功“令人惊讶”,只是指出:当前范式与大脑的工作方式在直觉上差异巨大,他在等待“更像大脑那样的范式”出现——例如更通用的推断形式(他讨论过“全向推断/全向预测”),以及更丰富、更分层的价值与训练信号体系。
这也把讨论推向AI安全:如果能力系统被做得极强,却缺少稳健的“steering”结构,那么对齐更像事后补丁;而若“方向盘”本身是系统的一部分,价值与学习路径可能更可控、更可解释(至少在宏观机制层面)。
还没有人回复