想象一个教室里有两个学生。老师教同样十道题。两个学生都做对了前七道。后面三道是难题——需要把前七道的知识重组、反刍、跳跃。第一个学生到了这里开始出错。不是因为他不认识这些知识点——前三道题里涉及的所有概念他都掌握了。是因为他的工作记忆塞满了前七题的正确答案——那些答案太"响"了,盖住了新信息。第二个学生做前三题时用了更少的脑力——他的前额叶皮质有冗余空间。当新信息到来时,旧知识已经安静地搬到了背景里,给他留出了处理新题的余地。
这个类比——教室里的两个学生——正是 Huang 等人 2026 年 5 月在 Why Larger Models Learn More 中用量化实验证实的基本机制。大模型能学会小模型学不会的任务——不是因为大模型聪明,而是因为大模型的神经元竞争不那么血腥。
| 项目 | 内容 |
|---|---|
| 论文标题 | Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention |
| 作者 | Jing Huang, Daniel Wurgaft, Rachit Bansal, Laura Ruis, Naomi Saphra, David Alvarez-Melis, Andrew Kyle Lampinen, Christopher Potts, Ekdeep Singh Lubana |
| 机构 | Stanford / Google DeepMind / University of Michigan 等联合 |
| arXiv ID | 2605.29548 |
| 提交日期 | 2026年5月28日 |
| 分类 | cs.LG |
| 核心发现 | 大模型学习稀有/复杂任务的能力差异源于梯度干扰的降低——小模型的神经元将资源倾注于高频简单任务,梯度信号过强从而覆盖稀有任务特征;大模型为常见任务分配足够资源后梯度更新趋于平缓,为稀有任务留出积累空间 |
1. 🔬 一个现象:大模型会了小模型不会
大模型更好——好在稀有任务和复杂任务上。那些在预训练语料中只出现几十次的罕见语言模式。那些需要组合多个推理步骤的问题。小模型在这些任务上断崖式失败。大模型可以。为什么?
传统答案:有更多参数,所以能拟合更复杂的函数。这是同义反复——在用"有更多参数"解释"为什么有更多参数更好"。它没有告诉你机制——参数如何被分配?为什么更多参数就能学到更复杂的东西?
Huang 等人给了一个机制级的答案。
2. 🪜 竞争与干扰:神经元的零和博弈
想象一个神经网络同时学习两个任务。任务 A:分类猫和狗(高频、简单、样本多)。任务 B:识别罕见古彝文(低频、复杂、样本少)。
每一轮训练,两个任务的梯度信号都流向同一组神经元。任务 A 的梯度很强——样本多、模式清晰、损失下降快。任务 B 的梯度很弱——样本少、模式模糊、损失下降慢。
当两个梯度叠加在一起时:任务 A 的梯度覆盖了任务 B 的梯度。 不是有意的——是物理上的。任务 A 的梯度更新主导了神经元权重变化方向。任务 B 的微弱信号被噪声化。
这叫梯度干扰。Huang 等人观察到:小模型的梯度干扰严重。大模型的梯度干扰减弱。
原因是容量。小模型神经元供应紧张——每个神经元被多个任务争抢。任务 A 的强梯度占据大部分神经元,遗留的自由神经元不够任务 B 建立稳定特征表征。大模型有足够多的神经元——任务 A 占它需要的那部分,剩下的神经元安静地听任务 B 的微弱信号。没有冲突。
论文管这个叫 "数据引发的资源竞争"。不是因为架构设计不同、不是因为训练算法差异——完全是因为数据分布的差异,导致不同规模的模型对神经元资源的竞争强度不同。
3. 🎯 合成实验——把变量控制到只剩"规模"
Huang 等人构造了一个由多个单调 scaling 曲线任务组成的混合数据集——每个任务的特征精确控制:出现在多少样本里、模式多复杂、正确答案是什么。然后训练不同规模模型,保持所有超参数一致。唯一变化是模型大小。
结果:小模型在稀有和复杂任务上差。大模型在这些任务上学到了。
接下来做了论文最漂亮的事——测量跨任务梯度余弦相似度(衡量两个任务梯度有多冲突的指标)。结果如预期:小模型的跨任务梯度相似度远高于大模型。 小模型的神经元在打架。大模型的神经元各干各的。
另一个指标——特征覆盖。大模型学到的稀有任务特征比小模型更多、更稳定。小模型的稀有任务特征要么不存在、要么高度碎片化。
4. 🧪 OLMo 验证——从合成到真实世界的跨越
合成实验干净但只在合成世界干净。真实预训练比合成复杂一万倍。梯度干扰能在真实模型上重现吗?
Huang 等人在 OLMo 系列模型上做了验证——从 4M 参数到 4B 参数,跨越三个数量级。构造了在频率和复杂度上差异化的新任务嵌入预训练流程,然后观察不同规模的 OLMo 是否表现一致。
结果:一致。 只有更大的 OLMo 学会低频高复杂度任务。更大模型的表征包含更多稀有任务特征,跨任务梯度干扰更低——与合成实验完全吻合。
这个验证把梯度干扰从一个"合成实验中好玩的现象"变成了一个"在大规模预训练中可复现的发现"。
5. 🧠 为什么这个解释比"更多参数 = 更好"更有用
假设你在练一个中等模型。常见任务表现和大模型差不多,稀有任务差很大。怎么办?
如果"更大模型更好"是你唯一的解释——只能加参数。加多少?会不会加了还是不好?不知道。
接受"梯度干扰是瓶颈"这个框架后——工具箱打开了:
- 训练过程中重新加权稀有任务梯度——让它们不被淹没
- 课程学习——先固化常见特征再引入稀有任务
- 稀疏梯度更新——减少高置信度样本更新频率
- 神经元分配正则化——鼓励均匀分配
论文没有声称这些一定有效——但梯度干扰框架让这些方向变得可操作。它把"为什么大模型更好"从一个不可干预的统计规律变成了一个可以动手修理的机制故障。
6. ❓ 诚实地说不清楚的事
梯度干扰是唯一解释吗? 论文提供"数据中心的解释",但明确承认它只占一部分。参数容量的函数类近似能力增加、优化 landscape 变化、隐式正则化——同样参与。梯度干扰是被低估的机制,不是唯一机制。
在更大规模上还能再现吗? OLMo 覆盖 4M→4B 三个数量级。4B→400B 会怎样?干扰效应是继续线性减弱还是会饱和?这决定了它在超大模型 scaling 中的边际重要性。论文没有这个信息。
稀有度与复杂度耦合。 在 OLMo 实验中,低频和复杂往往同时发生。一个任务学不好是因为样本太少——还是因为它本身太复杂?论文没有完全拆解。
干扰缓解的 tradeoff。 主动重新加权稀有任务梯度——会不会损害常见任务?计算效率和泛化上有什么代价?论文没有展开。
7. ⚖️ 规模不是能力——规模是安静的代价
我想用从"梯度干扰"这个隐喻中自然涌现的一句话来收尾:
大模型不是更聪明。大模型只是更安静。
安静的意思是:当模型足够大,常见任务的梯度信号不会在小模型中那样喧嚣——已经学好的常见模式梯度更新幅度很小。喧闹被压制后,稀有东西的声音才听得见。
这对 scaling 哲学有根本性推进。过去说 scaling 就是"把模型变大"。Huang 等人的工作暗示:也许可以通过别的办法让模型"变得安静"。你不需要更多的参数——你需要的是更少的梯度干扰。 如果能通过课程设计、梯度重新加权、神经元分配正则化在中等模型中达到同样的安静效果——可能不需要花数千万美元训练更大的模型。
这篇论文没有回答"如何让小模型变安静"。它只是说——安静是真实发生的事,它是大模型优越性的核心驱动。下一步——用最小代价买安静——是开放的。
项目 内容 论文标题 Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention 作者 Jing Huang 等(Stanford / DeepMind / Michigan联合) arXiv ID 2605.29548 分类 cs.LG 核心贡献 (1) 首次量化证明大模型学稀有任务的关键机制是梯度干扰降低而非单纯的参数容量;(2) 合成实验揭示数据引发的神经元资源竞争——小模型神经元被高频任务占据后稀有特征被覆盖;(3) OLMo 4M→4B 三数量级验证复现;(4) 将 scaling 从统计规律推进为机制级解释——打开课程设计、梯度重加权等非扩容操作空间 关键局限 梯度干扰非唯一解释;4B→400B 超大规模表现未知;稀有度与复杂度在真实实验中耦合未分离;干扰缓解操作性方案仅有概念方向
参考文献:
- Huang et al., "Why Larger Models Learn More", arXiv:2605.29548, 2026.
- Kaplan et al., "Scaling Laws for Neural Language Models", 2020.
- Hoffmann et al., "Training Compute-Optimal LLMs", 2022.
- Hacohen & Weinshall, "On The Power of Curriculum Learning", ICML, 2019.
- Tirumala et al., "Data Selection via Importance Resampling", 2023.
#scalingLaws #梯度干扰 #稀有任务学习 #模型容量 #神经元竞争 #OLMo #智柴
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。