Wu, Z. et al. Variable-Width Transformers. arXiv:2606.18246, 2026. MIT & MIT-IBM Watson AI Lab.
一、一个披萨桌上的问题
杨植麟曾经拿着一块披萨,用一句话讲清了为什么压缩就是智能。
他说:爱因斯坦把巨大的信息量压进 E=mc²,这才叫智能。啰嗦半天讲不清楚的人,不是知道得太多,是理解得太浅。
我当时没在场,但这句话让我想了很久。如果一个模型真正的聪明不是因为它记住了多少,而是因为它能把混乱的现实提炼成简洁的结构——那我们可以反过来问:如果我们强迫模型变得更"窄",它会不会被迫变得更聪明?
MIT 的人最近试了一手。答案是:会。而且效果显著。
二、等宽是方便,不是最优
我们先看看现在的 Transformer 在干什么。
你有一个 24 层的模型。每一层的"宽度"——也就是隐藏维度——都是 2048。第 1 层是 2048,第 12 层是 2048,第 24 层也是 2048。参数和算力被均匀地撒在每一层上,像一张均匀的毯子。
方便吗?当然。你写代码的时候只定一个数就行了。
合理吗?未必。因为不同层干的事根本不一样。
前几层在做什么?它们在辨认词与词之间的表面关系——语法、搭配、局部共现。后几层在做什么?它们在组装高层语义——推理、指代、跨句子的逻辑。中间那几层呢?它们在把低层的碎片翻译成高层的结构。
如果每一层都做不同的事,为什么每一层都要同样的"房间面积"?
这就像一个人从早上到晚上都穿同样大小的衣服——不合身的时候,要么松垮,要么勒得慌。
三、×形架构:两头宽,中间窄
MIT 团队试了几种形状。
他们训练了 ∨形(前窄后宽)、∧形(前宽后窄)、3形(两头窄中间宽),以及 ×形(两头宽中间窄)。控制总参数量不变,看哪种在语言建模任务上 loss 最低。
结果:×形赢了。
具体来说,他们在中间层设置了一个瓶颈——宽度只有正常值的 30% 左右,位置大约在总层数的 75% 处。然后让层宽从输入端逐渐缩窄到瓶颈,再从瓶颈逐渐拓宽到输出端。
我用 200M 到 2B 参数的密集模型、以及 3B 总参数量(1B 激活)的 MoE 模型做了验证。结果一致:同等参数量下,×形模型的 perplexity 比等宽基线低约 3%。
听着不多?我们放到 scaling law 里看。按 loss-matched 的 scaling 曲线拟合,要达到等宽 2B 模型的 loss(2.751),×形模型只需要 78.1% 的训练 FLOPs 和 85.1% 的平均层宽。也就是说,你花更少的电、用更小的 KV cache,却得到了同样的效果。甚至略好。
| 指标 | 等宽基线 | ×形 (><former) | 节省 |
|---|---|---|---|
| 达到同等 loss 所需 FLOPs | 100% | 78.1% | -22% |
| 平均层宽 (KV cache 相关) | 100% | 85.1% | -15% |
| 2B 模型 perplexity (DCLM) | 2.751 | 2.724 | 更低 |
FLOPs 减少 22%,KV cache 内存和 I/O 减少 15%。
四、但这不是重点。重点是:中间变窄之后,模型"想"的东西变了
如果你以为这只是一个"节省资源"的技巧,那就错过了最有趣的部分。
论文做了一个分析:他们比较了 ×形模型和等宽模型在 residual stream 里的表示。结果发现——不一样,而且是质的不一样。
什么是 residual stream?你可以把它想象成一条贯穿所有层的信息高速公路。每一层从这条路上读取当前状态,处理一下,再把结果写回去。所以这条路上的"交通状况",就反映了模型在每一层"在想什么"。
等宽模型的中间层有一个已知的问题:mid-layer representation collapse。简单说,中间层的表示会变得非常相似,不同输入之间的区分度急剧下降。信息像是被"压扁"了——不是被精心压缩,而是被胡乱挤成了一团。
×形模型没有这个毛病。因为中间层被刻意做窄了,模型不得不选择哪些信息值得保留、哪些可以丢弃。瓶颈不是一个 bug,而是一个强制性的过滤器。
这让我想起信息瓶颈理论(Information Bottleneck)。Tishby 那帮人证明过,深度网络在学习的时候,本质上在做两件事:先尽量多地保留输入的信息(拟合阶段),然后逐渐压缩表示、只保留和输出最相关的部分(压缩阶段)。最优的表示,是在"保真"和"压缩"之间找到平衡的那个点。
×形架构把这个过程结构化了。它不是在训练过程中慢慢学会压缩,而是把压缩的约束直接写进了架构里。
中间那几层窄得可怜。模型没有空间把什么都塞进去。它必须决定:这个词性标注重要吗?这个语义关系重要吗?这个长距离依赖重要吗?
窄,迫使选择。选择,就是智能的起点。
五、一个类比:笔记不是抄书
让我用一个更日常的比方。
假设你在读一本厚厚的教科书。你有两个策略:
策略 A:每一章都抄同样厚的笔记。第 1 章 20 页,第 10 章也 20 页。均匀的。
策略 B:开头多花点笔墨理解基本概念,中间逼自己只用一页纸提炼核心结构,结尾再展开应用和推论。
哪种笔记更可能让你真正理解这本书?
答案很明显。策略 B 中间那一页纸的瓶颈,逼你必须区分"核心结构"和"旁枝末节"。你不可能把什么都塞进去,所以你只能保留真正重要的东西。这个"被迫的取舍",恰恰是理解的标志。
Transformer 也一样。×形架构的中间瓶颈,就是那页只能写一页纸的约束。
六、但等一下——为什么不是 ∨形或 ∧形?
这里有个有意思的反直觉点。
∨形是前窄后宽,∧形是前宽后窄。如果中间压缩是好事,为什么不干脆从开头就窄、然后一路放宽?或者反过来?
实验结果:这两种都不如 ×形。
论文的作者坦承,他们最初的直觉其实是 3形——两头窄、中间宽,因为中间层常被认为负责"语义计算",应该给更多资源。但结果相反,×形最好。
为什么?我的理解是:
- 早期层需要宽:输入是 raw token,信息密度低,模型需要足够容量来捕捉各种局部模式。
- 中间层需要窄:这是"翻译"的区域,从低层特征到高层抽象的跳跃。瓶颈迫使模型提炼出紧凑的中间表示。
- 晚期层需要宽:输出需要展开成人类可读的 token,需要容量来做生成和选择。
两头宽、中间窄,像是沙漏的形状。沙漏中间最窄的地方,不是阻碍流动的障碍——而是控制流速、让沙子以均匀方式落下的关键结构。
七、实现细节:残差流怎么不爆炸?
这里有一个工程上的聪明之处,值得费曼式的赞赏。
如果每一层宽度都不一样,层与层之间的交接就成了问题。第 l 层输出 1024 维,第 l+1 层要 2048 维,怎么办?
最简单的做法是加一个投影矩阵。但论文没用这招——投影会引入额外的参数和瓶颈,而且改变残差连接的性质。
他们用了更优雅的办法:固定全局残差维度,等于模型中最宽层的宽度。每一层只读写残差流中的一个子集。没被用到的维度,直接复制传递到下一层。
缩小时,直接截断多余维度。放大时,从最近处理过该维度的层里把值复制回来。没有额外参数,没有投影瓶颈,残差连接保持干净。
数学上,这等价于一个均匀宽度的模型,只是某些层对特定维度"视而不见"。优雅。
八、 scaling law 的启示:曲线不只向下移,还变陡了
论文把 ×形模型和等宽模型的 scaling law 曲线都拟合了出来——loss 对 FLOPs,loss 对平均层宽。
两个发现:
- ×形模型的曲线向下平移了。同样的 FLOPs,loss 更低。
- 更惊人的是,×形模型的曲线还更陡了。scaling exponent 略大。
第二条意味着什么?
如果趋势持续,模型越大,×形的优势可能越明显。我们现在看到的是 2B 模型上的 3% perplexity 提升。如果放大到 20B、200B,这个 gap 可能不只是维持,而是扩大。
当然,这只是拟合曲线的 extrapolation,还没有在超大模型上验证。但它给了人一个理由去相信:非均匀容量分配可能是 scaling 的下一个杠杆。
九、MoE 也适用:省的不只是 FLOPs,还有激活参数
论文还试了 MoE(Mixture-of-Experts)版本。
3B 总参数 / 1B 激活参数的 MoE 模型,×形架构在匹配总参数的前提下,激活参数还少了 3%,但 perplexity 依然优于等宽基线。
这意味着:×形的效率收益可以和 MoE 的稀疏激活叠加。不是互相替代,是互相增强。
十、所以,压缩真的等于智能吗?
回到杨植麟那块披萨。
他的论点是:智能的本质是压缩。一个公式能概括万千现象,一个模型能从有限样本泛化到无限场景——这都是在做信息压缩。
这篇论文提供了一个工程上的注脚:当你把压缩的约束写进架构,模型不仅变得更高效,它还学会了不同的表示策略。
不是因为它被赋予了更多能力,而是因为它被迫做选择。
这让我想到一个更广泛的命题:也许智能不是关于"能记住多少",而是关于"能遗忘多少"。一个系统记得住一切但不懂得取舍,只是一个数据库。一个系统必须在有限的容量里决定什么值得保留——这个取舍的过程,才是理解的雏形。
×形 Transformer 的中间瓶颈,就是这个取舍的物理化身。
参考
- Wu, Z. et al. (2026). Variable-Width Transformers. arXiv:2606.18246. MIT & MIT-IBM Watson AI Lab.
- Tishby, N. & Zaslavsky, N. (2015). Deep Learning and the Information Bottleneck Principle. IEEE Information Theory Workshop.
- Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
- Ikeda, S. et al. (2025). On the Optimal Allocation of FFN Capacity in Transformers. (相关层内部分配工作).
#论文拆解 #Transformer #信息瓶颈 #压缩即智能 #MIT #scalinglaw #MoE #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。