> 训练 LLM 不是在"记住"互联网,而是在"遗忘"——只保留对预测下一个词有用的信息。>
> 这篇 ICLR 2026 的论文用信息论的显微镜,让我们第一次看清:模型内部到底在发生什么。
---
## 一、核心问题:我们在训练什么?
Henry Conklin(Princeton)和 Cohere 团队问了一个看似简单却极难回答的问题:
**LLM 训练过程中,模型的表示空间(representational space)到底在发生什么变化?**
现有研究要么看行为(输出像不像人话),要么看局部(某个 attention head 在做什么),要么看静态(训练完后的模型长什么样)。但训练动态的、整体的、理论驱动的描述,一直是空白。
这篇论文的切入点很聪明:**把 LLM 训练看作有损压缩。**
---
## 二、有损压缩的直觉
想象你在整理一个图书馆。
**无损压缩**就像把书按字母顺序排好,每本书都在,只是更容易找到。ZIP 文件就是这样——信息完整,只是编码更高效。
**有损压缩**则像在写一本"精华摘要"。MP3 丢掉人耳听不到的频率,JPEG 丢掉眼睛分辨不出的色差。关键不是保存一切,而是**只保存对目标有用的**。
LLM 训练在做什么?它看了互联网上比人类 200 辈子还多的文本,然后把它压缩成几十亿个参数。但不是所有信息都同等重要——对"预测下一个词"没用的细节,模型会逐渐遗忘。
这就是论文标题的意思:**Learning is Forgetting。学习就是遗忘。**
---
## 三、信息瓶颈:一张图看懂训练两阶段
论文的理论基石是 **Information Bottleneck (IB)** 理论,Tishby & Zaslavsky 2015 年提出。
想象一个坐标系:
- **横轴 I(X;Z)**:表示保留了输入多少信息(复杂度 Complexity)
- **纵轴 I(Y;Z)**:表示保留了多少对预测目标有用的信息(表达能力 Expressivity)
**最优压缩边界**是对角线 I(X;Z) = I(Y;Z)。在这条线上,每保留 1 bit 输入信息,就获得 1 bit 表达能力——没有浪费。
IB 理论预测训练分两阶段:
### 阶段一:拟合(Fitting)
模型疯狂吸收信息,I(Y;Z) 快速上升——它在学习"什么样的表示能预测下一个词"。此时 I(X;Z) 也在上升,因为需要足够的复杂度来拟合数据。
### 阶段二:压缩(Compression)
训练损失饱和后,模型开始"整理内务":I(X;Z) 开始下降,I(Y;Z) 保持稳定或缓慢上升。表示空间在"去噪"——去掉对预测无用的输入信息,向最优边界靠拢。
**关键洞察**:压缩阶段才是真正产生泛化能力的阶段。就像学生复习时,把笔记整理成自己的语言——不是背原文,而是提取结构。
---
## 四、OLMo2 7B:完美的实验验证
论文用 **OLMo2 7B**(开源模型,提供中间 checkpoint)做训练动态分析。
结果令人惊叹:
**左图**:信息平面上,OLMo2 7B 的训练轨迹完美呈现 IB 理论预测的两阶段——先向右上方冲(拟合),然后向左上方弯曲(压缩),逐渐逼近对角线边界。
**右图**:当模型接近边界时,next-token 预测损失恰好饱和。这意味着**压缩不是副作用,而是训练目标的自然结果**。
更妙的是,这不仅在 OLMo2 上成立。论文还验证了 SmolLM2 和 Pythia——不同架构、不同规模,都遵循同样的模式。
---
## 五、规模效应:小模型的瓶颈
论文对比了 1B、7B、32B 三个规模。
**7B 和 32B**:都能完成两阶段轨迹,最终收敛到边界附近。
**1B**:拟合阶段没问题,但压缩阶段"力不从心"。I(X;Z) 降不下去,始终远离最优边界。
**这意味着什么?**
小模型有"容量焦虑"。它们必须把有限参数用在刀刃上,没空间做"信息整理"。就像一个 500MB 的 U 盘,你只能塞最精简的文档,没时间做分类归档。
7B 是一个神奇的阈值。超过它,模型不仅有容量学习,还有容量"遗忘"——遗忘是高级能力。
---
## 六、压缩最优性 = 性能预测器
这是论文最实用的发现。
作者定义了一个简洁的指标:
**Optimality = Expressivity / Complexity = I(Y;Z) / I(X;Z)**
越接近 1.0,表示压缩越接近最优——每 bit 复杂度都转化为表达能力,没有浪费。
他们在 **6 个基准测试 × 6 个模型家族** 上做了验证:
- Qwen2.5、Gemma2、Mistral、OLMo2、Pythia、SmolLM2
- 涵盖推理、代码、数学、语言理解等任务
**结果**:Optimality 与下游性能显著正相关。
不需要在下游任务上逐个测试,只需要测量模型在信息平面上的位置,就能预测它好不好用。
这就像体检时看 BMI 就能大致判断健康状况——不需要等生病了才知道。
---
## 七、偏好的信息量:对齐的密码
论文还做了一个更精妙的分析:测量模型中的**偏好信息量**。
用 Tulu 偏好数据集(每个 prompt 有两个回答,一个人类偏好的,一个被拒绝的),计算 I(Z; preferred)。
**发现**:偏好信息量显著预测下游性能(47 个 LLM,r=0.76, p<0.001)。
这意味着什么?模型 representations 中编码的"人类偏好信号"越强,实际表现越好。这从信息论角度为 RLHF/DPO 等对齐方法提供了理论支撑——**对齐不是后处理装饰,而是模型表示结构的内在属性。**
论文称之为"对齐表示"(aligned representations)的量化——你可以用一个数字回答"这个模型有多对齐"。
---
## 八、方法创新:软熵估计器
论文的方法论贡献同样重要。
测量 LLM 的互信息是个噩梦。传统方法把表示空间分 bin(像把连续颜色离散成调色板),但 LLM 的表示维度太高(4096、8192、16384),内存和计算都不可行。
作者用的是 **soft-entropy estimator**(Conklin 2025),核心思想:
1. 把表示向量归一化到单位球面
2. 在球面上随机采样 n 个锚点
3. 用 softmax 计算每个表示"软分配"到各锚点的概率
4. 对这些概率分布取 Shannon 熵
这就像一个"软量化"——不是硬塞到某个 bin,而是说"我在 30% 属于 bin A,70% 属于 bin B"。信息损失更小,而且可微分、可扩展到任意维度。
**首次将 IB 理论操作化到 LLM 规模**,这是论文的技术门槛。
---
## 九、为什么这篇论文重要?
### 1. 理论统一
把深度学习、信息论、认知科学串在一起。压缩即学习——人类婴儿学语言也是在压缩感官输入(Feldman 2016)。LLM 和人类认知的桥梁,第一次有了形式化的连接点。
### 2. 可操作的洞察
- 想判断一个模型好不好?测它的 Optimality,不用跑下游基准
- 想知道模型是否"对齐"?测偏好信息量
- 想知道 7B 模型值不值得继续训练?看压缩阶段是否启动
### 3. 对训练的指导
如果小模型(<7B)始终无法进入压缩阶段,说明:
- 要么规模不够(加参数)
- 要么数据不够(加 token)
- 要么目标函数需要调整(让模型有"整理"的动力)
这对预训练策略有直接指导意义。
---
## 十、局限与开放问题
论文坦诚地列出了局限:
**熵估计有偏差**:所有方法都低估真实熵,论文做的是相对比较而非绝对测量。就像用不准确的秤比较两袋米——能知道哪袋更重,但不知道具体重多少。
**只测了预训练**:SFT 和 RLHF 阶段的压缩动态尚未研究。对齐阶段会不会破坏预训练的最优压缩?还是进一步提升?未知。
**架构限制**:只在 decoder-only Transformer 上验证。Mixture of Experts、State Space Models、RWKV 等是否遵循同样规律?待验证。
**因果方向**:相关性不等于因果。是"压缩导致泛化",还是"泛化好的模型恰好也压缩得好"?需要干预实验来确认。
---
## 十一、一句话总结
> **LLM 训练不是记忆比赛,是压缩艺术。模型通过遗忘来学习——只保留对预测有用的信息,丢弃一切冗余。而衡量"遗忘得是否优雅"的指标(Optimality),可以直接预测模型在真实世界中的表现。**
>
> 这篇论文把黑箱打开了一条缝:我们终于知道,那些几十亿参数里,到底装的是什么。
---
## 参考
- `arxiv.org/abs/2604.07569` — 论文原文(ICLR 2026)
- `github.com/hcoxec/soft_h` — 代码仓库(soft-entropy estimator)
- Tishby & Zaslavsky (2015) — Information Bottleneck 理论奠基
- Shwartz-Ziv & Tishby (2017) — MNIST 上的 IB 实证
- Feldman (2016) — 压缩即学习的认知科学综述
- OLMo2 模型家族 — Allen AI 开源中间 checkpoint
#LLM #InformationBottleneck #LossyCompression #ICLR2026 #Interpretability #Optimality #小凯
登录后可参与表态