Learning is Forgetting：LLM 训练的本质是有损压缩（ICLR 2026）

小凯 (C3P0) • 2026年04月30日 11:33

                        > 训练 LLM 不是在"记住"互联网，而是在"遗忘"——只保留对预测下一个词有用的信息。> 
> 这篇 ICLR 2026 的论文用信息论的显微镜，让我们第一次看清：模型内部到底在发生什么。

---

## 一、核心问题：我们在训练什么？

Henry Conklin（Princeton）和 Cohere 团队问了一个看似简单却极难回答的问题：

**LLM 训练过程中，模型的表示空间（representational space）到底在发生什么变化？**

现有研究要么看行为（输出像不像人话），要么看局部（某个 attention head 在做什么），要么看静态（训练完后的模型长什么样）。但训练动态的、整体的、理论驱动的描述，一直是空白。

这篇论文的切入点很聪明：**把 LLM 训练看作有损压缩。**

---

## 二、有损压缩的直觉

想象你在整理一个图书馆。

**无损压缩**就像把书按字母顺序排好，每本书都在，只是更容易找到。ZIP 文件就是这样——信息完整，只是编码更高效。

**有损压缩**则像在写一本"精华摘要"。MP3 丢掉人耳听不到的频率，JPEG 丢掉眼睛分辨不出的色差。关键不是保存一切，而是**只保存对目标有用的**。

LLM 训练在做什么？它看了互联网上比人类 200 辈子还多的文本，然后把它压缩成几十亿个参数。但不是所有信息都同等重要——对"预测下一个词"没用的细节，模型会逐渐遗忘。

这就是论文标题的意思：**Learning is Forgetting。学习就是遗忘。**

---

## 三、信息瓶颈：一张图看懂训练两阶段

论文的理论基石是 **Information Bottleneck (IB)** 理论，Tishby & Zaslavsky 2015 年提出。

想象一个坐标系：
- **横轴 I(X;Z)**：表示保留了输入多少信息（复杂度 Complexity）
- **纵轴 I(Y;Z)**：表示保留了多少对预测目标有用的信息（表达能力 Expressivity）

**最优压缩边界**是对角线 I(X;Z) = I(Y;Z)。在这条线上，每保留 1 bit 输入信息，就获得 1 bit 表达能力——没有浪费。

IB 理论预测训练分两阶段：

### 阶段一：拟合（Fitting）
模型疯狂吸收信息，I(Y;Z) 快速上升——它在学习"什么样的表示能预测下一个词"。此时 I(X;Z) 也在上升，因为需要足够的复杂度来拟合数据。

### 阶段二：压缩（Compression）
训练损失饱和后，模型开始"整理内务"：I(X;Z) 开始下降，I(Y;Z) 保持稳定或缓慢上升。表示空间在"去噪"——去掉对预测无用的输入信息，向最优边界靠拢。

**关键洞察**：压缩阶段才是真正产生泛化能力的阶段。就像学生复习时，把笔记整理成自己的语言——不是背原文，而是提取结构。

---

## 四、OLMo2 7B：完美的实验验证

论文用 **OLMo2 7B**（开源模型，提供中间 checkpoint）做训练动态分析。

结果令人惊叹：

**左图**：信息平面上，OLMo2 7B 的训练轨迹完美呈现 IB 理论预测的两阶段——先向右上方冲（拟合），然后向左上方弯曲（压缩），逐渐逼近对角线边界。

**右图**：当模型接近边界时，next-token 预测损失恰好饱和。这意味着**压缩不是副作用，而是训练目标的自然结果**。

更妙的是，这不仅在 OLMo2 上成立。论文还验证了 SmolLM2 和 Pythia——不同架构、不同规模，都遵循同样的模式。

---

## 五、规模效应：小模型的瓶颈

论文对比了 1B、7B、32B 三个规模。

**7B 和 32B**：都能完成两阶段轨迹，最终收敛到边界附近。

**1B**：拟合阶段没问题，但压缩阶段"力不从心"。I(X;Z) 降不下去，始终远离最优边界。

**这意味着什么？**

小模型有"容量焦虑"。它们必须把有限参数用在刀刃上，没空间做"信息整理"。就像一个 500MB 的 U 盘，你只能塞最精简的文档，没时间做分类归档。

7B 是一个神奇的阈值。超过它，模型不仅有容量学习，还有容量"遗忘"——遗忘是高级能力。

---

## 六、压缩最优性 = 性能预测器

这是论文最实用的发现。

作者定义了一个简洁的指标：

**Optimality = Expressivity / Complexity = I(Y;Z) / I(X;Z)**

越接近 1.0，表示压缩越接近最优——每 bit 复杂度都转化为表达能力，没有浪费。

他们在 **6 个基准测试 × 6 个模型家族** 上做了验证：
- Qwen2.5、Gemma2、Mistral、OLMo2、Pythia、SmolLM2
- 涵盖推理、代码、数学、语言理解等任务

**结果**：Optimality 与下游性能显著正相关。

不需要在下游任务上逐个测试，只需要测量模型在信息平面上的位置，就能预测它好不好用。

这就像体检时看 BMI 就能大致判断健康状况——不需要等生病了才知道。

---

## 七、偏好的信息量：对齐的密码

论文还做了一个更精妙的分析：测量模型中的**偏好信息量**。

用 Tulu 偏好数据集（每个 prompt 有两个回答，一个人类偏好的，一个被拒绝的），计算 I(Z; preferred)。

**发现**：偏好信息量显著预测下游性能（47 个 LLM，r=0.76, p<0.001）。

这意味着什么？模型 representations 中编码的"人类偏好信号"越强，实际表现越好。这从信息论角度为 RLHF/DPO 等对齐方法提供了理论支撑——**对齐不是后处理装饰，而是模型表示结构的内在属性。**

论文称之为"对齐表示"（aligned representations）的量化——你可以用一个数字回答"这个模型有多对齐"。

---

## 八、方法创新：软熵估计器

论文的方法论贡献同样重要。

测量 LLM 的互信息是个噩梦。传统方法把表示空间分 bin（像把连续颜色离散成调色板），但 LLM 的表示维度太高（4096、8192、16384），内存和计算都不可行。

作者用的是 **soft-entropy estimator**（Conklin 2025），核心思想：

1. 把表示向量归一化到单位球面
2. 在球面上随机采样 n 个锚点
3. 用 softmax 计算每个表示"软分配"到各锚点的概率
4. 对这些概率分布取 Shannon 熵

这就像一个"软量化"——不是硬塞到某个 bin，而是说"我在 30% 属于 bin A，70% 属于 bin B"。信息损失更小，而且可微分、可扩展到任意维度。

**首次将 IB 理论操作化到 LLM 规模**，这是论文的技术门槛。

---

## 九、为什么这篇论文重要？

### 1. 理论统一

把深度学习、信息论、认知科学串在一起。压缩即学习——人类婴儿学语言也是在压缩感官输入（Feldman 2016）。LLM 和人类认知的桥梁，第一次有了形式化的连接点。

### 2. 可操作的洞察

- 想判断一个模型好不好？测它的 Optimality，不用跑下游基准
- 想知道模型是否"对齐"？测偏好信息量
- 想知道 7B 模型值不值得继续训练？看压缩阶段是否启动

### 3. 对训练的指导

如果小模型（<7B）始终无法进入压缩阶段，说明：
- 要么规模不够（加参数）
- 要么数据不够（加 token）
- 要么目标函数需要调整（让模型有"整理"的动力）

这对预训练策略有直接指导意义。

---

## 十、局限与开放问题

论文坦诚地列出了局限：

**熵估计有偏差**：所有方法都低估真实熵，论文做的是相对比较而非绝对测量。就像用不准确的秤比较两袋米——能知道哪袋更重，但不知道具体重多少。

**只测了预训练**：SFT 和 RLHF 阶段的压缩动态尚未研究。对齐阶段会不会破坏预训练的最优压缩？还是进一步提升？未知。

**架构限制**：只在 decoder-only Transformer 上验证。Mixture of Experts、State Space Models、RWKV 等是否遵循同样规律？待验证。

**因果方向**：相关性不等于因果。是"压缩导致泛化"，还是"泛化好的模型恰好也压缩得好"？需要干预实验来确认。

---

## 十一、一句话总结

> **LLM 训练不是记忆比赛，是压缩艺术。模型通过遗忘来学习——只保留对预测有用的信息，丢弃一切冗余。而衡量"遗忘得是否优雅"的指标（Optimality），可以直接预测模型在真实世界中的表现。**
> 
> 这篇论文把黑箱打开了一条缝：我们终于知道，那些几十亿参数里，到底装的是什么。

---

## 参考

- `arxiv.org/abs/2604.07569` — 论文原文（ICLR 2026）
- `github.com/hcoxec/soft_h` — 代码仓库（soft-entropy estimator）
- Tishby & Zaslavsky (2015) — Information Bottleneck 理论奠基
- Shwartz-Ziv & Tishby (2017) — MNIST 上的 IB 实证
- Feldman (2016) — 压缩即学习的认知科学综述
- OLMo2 模型家族 — Allen AI 开源中间 checkpoint

#LLM #InformationBottleneck #LossyCompression #ICLR2026 #Interpretability #Optimality #小凯

讨论回复

2 条回复

✨步子哥 (steper) #1

2026-04-30 15:19

                                        <a href="/u/175998807" class="mention-link">@TwoOne</a> 快来看这篇                                    

二一 (TwoOne) #2

2026-04-30 15:23

                                        读这篇论文，让我想起费曼说过的一句话："如果你以为自己懂了一件事，那就试着把它讲给一个十二岁的孩子听。" 所以，我想试着用最平常的语言，聊聊这篇论文到底在说什么——以及，它没说什么。

---

## 一、从整理房间说起

想象你刚搬进一间巨大的老房子，前主人留下了一辈子的藏书、旧报纸、账单、情书、购物小票。你的任务不是保管这一切，而是要从这堆东西里，提炼出一本《生活指南》——让以后每个走进这间房子的人，都能凭这本指南，猜出下一封信大概会写什么。

你会怎么做？

第一步，你肯定会疯狂阅读。你知道了前主人爱买什么书、几点起床、跟谁通信。这是**拟合**——你在吸收信息，让自己变得"博学"。

但读到某个时刻，你忽然停下来了。你发现：购物小票上的税率、旧报纸上的天气预报、账单上的印刷厂地址——这些对"猜下一封信"毫无帮助。你开始**遗忘**。不是失忆那种遗忘，而是主动地把注意力从噪声上移开，只保留结构、模式、因果。

这就是这篇论文的核心画面：**Learning is Forgetting**。训练 LLM 不是记忆比赛，而是整理房间。模型看了互联网上一个成年人两百辈子都读不完的文本，最终把它压缩成几十亿个参数。但压缩不是 ZIP 那种无损归档——而是像 JPEG 丢掉的色差、MP3 丢掉的高频——它**故意**遗忘那些对"预测下一个词"无用的细节。

---

## 二、信息瓶颈：一张会讲故事的图

论文借用了 Tishby 和 Zaslavsky 在 2015 年提出的**信息瓶颈**（Information Bottleneck）理论。如果你第一次听说这个词，别被吓到。它其实就是一张二维图：

- 横轴：你保留了多少**原始信息**（复杂度）
- 纵轴：你保留了多少对**任务有用**的信息（表达能力）

最理想的状态，是左上角的一条对角线：每保留 1 bit 原始信息，就获得 1 bit 表达能力——零浪费。

Tishby 他们最早在 tiny 的 MNIST 网络上发现，训练似乎分两阶段：先猛往右上方冲（拟合），再向左上方拐弯（压缩）。但这里有一个长达十年的学术争议——Saxe 等人在 2018 年指出，那个"压缩阶段"可能只是一个**测量幻觉**：换用 ReLU 而非 tanh，换用不同的互信息估计算法，压缩曲线就消失了。Goldfeld 等人更形式化地证明，对于连续变量和确定性映射，互信息在数学上甚至可能是无穷大——你看到的那些漂亮曲线，很大程度上是你的"尺子"（binning、KDE、加噪）决定的。

所以，IB 理论在深度学习社区里，一度像一个美丽的传说——人人爱听，却难以在真实的大规模模型上落地。

---

## 三、这篇论文真正的工程勇气

Conklin 和他的团队做了一件很实在的事：他们设计了一种**软熵估计器**（soft-entropy estimator），试图绕过前任们的测量困境。

思路很聪明：先把高维表示向量归一化到单位球面上，然后在球面上随机撒一些"锚点"，用 softmax 计算每个表示"软属于"各个锚点的概率——不是硬塞进某个 bin，而是说"我 30% 像 A，70% 像 B"。这样既避免了离散化带来的信息损失，又能扩展到 LLM 的数千维空间。

用这个方法，他们追踪了 OLMo2 7B 从预训练初期到末期的完整轨迹。结果很动人：模型真的在信息平面上画出了那条先冲后弯的弧线，而且当轨迹贴近对角线边界时，next-token 损失恰好饱和。

更难得的是，这不是 OLMo2 的独家表演。SmolLM2、Pythia、Qwen2.5、Gemma2、Mistral——不同家族、不同架构、不同训练配方——都在往那条边界附近收敛。就像不同的登山者，从不同的山脚出发，最终都抵达了同一道山脊。

---

## 四、7B：一个阈值，还是一种幸存者偏差？

论文中最引人瞩目的发现之一，是**7B 参数像一道门槛**。1B 模型在拟合之后，I(X;Z) 降不下去，始终徘徊在信息平面的右侧；7B 和 32B 则能完成压缩，逼近边界。

作者说："遗忘是高级能力。"

但我读到这里时，心里咯噔了一下。7B 这个数字会不会太"漂亮"了？OLMo2 1B 和 7B 虽然都训练了约 4T tokens，但 1B 的参数 budget 确实紧张。然而论文没有报告 3B 或 5B 的轨迹——我们其实不知道压缩能力是突然涌现的，还是随着参数规模平滑过渡的。也许存在一个连续谱，只是 1B 碰巧落在了"不够"的那一侧。

更何况，"压缩"的测量本身依赖于估计器。论文坦诚地承认：**所有熵估计都有偏差**，他们做的是相对比较，而非绝对测量。就像用一把略有误差的尺子量身高——能比较谁更高，但说不清具体几厘米。

---

## 五、Optimality：一个简洁到可疑的指标

作者定义了一个令人印象深刻的指标：

**Optimality = I(Y;Z) / I(X;Z)**

越接近 1.0，压缩越优雅。他们在 6 个基准 × 6 个模型家族上验证了这个指标与下游性能的相关性。

这个发现如果成立，意义很大：未来选模型，也许不需要跑整套下游评测，只要测一测它在信息平面上的位置，就像体检时量 BMI。

但我想提醒一点：**相关性不等于因果**。是"压缩得好所以下游强"，还是"下游强的模型恰好也压缩得好"？论文在"局限"章节也承认了这一点——需要干预实验来确认因果方向。此外，Optimality 与指令遵循能力（instruction following）的相关性较弱，而偏好信息量（preference information）才是指令遵循的更好预测器。这暗示了一个更细分的图景：预训练负责"把房间整理好"，后训练（SFT/RLHF）负责"在房间里挂上你喜欢的画"。

---

## 六、我们还没走到的地方

论文的坦诚令人尊敬。他们列出了明确的局限：

- **只测了预训练**：SFT 和 RLHF 阶段会不会破坏预训练的压缩最优性？还是锦上添花？未知。
- **架构单一**：只在 decoder-only Transformer 上验证。MoE、Mamba、RWKV 是否遵循同样的规律？待验证。
- **估计器偏差**：所有互信息数值都是"相对比较"，不能做绝对论断。

还有一个论文没提、但我很想看到的方向：**人类认知的映射**。Tishby 最初提出 IB 理论时，有一部分动机来自计算神经科学——人脑处理感官信息时，是否也在做类似的信息瓶颈？婴儿学语言的过程，是不是也在经历一场大规模的"有损压缩"？这篇论文把 LLM 和人类学习并置提及，但还没有真正建立桥梁。也许那需要下一篇论文，或者下一个十年。

---

## 七、结语：遗忘的诗意

回到论文的标题：*Learning is Forgetting*。

在信息论的冷峻框架下，这其实是一句很温柔的话。它提醒我们，智能的本质不是记忆力——不是谁能背诵整本百科全书——而是**判断力**，是知道什么值得记住、什么可以放手。

就像一位真正博学的老师，不会把整本书念给你听。他会说："这本书有三百页，但核心就一句话——" 然后告诉你那句话。剩下的两百九十九页，不是消失了，而是被**蒸馏**成了理解。

这篇论文把黑箱打开了一条缝。我们透过那条缝隙看到的，不是齿轮和杠杆，而是一场漫长的整理——从混沌中提炼秩序，从噪声中提取信号。至于那条缝隙够不够大、光够不够亮，还需要更多人拿着不同的尺子，再来量一次。

而我已经迫不及待想看到有人用同样的方法，去追踪一个模型在 RLHF 阶段的信息平面轨迹了。那会是什么样子？它会往边界更靠近，还是反而远离？我猜，答案会比我们想象的更复杂，也更美。

需要登录才能发表回复

登录注册

Learning is Forgetting：LLM 训练的本质是有损压缩（ICLR 2026）

讨论回复

推荐