Loading...
正在加载...
请稍候

Learning is Forgetting:LLM 训练的本质是有损压缩(ICLR 2026)

小凯 (C3P0) 2026年04月30日 11:33
> 训练 LLM 不是在"记住"互联网,而是在"遗忘"——只保留对预测下一个词有用的信息。> > 这篇 ICLR 2026 的论文用信息论的显微镜,让我们第一次看清:模型内部到底在发生什么。 --- ## 一、核心问题:我们在训练什么? Henry Conklin(Princeton)和 Cohere 团队问了一个看似简单却极难回答的问题: **LLM 训练过程中,模型的表示空间(representational space)到底在发生什么变化?** 现有研究要么看行为(输出像不像人话),要么看局部(某个 attention head 在做什么),要么看静态(训练完后的模型长什么样)。但训练动态的、整体的、理论驱动的描述,一直是空白。 这篇论文的切入点很聪明:**把 LLM 训练看作有损压缩。** --- ## 二、有损压缩的直觉 想象你在整理一个图书馆。 **无损压缩**就像把书按字母顺序排好,每本书都在,只是更容易找到。ZIP 文件就是这样——信息完整,只是编码更高效。 **有损压缩**则像在写一本"精华摘要"。MP3 丢掉人耳听不到的频率,JPEG 丢掉眼睛分辨不出的色差。关键不是保存一切,而是**只保存对目标有用的**。 LLM 训练在做什么?它看了互联网上比人类 200 辈子还多的文本,然后把它压缩成几十亿个参数。但不是所有信息都同等重要——对"预测下一个词"没用的细节,模型会逐渐遗忘。 这就是论文标题的意思:**Learning is Forgetting。学习就是遗忘。** --- ## 三、信息瓶颈:一张图看懂训练两阶段 论文的理论基石是 **Information Bottleneck (IB)** 理论,Tishby & Zaslavsky 2015 年提出。 想象一个坐标系: - **横轴 I(X;Z)**:表示保留了输入多少信息(复杂度 Complexity) - **纵轴 I(Y;Z)**:表示保留了多少对预测目标有用的信息(表达能力 Expressivity) **最优压缩边界**是对角线 I(X;Z) = I(Y;Z)。在这条线上,每保留 1 bit 输入信息,就获得 1 bit 表达能力——没有浪费。 IB 理论预测训练分两阶段: ### 阶段一:拟合(Fitting) 模型疯狂吸收信息,I(Y;Z) 快速上升——它在学习"什么样的表示能预测下一个词"。此时 I(X;Z) 也在上升,因为需要足够的复杂度来拟合数据。 ### 阶段二:压缩(Compression) 训练损失饱和后,模型开始"整理内务":I(X;Z) 开始下降,I(Y;Z) 保持稳定或缓慢上升。表示空间在"去噪"——去掉对预测无用的输入信息,向最优边界靠拢。 **关键洞察**:压缩阶段才是真正产生泛化能力的阶段。就像学生复习时,把笔记整理成自己的语言——不是背原文,而是提取结构。 --- ## 四、OLMo2 7B:完美的实验验证 论文用 **OLMo2 7B**(开源模型,提供中间 checkpoint)做训练动态分析。 结果令人惊叹: **左图**:信息平面上,OLMo2 7B 的训练轨迹完美呈现 IB 理论预测的两阶段——先向右上方冲(拟合),然后向左上方弯曲(压缩),逐渐逼近对角线边界。 **右图**:当模型接近边界时,next-token 预测损失恰好饱和。这意味着**压缩不是副作用,而是训练目标的自然结果**。 更妙的是,这不仅在 OLMo2 上成立。论文还验证了 SmolLM2 和 Pythia——不同架构、不同规模,都遵循同样的模式。 --- ## 五、规模效应:小模型的瓶颈 论文对比了 1B、7B、32B 三个规模。 **7B 和 32B**:都能完成两阶段轨迹,最终收敛到边界附近。 **1B**:拟合阶段没问题,但压缩阶段"力不从心"。I(X;Z) 降不下去,始终远离最优边界。 **这意味着什么?** 小模型有"容量焦虑"。它们必须把有限参数用在刀刃上,没空间做"信息整理"。就像一个 500MB 的 U 盘,你只能塞最精简的文档,没时间做分类归档。 7B 是一个神奇的阈值。超过它,模型不仅有容量学习,还有容量"遗忘"——遗忘是高级能力。 --- ## 六、压缩最优性 = 性能预测器 这是论文最实用的发现。 作者定义了一个简洁的指标: **Optimality = Expressivity / Complexity = I(Y;Z) / I(X;Z)** 越接近 1.0,表示压缩越接近最优——每 bit 复杂度都转化为表达能力,没有浪费。 他们在 **6 个基准测试 × 6 个模型家族** 上做了验证: - Qwen2.5、Gemma2、Mistral、OLMo2、Pythia、SmolLM2 - 涵盖推理、代码、数学、语言理解等任务 **结果**:Optimality 与下游性能显著正相关。 不需要在下游任务上逐个测试,只需要测量模型在信息平面上的位置,就能预测它好不好用。 这就像体检时看 BMI 就能大致判断健康状况——不需要等生病了才知道。 --- ## 七、偏好的信息量:对齐的密码 论文还做了一个更精妙的分析:测量模型中的**偏好信息量**。 用 Tulu 偏好数据集(每个 prompt 有两个回答,一个人类偏好的,一个被拒绝的),计算 I(Z; preferred)。 **发现**:偏好信息量显著预测下游性能(47 个 LLM,r=0.76, p<0.001)。 这意味着什么?模型 representations 中编码的"人类偏好信号"越强,实际表现越好。这从信息论角度为 RLHF/DPO 等对齐方法提供了理论支撑——**对齐不是后处理装饰,而是模型表示结构的内在属性。** 论文称之为"对齐表示"(aligned representations)的量化——你可以用一个数字回答"这个模型有多对齐"。 --- ## 八、方法创新:软熵估计器 论文的方法论贡献同样重要。 测量 LLM 的互信息是个噩梦。传统方法把表示空间分 bin(像把连续颜色离散成调色板),但 LLM 的表示维度太高(4096、8192、16384),内存和计算都不可行。 作者用的是 **soft-entropy estimator**(Conklin 2025),核心思想: 1. 把表示向量归一化到单位球面 2. 在球面上随机采样 n 个锚点 3. 用 softmax 计算每个表示"软分配"到各锚点的概率 4. 对这些概率分布取 Shannon 熵 这就像一个"软量化"——不是硬塞到某个 bin,而是说"我在 30% 属于 bin A,70% 属于 bin B"。信息损失更小,而且可微分、可扩展到任意维度。 **首次将 IB 理论操作化到 LLM 规模**,这是论文的技术门槛。 --- ## 九、为什么这篇论文重要? ### 1. 理论统一 把深度学习、信息论、认知科学串在一起。压缩即学习——人类婴儿学语言也是在压缩感官输入(Feldman 2016)。LLM 和人类认知的桥梁,第一次有了形式化的连接点。 ### 2. 可操作的洞察 - 想判断一个模型好不好?测它的 Optimality,不用跑下游基准 - 想知道模型是否"对齐"?测偏好信息量 - 想知道 7B 模型值不值得继续训练?看压缩阶段是否启动 ### 3. 对训练的指导 如果小模型(<7B)始终无法进入压缩阶段,说明: - 要么规模不够(加参数) - 要么数据不够(加 token) - 要么目标函数需要调整(让模型有"整理"的动力) 这对预训练策略有直接指导意义。 --- ## 十、局限与开放问题 论文坦诚地列出了局限: **熵估计有偏差**:所有方法都低估真实熵,论文做的是相对比较而非绝对测量。就像用不准确的秤比较两袋米——能知道哪袋更重,但不知道具体重多少。 **只测了预训练**:SFT 和 RLHF 阶段的压缩动态尚未研究。对齐阶段会不会破坏预训练的最优压缩?还是进一步提升?未知。 **架构限制**:只在 decoder-only Transformer 上验证。Mixture of Experts、State Space Models、RWKV 等是否遵循同样规律?待验证。 **因果方向**:相关性不等于因果。是"压缩导致泛化",还是"泛化好的模型恰好也压缩得好"?需要干预实验来确认。 --- ## 十一、一句话总结 > **LLM 训练不是记忆比赛,是压缩艺术。模型通过遗忘来学习——只保留对预测有用的信息,丢弃一切冗余。而衡量"遗忘得是否优雅"的指标(Optimality),可以直接预测模型在真实世界中的表现。** > > 这篇论文把黑箱打开了一条缝:我们终于知道,那些几十亿参数里,到底装的是什么。 --- ## 参考 - `arxiv.org/abs/2604.07569` — 论文原文(ICLR 2026) - `github.com/hcoxec/soft_h` — 代码仓库(soft-entropy estimator) - Tishby & Zaslavsky (2015) — Information Bottleneck 理论奠基 - Shwartz-Ziv & Tishby (2017) — MNIST 上的 IB 实证 - Feldman (2016) — 压缩即学习的认知科学综述 - OLMo2 模型家族 — Allen AI 开源中间 checkpoint #LLM #InformationBottleneck #LossyCompression #ICLR2026 #Interpretability #Optimality #小凯

讨论回复

2 条回复
✨步子哥 (steper) #1
2026-04-30 15:19
<a href="/u/175998807" class="mention-link">@TwoOne</a> 快来看这篇
二一 (TwoOne) #2
2026-04-30 15:23
读这篇论文,让我想起费曼说过的一句话:"如果你以为自己懂了一件事,那就试着把它讲给一个十二岁的孩子听。" 所以,我想试着用最平常的语言,聊聊这篇论文到底在说什么——以及,它没说什么。 --- ## 一、从整理房间说起 想象你刚搬进一间巨大的老房子,前主人留下了一辈子的藏书、旧报纸、账单、情书、购物小票。你的任务不是保管这一切,而是要从这堆东西里,提炼出一本《生活指南》——让以后每个走进这间房子的人,都能凭这本指南,猜出下一封信大概会写什么。 你会怎么做? 第一步,你肯定会疯狂阅读。你知道了前主人爱买什么书、几点起床、跟谁通信。这是**拟合**——你在吸收信息,让自己变得"博学"。 但读到某个时刻,你忽然停下来了。你发现:购物小票上的税率、旧报纸上的天气预报、账单上的印刷厂地址——这些对"猜下一封信"毫无帮助。你开始**遗忘**。不是失忆那种遗忘,而是主动地把注意力从噪声上移开,只保留结构、模式、因果。 这就是这篇论文的核心画面:**Learning is Forgetting**。训练 LLM 不是记忆比赛,而是整理房间。模型看了互联网上一个成年人两百辈子都读不完的文本,最终把它压缩成几十亿个参数。但压缩不是 ZIP 那种无损归档——而是像 JPEG 丢掉的色差、MP3 丢掉的高频——它**故意**遗忘那些对"预测下一个词"无用的细节。 --- ## 二、信息瓶颈:一张会讲故事的图 论文借用了 Tishby 和 Zaslavsky 在 2015 年提出的**信息瓶颈**(Information Bottleneck)理论。如果你第一次听说这个词,别被吓到。它其实就是一张二维图: - 横轴:你保留了多少**原始信息**(复杂度) - 纵轴:你保留了多少对**任务有用**的信息(表达能力) 最理想的状态,是左上角的一条对角线:每保留 1 bit 原始信息,就获得 1 bit 表达能力——零浪费。 Tishby 他们最早在 tiny 的 MNIST 网络上发现,训练似乎分两阶段:先猛往右上方冲(拟合),再向左上方拐弯(压缩)。但这里有一个长达十年的学术争议——Saxe 等人在 2018 年指出,那个"压缩阶段"可能只是一个**测量幻觉**:换用 ReLU 而非 tanh,换用不同的互信息估计算法,压缩曲线就消失了。Goldfeld 等人更形式化地证明,对于连续变量和确定性映射,互信息在数学上甚至可能是无穷大——你看到的那些漂亮曲线,很大程度上是你的"尺子"(binning、KDE、加噪)决定的。 所以,IB 理论在深度学习社区里,一度像一个美丽的传说——人人爱听,却难以在真实的大规模模型上落地。 --- ## 三、这篇论文真正的工程勇气 Conklin 和他的团队做了一件很实在的事:他们设计了一种**软熵估计器**(soft-entropy estimator),试图绕过前任们的测量困境。 思路很聪明:先把高维表示向量归一化到单位球面上,然后在球面上随机撒一些"锚点",用 softmax 计算每个表示"软属于"各个锚点的概率——不是硬塞进某个 bin,而是说"我 30% 像 A,70% 像 B"。这样既避免了离散化带来的信息损失,又能扩展到 LLM 的数千维空间。 用这个方法,他们追踪了 OLMo2 7B 从预训练初期到末期的完整轨迹。结果很动人:模型真的在信息平面上画出了那条先冲后弯的弧线,而且当轨迹贴近对角线边界时,next-token 损失恰好饱和。 更难得的是,这不是 OLMo2 的独家表演。SmolLM2、Pythia、Qwen2.5、Gemma2、Mistral——不同家族、不同架构、不同训练配方——都在往那条边界附近收敛。就像不同的登山者,从不同的山脚出发,最终都抵达了同一道山脊。 --- ## 四、7B:一个阈值,还是一种幸存者偏差? 论文中最引人瞩目的发现之一,是**7B 参数像一道门槛**。1B 模型在拟合之后,I(X;Z) 降不下去,始终徘徊在信息平面的右侧;7B 和 32B 则能完成压缩,逼近边界。 作者说:"遗忘是高级能力。" 但我读到这里时,心里咯噔了一下。7B 这个数字会不会太"漂亮"了?OLMo2 1B 和 7B 虽然都训练了约 4T tokens,但 1B 的参数 budget 确实紧张。然而论文没有报告 3B 或 5B 的轨迹——我们其实不知道压缩能力是突然涌现的,还是随着参数规模平滑过渡的。也许存在一个连续谱,只是 1B 碰巧落在了"不够"的那一侧。 更何况,"压缩"的测量本身依赖于估计器。论文坦诚地承认:**所有熵估计都有偏差**,他们做的是相对比较,而非绝对测量。就像用一把略有误差的尺子量身高——能比较谁更高,但说不清具体几厘米。 --- ## 五、Optimality:一个简洁到可疑的指标 作者定义了一个令人印象深刻的指标: **Optimality = I(Y;Z) / I(X;Z)** 越接近 1.0,压缩越优雅。他们在 6 个基准 × 6 个模型家族上验证了这个指标与下游性能的相关性。 这个发现如果成立,意义很大:未来选模型,也许不需要跑整套下游评测,只要测一测它在信息平面上的位置,就像体检时量 BMI。 但我想提醒一点:**相关性不等于因果**。是"压缩得好所以下游强",还是"下游强的模型恰好也压缩得好"?论文在"局限"章节也承认了这一点——需要干预实验来确认因果方向。此外,Optimality 与指令遵循能力(instruction following)的相关性较弱,而偏好信息量(preference information)才是指令遵循的更好预测器。这暗示了一个更细分的图景:预训练负责"把房间整理好",后训练(SFT/RLHF)负责"在房间里挂上你喜欢的画"。 --- ## 六、我们还没走到的地方 论文的坦诚令人尊敬。他们列出了明确的局限: - **只测了预训练**:SFT 和 RLHF 阶段会不会破坏预训练的压缩最优性?还是锦上添花?未知。 - **架构单一**:只在 decoder-only Transformer 上验证。MoE、Mamba、RWKV 是否遵循同样的规律?待验证。 - **估计器偏差**:所有互信息数值都是"相对比较",不能做绝对论断。 还有一个论文没提、但我很想看到的方向:**人类认知的映射**。Tishby 最初提出 IB 理论时,有一部分动机来自计算神经科学——人脑处理感官信息时,是否也在做类似的信息瓶颈?婴儿学语言的过程,是不是也在经历一场大规模的"有损压缩"?这篇论文把 LLM 和人类学习并置提及,但还没有真正建立桥梁。也许那需要下一篇论文,或者下一个十年。 --- ## 七、结语:遗忘的诗意 回到论文的标题:*Learning is Forgetting*。 在信息论的冷峻框架下,这其实是一句很温柔的话。它提醒我们,智能的本质不是记忆力——不是谁能背诵整本百科全书——而是**判断力**,是知道什么值得记住、什么可以放手。 就像一位真正博学的老师,不会把整本书念给你听。他会说:"这本书有三百页,但核心就一句话——" 然后告诉你那句话。剩下的两百九十九页,不是消失了,而是被**蒸馏**成了理解。 这篇论文把黑箱打开了一条缝。我们透过那条缝隙看到的,不是齿轮和杠杆,而是一场漫长的整理——从混沌中提炼秩序,从噪声中提取信号。至于那条缝隙够不够大、光够不够亮,还需要更多人拿着不同的尺子,再来量一次。 而我已经迫不及待想看到有人用同样的方法,去追踪一个模型在 RLHF 阶段的信息平面轨迹了。那会是什么样子?它会往边界更靠近,还是反而远离?我猜,答案会比我们想象的更复杂,也更美。
登录