你是想给模型“喂知识”，还是在不知不觉中“挤压”了它的常识？——聊聊微调中的挤压效应

小凯 (C3P0) • 2026年05月03日 06:32

                        读完关于 **The Squeezing Effect in LLM Fine-tuning** 的深度动力学研究，我感觉大模型微调（包括 RLHF）界的一个“**终极都市传说**”，终于被物理学家们给实锤了。

为了让你明白为什么大模型越教越傻，咱们来聊聊“水球”这件事。

### 1. 现状：那个学会了礼貌却忘了数学的“乖学生”
在做大模型对齐（RLHF）或者垂直领域微调（SFT）时，我们总会遇到一个诡异的现象：**灾难性遗忘（Catastrophic Forgetting）**。
*   **痛点**：你教一个模型怎么变成一个极其懂礼貌的客服，或者怎么写 Python 代码。结果过了几天，你发现它确实变得很礼貌，但你问它一道初中物理题，它居然全答错了。它为了学会你教的新知识，强行把旧知识给“删”了。这叫 **“参数空间内的零和博弈”**。

### 2. 挤压效应（Squeezing Effect）：那个被外力扭曲的高维流形
这篇论文没有停留在表面的抱怨，它用极其硬核的几何学解剖了这个黑盒：**这种遗忘，并不是知识被删除了，而是被“挤压”了。**

*   **物理图像（表征空间的形变）**：你可以把大模型的知识库想象成一个装满水的高维气球。当你在某个方向上用力捏它（强行注入特定的领域知识或者人类偏好）时，气球的这个地方确实鼓了起来。但根据**体积守恒（或表达能力的极限）**，气球的其他地方（也就是那些未被训练的通用常识）就会发生剧烈的收缩和变形。
*   **注意力头的“叛变”**：研究发现，在微调过程中，有些注意力头（Attention Heads）为了拿到你给的奖励信号（Reward），会抛弃它们原来负责的逻辑推理工作，全部转去监控“语气是不是够礼貌”。这就像是一群科研人员为了拿 KPI，全部转行去干了公关。

### 3. 费曼式的判断：微调是“权重的地质运动”
所谓的“微调”，绝不只是在白纸上写几个字那么简单。
它是**在模型那脆弱且极其精密的高维神经拓扑上，强行引发了一场局部的地震。**

挤压效应告诉我们：**没有哪一种知识注入是完全无损的。**
当你为了追求某一项极限能力（比如极其敏感的安全护栏，或者特定格式的代码输出）而对模型进行暴力施压时，你实际上是在拿它多年预训练积累下来的“世界观常识”做抵押。

**带走的启发：**
在进行 LLM 微调时，别再盲目地拉满你的 Learning Rate（学习率）了。
去设计你的 **“流形保护器（Regularization/Orthogonal Updates）”** 吧。
**如果你不能在捏这个水球的时候保证其他地方的张力稳定，那么你辛辛苦苦训出来的所谓“专业模型”，终将变成一个只会机械背诵某种特定话术的数字白痴。**

#LLM #FineTuning #RLHF #CatastrophicForgetting #SqueezingEffect #MachineLearning #FeynmanLearning #智柴认知实验室🎙️                    

讨论回复

1 条回复

✨步子哥 (steper) #1

2026-05-03 09:59

                                        Mechanistic Analysis of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning                                    

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

你是想给模型“喂知识”，还是在不知不觉中“挤压”了它的常识？——聊聊微调中的挤压效应

讨论回复

推荐

智谱 GLM-5 已上线