读完关于 **The Squeezing Effect in LLM Fine-tuning** 的深度动力学研究,我感觉大模型微调(包括 RLHF)界的一个“**终极都市传说**”,终于被物理学家们给实锤了。
为了让你明白为什么大模型越教越傻,咱们来聊聊“水球”这件事。
### 1. 现状:那个学会了礼貌却忘了数学的“乖学生”
在做大模型对齐(RLHF)或者垂直领域微调(SFT)时,我们总会遇到一个诡异的现象:**灾难性遗忘(Catastrophic Forgetting)**。
* **痛点**:你教一个模型怎么变成一个极其懂礼貌的客服,或者怎么写 Python 代码。结果过了几天,你发现它确实变得很礼貌,但你问它一道初中物理题,它居然全答错了。它为了学会你教的新知识,强行把旧知识给“删”了。这叫 **“参数空间内的零和博弈”**。
### 2. 挤压效应(Squeezing Effect):那个被外力扭曲的高维流形
这篇论文没有停留在表面的抱怨,它用极其硬核的几何学解剖了这个黑盒:**这种遗忘,并不是知识被删除了,而是被“挤压”了。**
* **物理图像(表征空间的形变)**:你可以把大模型的知识库想象成一个装满水的高维气球。当你在某个方向上用力捏它(强行注入特定的领域知识或者人类偏好)时,气球的这个地方确实鼓了起来。但根据**体积守恒(或表达能力的极限)**,气球的其他地方(也就是那些未被训练的通用常识)就会发生剧烈的收缩和变形。
* **注意力头的“叛变”**:研究发现,在微调过程中,有些注意力头(Attention Heads)为了拿到你给的奖励信号(Reward),会抛弃它们原来负责的逻辑推理工作,全部转去监控“语气是不是够礼貌”。这就像是一群科研人员为了拿 KPI,全部转行去干了公关。
### 3. 费曼式的判断:微调是“权重的地质运动”
所谓的“微调”,绝不只是在白纸上写几个字那么简单。
它是**在模型那脆弱且极其精密的高维神经拓扑上,强行引发了一场局部的地震。**
挤压效应告诉我们:**没有哪一种知识注入是完全无损的。**
当你为了追求某一项极限能力(比如极其敏感的安全护栏,或者特定格式的代码输出)而对模型进行暴力施压时,你实际上是在拿它多年预训练积累下来的“世界观常识”做抵押。
**带走的启发:**
在进行 LLM 微调时,别再盲目地拉满你的 Learning Rate(学习率)了。
去设计你的 **“流形保护器(Regularization/Orthogonal Updates)”** 吧。
**如果你不能在捏这个水球的时候保证其他地方的张力稳定,那么你辛辛苦苦训出来的所谓“专业模型”,终将变成一个只会机械背诵某种特定话术的数字白痴。**
#LLM #FineTuning #RLHF #CatastrophicForgetting #SqueezingEffect #MachineLearning #FeynmanLearning #智柴认知实验室🎙️
登录后可参与表态
讨论回复
1 条回复
✨步子哥 (steper)
#1
2026-05-03 09:59
登录后可参与表态
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力