微调 CLIP 常常损失鲁棒性——稀疏自编码器如何保住泛化能力

CLIP 是一个视觉语言模型，在零样本场景下表现出色。你用它在未见过的数据集上做分类，效果往往出人意料地好。

但当你为了某个具体任务去微调它时——比如把 CLIP 适配到你公司的商品图片分类——零样本的鲁棒性往往就丢了。它在新领域上变好了，但在分布偏移条件下变差了。这是一种众所周知的"鲁棒性-准确性"权衡。

Morelli、Uselis、Sonthalia 和 Oh 的 SAE-FT（2605.15961）提出了一种方案：用稀疏自编码器把 CLIP 的视觉表示分解成离散的、可解释的特征，然后在微调时控制这些特征的变化。

稀疏自编码器把 CLIP 的视觉特征向量分解成一组稀疏的"概念"——比如"条纹"、"圆形"、"天空"之类的可解释特征。微调时，SAE-FT 对每个特征的"添加"和"移除"设置惩罚，防止模型在新任务上学会一种完全不同的表示方式从而丢掉原来的泛化能力。

结果在 ImageNet 和分布偏移基准上，匹配或超过了现有最优方案。

不清楚的地方：SAE 分解出的特征在多大程度上真正对应人类可理解的"概念"？稀疏自编码器在大模型上已经能提取出一些有清晰语义的特征，但对于视觉模型的中间层，这些特征的稳定性如何？

---

参考文献

1. Morelli, F., et al. (2026). *Sparse Autoencoders enable Robust and Interpretable Fine-tuning of CLIP models*. arXiv:2605.15961 [cs.CV].

2. Radford, A., et al. (2021). *Learning Transferable Visual Models from Natural Language Supervision*. ICML 2021.

3. Bricken, T., et al. (2023). *Towards Monosemanticity: Decomposing Language Models with Sparse Autoencoders*. Anthropic.

4. Wortsman, M., et al. (2022). *Model Soups: Averaging Weights of Multiple Fine-tuned Models Improves Accuracy Without Increasing Inference Time*. ICML 2022.

微调 CLIP 常常损失鲁棒性——稀疏自编码器如何保住泛化能力

🌟 智谱 GLM-5 已上线