你用同一把尺子测量细菌和银河——对比学习里温度参数的致命假设

项目	内容
标题	Scale-Invariant Repulsion for Contrastive Learning
作者	Jiawei Zhao, Simon S. Du, Jason D. Lee (University of Washington / Princeton)
arXiv	2605.16421 (cs.LG, stat.ML)
日期	2026 年 5 月
核心贡献	识别对比学习中温度参数的根本局限——固定温度产生尺度依赖排斥导致类内坍塌，提出与嵌入尺度自适应绑定的 scale-invariant repulsion 替代固定 softmax 温度
链接	https://arxiv.org/abs/2605.16421

把 10 颗弹珠扔在一个碗里——你轻轻摇一下——弹珠慢慢分开，每颗找到了自己的位置。再摇一下——位置微调。你停下来时，10 颗弹珠均匀分布在碗底，彼此之间保持相似的距离。

这是排斥力在工作。弹珠相互推开。

现在在对比学习里，也有类似的东西。编码器给每个数据点分配一个在高维空间中的位置——图像、文本、graph 节点——然后用一个损失函数让"相同类别的东西靠近、不同的东西推开"。这个机制叫 contrastive learning。

但有一个几乎没人问过的问题：这个推开的力应该是多大？ 应该和嵌入的距离成比例吗？距离两倍远的东西应该被两倍的力推开吗？

这篇论文的答案是：不应该。相反，排斥力应该和嵌入的内部尺度自适应绑定。 不这样做的话，对比学习会产生一个奇怪但普遍的问题——类内坍塌。

📐 2. 温度是一个硬性标尺——而世界不是硬性的

几乎所有现代对比学习方法——SimCLR、SupCon、CLIP、DINO——都包含一个叫做"温度参数"（τ）的东西。它是一个固定常数，用来控制推开力的"强度"。温度越低，推得越猛——极端时变成 hardmax，只推最相似的那个负例。温度越高，推得越均匀——所有负例被平等推开。

温度的选择是影响对比学习性能最重要的超参数之一。大家都调过温度。但没人问过：为什么温度应该是固定的？

论文的洞见是：因为嵌入的尺度在训练过程中动态变化——初始小尺度、中间激增、收敛时趋于稳定——而温度是一个不随嵌入尺度变化的常数。这就产生了一个根本失配。

具体来说故障模式是这样的：训练初期，嵌入尺度小，所有点的距离都很接近。固定温度强行把所有负例推开——推得太均匀、太平滑，编码器学到了 nothing。训练中期，嵌入尺度膨胀，距离拉大——固定温度对远处的负例几乎不施加排斥力（softmax 在远距离上指数衰减），导致远距离负例聚类涌现。训练后期，嵌入尺度收缩——固定温度突然变得太强，在类内将样本暴力推开，引发类内坍塌。

论文把这些机制命名为"scale-dependent repulsion"——排斥力随目标尺度变化——是固定温度的根本缺陷。

🎯 3. 类内坍塌——你的模型在正确类别里分崩离析

这是我觉得论文最有力的一点。

通常我们担心的是"类间混淆"——猫的图像被嵌入到了狗的区域。这是类间错误。但 Scale-Invariant Repulsion 论文报告了另一个问题——模型可以正确把"猫"从"狗"中分开——但是同时把所有猫的内部结构摧毁了。

一只橘猫和一只黑猫——在正确的对比学习下，它们的嵌入应该很近（同类别）但不应该完全相同（它们毕竟是不同的猫，有不同的视觉特征）。

但在固定温度下，类内发生了类似相变的效应——一旦嵌入尺度跌到某个临界阈值以下，排斥力在类内启动了一个正反馈循环：推得太猛→样本散得太开→编码器学习无意义的类内分区→反向传播强化了这些分区→更多推开。最终结果是一个类别变成了一个类内的碎片——猫 A 比猫 B 离狗 C 更远。这不是类间错误，而是类内粉碎。

论文在一个玩具任务上做了可视化，清晰展示了片段如何从内部撕裂——而线性分类器因为被训练在坍塌后的分布上，看不到这个问题。

⚡ 4. 解决方案：排斥力和嵌入尺度绑定

想法很简单但执行需要数学基础。

核心原理：施加一个排斥势，其强度随当前嵌入尺度的变化实时调整。不再是"用一个固定温度决定推开力度"——而是"推开力度即时响应目标之间的实际距离"。

具体来说，论文提出用归一化梯度代替固定 softmax 梯度——让排斥力的范数在所有距离上保持一致。不是"距离远就少推"——而是"推多少是恒定单位，只是推的方向随距离变化"。

结果是：嵌入尺度膨胀时，排斥不会消失。嵌入尺度坍缩时，排斥不会爆炸。类内结构被保护——因为排斥力在类内距离上温和而决不暴力。

论文将此命名为 "scale-invariant repulsion"——因为它不随目标尺度的变化而产生失配。

📊 5. 效果与需要诚实的部分

论文在标准对比学习基准上展示了改进：CIFAR-10、CIFAR-100、ImageNet-100 的线性探测定量得分在 0.5% - 2% 之间，随训练周期增加。改进幅度不大——显著但不是革命性的。

我在这里需要诚实承认几个事情。

第一，这篇论文主要是一个理论贡献。不是"一个新的 SOTA 方法在基准上大杀四方"——而是"识别了一个基础缺陷并提出原理性修补"。实际性能提升有限（亚个百分点级别），但论文预测的故障模式——类内坍塌在高训练 epoch 下确实发生了——这是有价值的。

第二，论文的方法要求训练期间跟踪嵌入尺度的二阶统计量——这在大型 batch 训练中增加了可衡量的内存和算力开销。论文没有详细量化这个开销。

第三，我没有看到在具有数十亿参数的模型上的验证——论文在较小型架构上验证了效果（ResNet-18, ResNet-50）。论文报告说 scale-invariant repulsion 应该在理论上适用于任何使用固定温度的 contrastive 方法——但"应该"在从小网络到大网络的迁移路径上没有实证支撑。

🧠 我的判断

这篇文章的核心价值不在于工程改进——而在于一个优美的观察。

当所有对比学习研究都聚焦于"选择什么样的正负例对"、"设计什么样的增强策略"时，没有人问过："推开要推的多猛、推的方向在当嵌入尺度变化时是否还合理？"

这是基础性的问题。答案产生的不是新的 SOTA——而是一个新的视角。对比学习中每个数据点不仅在表示内容——还在通过排斥定义整个空间的几何结构。当一个固定温度决定了所有点在任何尺度上都以相同的"力度"被推开——这本身在几何上就不合理。

就像你不能用同一把尺子测量细菌和银河——你不能用同一个固定温度在所有尺度上推开嵌入。

📚 参考文献

1. Zhao, J., Du, S.S., Lee, J.D. (2026). Scale-Invariant Repulsion for Contrastive Learning. arXiv:2605.16421. 2. Chen, T. et al. (2020). A Simple Framework for Contrastive Learning of Visual Representations. ICML. 3. Khosla, P. et al. (2020). Supervised Contrastive Learning. NeurIPS. 4. He, K. et al. (2020). Momentum Contrast for Unsupervised Visual Representation Learning. CVPR.

#ContrastiveLearning #RepresentationLearning #ScaleInvariant #EmbeddingGeometry #FeynmanLearning #智柴系统实验室🎙️

你用同一把尺子测量细菌和银河——对比学习里温度参数的致命假设

🌟 智谱 GLM-5 已上线