> 论文: Intrinsic Gradient Suppression for Label-Noise Prompt Tuning in Vision-Language Models > 作者: Jiayu Li, Jiaxin Qi, Sheng Zhou, Jiaqiang Huang, Xiansheng Hua > arXiv: 2605.00591 | 2026-04-30
---
一、那个"标签写错了"的数据集
想象你在训练一个视觉语言模型(如CLIP):
数据集中的标签:
- 一张"狗"的图片,标签是"猫"(错误!)
- 一张"海滩"的图片,标签是"山脉"(错误!)
- 一张"汽车"的图片,标签是"卡车"(模糊!)
- 人工标注错误
- 自动标注不准确
- 类别边界模糊
- 数据集规模大了,噪声不可避免
---
二、为什么CLIP的Prompt Tuning怕噪声?
CLIP(Contrastive Language-Image Pre-training)是强大的视觉语言模型:
Prompt Tuning:
- 冻结CLIP的图像和文本编码器
- 只学习"提示词"(prompts)
- 让模型适应特定下游任务
- 高效、轻量
1. 极端梯度更新
- 错误标签的样本产生"错误信号"
- 梯度方向与正确方向相反
- 但梯度幅度可能很大
- 一个错误样本可以"淹没"多个正确样本
- CLIP已经学到了很好的视觉-语言对齐
- 噪声标签的梯度试图"覆盖"这些先验
- 结果是:模型性能下降
- 模型被噪声影响 → 预测偏差
- 偏差预测 → 更多错误更新
- 恶性循环
三、DSPT:双Softmax的固有梯度抑制
这篇论文提出 Double-Softmax Prompt Tuning (DSPT):
核心洞察: > CLIP已经提供了接近最优的初始化。适应性调整应该是"保守的"——特别是对抗噪声标签带来的极端梯度。
技术方案:
1. 双Softmax
- 标准方法:一次softmax计算概率
- DSPT:两次softmax
- 第一次:计算原始logits的softmax
- 第二次:对softmax结果再做softmax
- 效果是:压缩极端概率,平滑梯度
- 不需要额外的超参数
- 不需要复杂的噪声估计
- 双softmax本身就有梯度抑制效果
- 错误标签的大梯度被自动压缩
- 梯度被抑制 → 更新更温和
- 预训练的知识不会被噪声迅速覆盖
- 模型保持对正确信号的敏感
- 在噪声标签下,性能显著提升
- 无需调参
- 计算开销极小
---
四、为什么"无超参数"如此重要?
现有噪声标签方法的局限:
需要噪声率估计:
- 很多方法需要知道"标签错误率"
- 现实中不知道
- 估计不准确会失效
- 有些方法训练额外的"噪声检测"网络
- 增加复杂度
- 增加计算开销
- 各种阈值、权重、温度参数
- 每个数据集都需要调
- 工程成本高
即插即用:
- 只需把softmax改为双softmax
- 一行代码的改动
- 立即生效
- 不需要调任何参数
- 不需要知道噪声率
- 适用于任何数据集
- 计算开销几乎为零
- 不需要额外内存
- 不影响推理速度
五、费曼式的判断:好的方法简单到不需要解释
费曼说过:
> "如果你不能向大一学生解释清楚,你自己就没真正理解。"
在机器学习工程中:
> "最好的方法往往是简单的。双softmax如此简单,以至于不需要复杂的理论解释——但它的效果就是很好。这种'简单但有效'的方法,是工程智慧的体现。"
DSPT的哲学是:不添加复杂性,而是利用已有组件的特性。
- 不是添加新的损失函数
- 不是添加新的网络结构
- 只是改变softmax的计算方式
- 利用数学性质本身实现降噪
六、带走的启发
如果你在训练视觉语言模型或处理噪声标签,问自己:
1. "我的数据集是否有标签噪声?" 2. "噪声标签是否对我的prompt tuning造成了伤害?" 3. "我是否需要复杂的方法来处理噪声,还是有更简单的方案?" 4. "预训练先验是否被噪声破坏了?"
DSPT提醒我们:有时候,最好的解决方案不是添加更多组件,而是重新思考现有组件的使用方式。
双softmax如此简单,以至于可能被忽视。但正是这种简单,让它在噪声标签的战场上成为了强大的武器——不需要调参、不需要额外计算、不需要知道噪声率。
在机器学习的工具箱中,最锋利的工具往往是最简单的。
#VisionLanguageModels #CLIP #LabelNoise #PromptTuning #RobustLearning #FeynmanLearning #智柴AI实验室