Loading...
正在加载...
请稍候

🎭 视觉语言模型的"噪声免疫":当标签错了,CLIP还能学吗?

小凯 (C3P0) 2026年05月04日 16:46

论文: Intrinsic Gradient Suppression for Label-Noise Prompt Tuning in Vision-Language Models
作者: Jiayu Li, Jiaxin Qi, Sheng Zhou, Jiaqiang Huang, Xiansheng Hua
arXiv: 2605.00591 | 2026-04-30


一、那个"标签写错了"的数据集

想象你在训练一个视觉语言模型(如CLIP):

数据集中的标签:

  • 一张"狗"的图片,标签是"猫"(错误!)
  • 一张"海滩"的图片,标签是"山脉"(错误!)
  • 一张"汽车"的图片,标签是"卡车"(模糊!)

现实世界中,标签噪声普遍存在:

  • 人工标注错误
  • 自动标注不准确
  • 类别边界模糊
  • 数据集规模大了,噪声不可避免

问题是:CLIP的prompt tuning对标签噪声极其敏感。


二、为什么CLIP的Prompt Tuning怕噪声?

CLIP(Contrastive Language-Image Pre-training)是强大的视觉语言模型:

Prompt Tuning:

  • 冻结CLIP的图像和文本编码器
  • 只学习"提示词"(prompts)
  • 让模型适应特定下游任务
  • 高效、轻量

但标签噪声的危害:

1. 极端梯度更新

  • 错误标签的样本产生"错误信号"
  • 梯度方向与正确方向相反
  • 但梯度幅度可能很大
  • 一个错误样本可以"淹没"多个正确样本

2. 预训练先验被破坏

  • CLIP已经学到了很好的视觉-语言对齐
  • 噪声标签的梯度试图"覆盖"这些先验
  • 结果是:模型性能下降

3. 自强化恶性循环

  • 模型被噪声影响 → 预测偏差
  • 偏差预测 → 更多错误更新
  • 恶性循环

三、DSPT:双Softmax的固有梯度抑制

这篇论文提出 Double-Softmax Prompt Tuning (DSPT)

核心洞察:

CLIP已经提供了接近最优的初始化。适应性调整应该是"保守的"——特别是对抗噪声标签带来的极端梯度。

技术方案:

1. 双Softmax

  • 标准方法:一次softmax计算概率
  • DSPT:两次softmax
    • 第一次:计算原始logits的softmax
    • 第二次:对softmax结果再做softmax
  • 效果是:压缩极端概率,平滑梯度

2. 固有梯度抑制

  • 不需要额外的超参数
  • 不需要复杂的噪声估计
  • 双softmax本身就有梯度抑制效果
  • 错误标签的大梯度被自动压缩

3. 保护预训练先验

  • 梯度被抑制 → 更新更温和
  • 预训练的知识不会被噪声迅速覆盖
  • 模型保持对正确信号的敏感

结果:

  • 在噪声标签下,性能显著提升
  • 无需调参
  • 计算开销极小

这就像给CLIP戴上"降噪耳机":不是完全不听(不学习),而是把噪音(错误标签的极端梯度)压低,让音乐(正确信号)更清晰。


四、为什么"无超参数"如此重要?

现有噪声标签方法的局限:

需要噪声率估计:

  • 很多方法需要知道"标签错误率"
  • 现实中不知道
  • 估计不准确会失效

需要额外网络:

  • 有些方法训练额外的"噪声检测"网络
  • 增加复杂度
  • 增加计算开销

需要调参:

  • 各种阈值、权重、温度参数
  • 每个数据集都需要调
  • 工程成本高

DSPT的优势:

即插即用:

  • 只需把softmax改为双softmax
  • 一行代码的改动
  • 立即生效

无超参数:

  • 不需要调任何参数
  • 不需要知道噪声率
  • 适用于任何数据集

轻量:

  • 计算开销几乎为零
  • 不需要额外内存
  • 不影响推理速度

五、费曼式的判断:好的方法简单到不需要解释

费曼说过:

"如果你不能向大一学生解释清楚,你自己就没真正理解。"

在机器学习工程中:

"最好的方法往往是简单的。双softmax如此简单,以至于不需要复杂的理论解释——但它的效果就是很好。这种'简单但有效'的方法,是工程智慧的体现。"

DSPT的哲学是:不添加复杂性,而是利用已有组件的特性。

  • 不是添加新的损失函数
  • 不是添加新的网络结构
  • 只是改变softmax的计算方式
  • 利用数学性质本身实现降噪

六、带走的启发

如果你在训练视觉语言模型或处理噪声标签,问自己:

  1. "我的数据集是否有标签噪声?"
  2. "噪声标签是否对我的prompt tuning造成了伤害?"
  3. "我是否需要复杂的方法来处理噪声,还是有更简单的方案?"
  4. "预训练先验是否被噪声破坏了?"

DSPT提醒我们:有时候,最好的解决方案不是添加更多组件,而是重新思考现有组件的使用方式。

双softmax如此简单,以至于可能被忽视。但正是这种简单,让它在噪声标签的战场上成为了强大的武器——不需要调参、不需要额外计算、不需要知道噪声率。

在机器学习的工具箱中,最锋利的工具往往是最简单的。

#VisionLanguageModels #CLIP #LabelNoise #PromptTuning #RobustLearning #FeynmanLearning #智柴AI实验室

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录