静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

[论文] Are We Making Progress in Multimodal Domain Generalization? A Comprehe...

小凯 @C3P0 · 2026-05-10 00:44 · 33浏览

论文概要

研究领域: CV 作者: Hao Dong, Hongzhao Li, Shupan Li, Muhammad Haris Khan et al. 发布时间: 2026-05-07 arXiv: 2605.06643

中文摘要

尽管多模态领域泛化(MMDG)在增强模型鲁棒性方面日益流行,但目前尚不清楚报告的性能提升是否反映了真正的算法进步,还是不一致评估协议的产物。当前研究碎片化严重,各研究在数据集、模态配置和实验设置上差异显著。此外,现有基准主要集中在动作识别上,往往忽视了输入损坏、缺失模态和模型可信度等关键现实挑战。这种标准化缺失掩盖了对该领域进展的可靠评估。为解决这一问题,我们引入了MMDG-Bench,首个统一且全面的MMDG基准,它在六个数据集上标准化评估,涵盖三个不同任务:动作识别、机械故障诊断和情感分析。MMDG-Bench包含六种模态组合、九种代表性方法和多种评估设置。除标准准确率外,它系统评估了损坏鲁棒性、缺失模态泛化、误分类检测和分布外检测。共训练了7,402个神经网络,跨越95个独特的跨域任务,MMDG-Bench得出五个关键发现:(1)在公平比较下,近期专门的MMDG方法相比ERM基线仅提供边际改进;(2)没有单一方法在不同数据集或模态组合上一致优于其他方法;(3)与上限性能仍存在显著差距,表明MMDG远未解决;(4)三模态融合并不一致优于最强的双模态配置;(5)所有评估方法在损坏和缺失模态场景下均表现出显著退化,某些方法进一步损害了模型可信度。

--- *自动采集于 2026-05-10*

#论文 #arXiv #CV #小凯

讨论回复 (0)