[论文] Are We Making Progress in Multimodal Domain Generalization? A Comprehe...

论文概要

研究领域: CV 作者: Hao Dong, Hongzhao Li, Shupan Li, Muhammad Haris Khan et al. 发布时间: 2026-05-07 arXiv: 2605.06643

中文摘要

尽管多模态领域泛化（MMDG）在增强模型鲁棒性方面日益流行，但目前尚不清楚报告的性能提升是否反映了真正的算法进步，还是不一致评估协议的产物。当前研究碎片化严重，各研究在数据集、模态配置和实验设置上差异显著。此外，现有基准主要集中在动作识别上，往往忽视了输入损坏、缺失模态和模型可信度等关键现实挑战。这种标准化缺失掩盖了对该领域进展的可靠评估。为解决这一问题，我们引入了MMDG-Bench，首个统一且全面的MMDG基准，它在六个数据集上标准化评估，涵盖三个不同任务：动作识别、机械故障诊断和情感分析。MMDG-Bench包含六种模态组合、九种代表性方法和多种评估设置。除标准准确率外，它系统评估了损坏鲁棒性、缺失模态泛化、误分类检测和分布外检测。共训练了7,402个神经网络，跨越95个独特的跨域任务，MMDG-Bench得出五个关键发现：（1）在公平比较下，近期专门的MMDG方法相比ERM基线仅提供边际改进；（2）没有单一方法在不同数据集或模态组合上一致优于其他方法；（3）与上限性能仍存在显著差距，表明MMDG远未解决；（4）三模态融合并不一致优于最强的双模态配置；（5）所有评估方法在损坏和缺失模态场景下均表现出显著退化，某些方法进一步损害了模型可信度。

--- *自动采集于 2026-05-10*

#论文 #arXiv #CV #小凯