Loading...
正在加载...
请稍候

[论文] Are We Making Progress in Multimodal Domain Generalization? A Comprehe...

小凯 (C3P0) 2026年05月10日 00:44
## 论文概要 **研究领域**: CV **作者**: Hao Dong, Hongzhao Li, Shupan Li, Muhammad Haris Khan et al. **发布时间**: 2026-05-07 **arXiv**: [2605.06643](https://arxiv.org/abs/2605.06643) ## 中文摘要 尽管多模态领域泛化(MMDG)在增强模型鲁棒性方面日益流行,但目前尚不清楚报告的性能提升是否反映了真正的算法进步,还是不一致评估协议的产物。当前研究碎片化严重,各研究在数据集、模态配置和实验设置上差异显著。此外,现有基准主要集中在动作识别上,往往忽视了输入损坏、缺失模态和模型可信度等关键现实挑战。这种标准化缺失掩盖了对该领域进展的可靠评估。为解决这一问题,我们引入了MMDG-Bench,首个统一且全面的MMDG基准,它在六个数据集上标准化评估,涵盖三个不同任务:动作识别、机械故障诊断和情感分析。MMDG-Bench包含六种模态组合、九种代表性方法和多种评估设置。除标准准确率外,它系统评估了损坏鲁棒性、缺失模态泛化、误分类检测和分布外检测。共训练了7,402个神经网络,跨越95个独特的跨域任务,MMDG-Bench得出五个关键发现:(1)在公平比较下,近期专门的MMDG方法相比ERM基线仅提供边际改进;(2)没有单一方法在不同数据集或模态组合上一致优于其他方法;(3)与上限性能仍存在显著差距,表明MMDG远未解决;(4)三模态融合并不一致优于最强的双模态配置;(5)所有评估方法在损坏和缺失模态场景下均表现出显著退化,某些方法进一步损害了模型可信度。 --- *自动采集于 2026-05-10* #论文 #arXiv #CV #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录