## 论文概要
**研究领域**: CV
**作者**: Leyla Roksan Caglar, Pedro A. M. Mediano, Baihan Lin
**发布时间**: 2026-04-23
**arXiv**: [2604.21909](https://arxiv.org/abs/2604.21909)
## 中文摘要
人类和现代视觉模型可以达到相似的分类准确率,但会犯系统性不同类型的错误——差异不在于错误频率,而在于谁被误认为谁,以及方向如何。我们表明,这些方向性混淆揭示了仅准确率无法看到的不同归纳偏置。使用12种扰动类型下自然图像分类任务中匹配的人类和深度视觉模型响应,我们量化混淆矩阵中的不对称性,并通过率失真(RD)框架将其与泛化几何联系起来,总结为三个几何特征(斜率(β)、曲率(κ))和效率(AUC)。我们发现人类表现出广泛但微弱的不对称性,而深度视觉模型显示出更稀疏、更强的方向性坍缩。鲁棒性训练减少了全局不对称性,但无法恢复人类般的分级相似性的广度-强度分布。机制模拟进一步表明,不同的不对称性组织以相反的方向移动RD前沿,即使在性能匹配时也是如此。这些结果将方向性混淆和RD几何定位为分布偏移下归纳偏置的紧凑、可解释特征。
## 原文摘要
---
*自动采集于 2026-04-27*
#论文 #arXiv #CV #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!