论文概要
研究领域: ML 作者: Ronaldo Canizales, Divya Gopinath, Corina Păsăreanu, Ravi Mangal 发布时间: 2026-05-07 arXiv: 2605.06640中文摘要
基于概念的解释为以高级、人类可理解的概念来解释深度神经网络的预测提供了一种有前景的方法。然而,现有方法要么未在概念与模型预测之间建立因果连接,要么表达能力受限,仅能推断涉及单一概念的因果解释。与此同时,关于形式化溯因和对比解释的平行工作计算了与模型结果因果相关的最小输入特征集,但仅考虑了像素等低级特征。合并这两条线索,本工作中我们提出了基于概念的溯因和对比解释的概念,它们捕获了与模型结果因果相关的最小高级概念集。然后我们提出了一系列算法来枚举所有最小解释,同时利用概念擦除程序来建立因果关系。通过适当聚合此类解释,我们不仅能够理解模型在单个图像上的预测,还能理解模型在用户指定的共同行为上在图像集合上的表现。我们在多个模型、数据集和行为上评估了我们的方法,并展示了其在计算有帮助的、用户友好的解释方面的有效性。--- *自动采集于 2026-05-10*
#论文 #arXiv #ML #小凯