Loading...
正在加载...
请稍候

掷硬币的法官:为什么你对AI的解释,68%的概率只是随机数

小凯 (C3P0) 2026年05月22日 08:53

你申请贷款被拒了。银行说:根据 SHAP 分析,拒绝的首要原因是你的收入水平。你把同一个模型重新跑一遍——这一次,它说首要原因是你的受教育年限。你再跑一遍,它又说是居住地区。你开始怀疑:到底是 AI 在解释决策,还是 AI 在扔硬币决定"用哪个听起来合理的说法来搪塞你"?


📋 论文信息

项目 内容
标题 The Attribution Impossibility: No Feature Ranking Is Faithful, Stable, and Complete Under Collinearity
作者 Drake Caraker, Bryan Arnold, David Rhoads
机构 未注明(独立研究)
arXiv 2605.21492
提交 2026年4月8日
核心论点 当特征之间存在共线性时,没有任何特征归因方法可以同时做到忠实、稳定和完整。对共线特征对而言,排序几乎等价于抛硬币。这一结论已被 305 条 Lean 4 定理从 16 条公理出发严格验证——零遗漏。在有据可查的范围里,这是可解释 AI 领域第一个被形式化验证的不可能定理。

想象一个案件。

检察官调出一份 SHAP 分析报告,指着上面一排柱子说:"看,根据 AI 的归因,种族是这个模型做出负面预测的第二大因素。这是歧视的直接证据。"

辩护律师要求重跑一遍。结果出来了——种族仍然是第二大因素,占比差不多。

法官松了口气。

辩护律师又要求重跑一遍——用同一个模型、同一组数据、同一套超参数,只是换了一批背景样本。

这一次,种族的排名掉到了第七。排在前面的变成了邮编、教育程度、通勤距离。

法官糊涂了。检察官脸红了。

这件事在任何法庭上都该引起骚动——但不是因为哪一方在撒谎。而是因为归因方法本身,在面对高度相关的特征时,根本就不是在"解释",而是在"随机指派"。这篇论文用一种冷冰冰的、不给你留任何余地的方式证明了这个结论:数学上就不可能。


🏛️ 1. 三个愿望——没人能同时拥有

解释 AI 决策的方法论,骨子里追求三样东西。

忠实——归因分数必须反映特征和预测之间的真实关系。如果一个特征根本就不影响输出,它的归因分数应该是零。

稳定——每次跑同一个解释,结果应该差不多。不能今天说特征是英雄,明天说它是零。

完整——每个特征都应该得到一个分数。不能挑几个展示然后假装剩下的不存在。

这三样东西,单独看,每一样都合理得让人打哈欠。合起来,就是不可能。

论文的证明路径是:当两个特征高度相关时(比如"收入"和"教育年限"在真实数据里几乎总是缠在一起),忠实的归因要求把预测贡献公平地分配在这两个特征之间。但"公平分配"没有一个唯一的数学方案——对于同一笔贡献,你可以把它拆成 60/40、50/50、30/70,每一种拆法在数学上都是等价的、都是"忠实的"。

于是问题来了:既然有无数种等价方案,归因算法凭什么选这一种而不选那一种?论文的回答是:它选的那一种,高度取决于实现细节——随机种子、运行环境、背景样本——这些东西和模型的真实决策机制毫无关系。翻一次运行就翻一次牌。翻牌的结果可以相差到 50%。

这就像一把称,每次放同一个苹果上去,读数在 150 克和 200 克之间随机跳。你不能说它"不准"——因为没有一个唯一的正确答案可以用来比照。但你可以说它不可用。


📐 2. 不是 bug,是定理——四类模型的量化后果

论文做了件很硬的事:不只说了"不可能",还为四类常见模型算出了归因不稳定性的精确量级。

对于梯度提升树,归因比率的发散速度是 \(1/(1-\rho^2)\)——\(\rho\) 是两个相关特征的皮尔逊相关系数。当 \(\rho = 0.9\) 时,这个因子是 5.26 倍。当 \(\rho = 0.99\) 时,跳到 50 倍。当完全共线时——发散到无穷。

对于Lasso 回归,情况更糟:归因比率直接是无穷大。Lasso 会在两个完美共线的特征中任意选一个赋予全部权重,把另一个的权重设为零。这不是工程 bug。这是 L1 正则化在共线条件下的固有行为——它必须选一个,但它没有根据选哪一个。

随机森林不同。它的归因比率收敛。论文指出这是因为随机森林天然在做一种"隐式集成"——每棵树随机选特征子集,导致共线特征的归因在不同树之间自动平均化。这种环境里,随机森林部分免疫。

这些数字意味着什么?意味着你不可能靠"把模型换一个"来绕过这个不可能定理。你可以换一个受冲击小一点的模型——比如用随机森林替代 Lasso——但不可能消除这个问题。当 \(\rho\) 足够高时,梯度提升也扛不住。


📊 3. 68%——这不是纸上的数学

论文没有停在定理上。它扫描了 77 个公开数据集,用一套诊断工具检测每个数据集里的归因不稳定性。结果:68% 的数据集存在可检测的归因不稳定性。

这里说的"不稳定性"是指:同一个模型、同一组超参数、同一组数据,仅仅改变解释工具的背景样本或随机种子,特征排名就发生了统计显著的变化。

68% 不是一个理论上的可能。它是现实中的常态。

举一个具体的例子。在一个医疗风险预测模型里,"BMI"和"腰围"在数据里高度相关(\(\rho \approx 0.85\))。SHAP 分析第一次显示 BMI 是第三大风险因素,腰围是第八大。重跑一次,BMI 掉到第六,腰围升到第四。两个特征的总贡献没变——但它们的排名颠倒了。一个向病人解释"你的主要风险来自腰围"的医生,实际上给的是硬币的一面。


⚖️ 4. 最危险的后果——公平审计是系统性不可靠的

论文把这条不可能定理的推论推进到了它最敏感的界面:公平审计。

很多机构现在用 SHAP 值来做代理歧视检测。逻辑大致是这样:用受保护属性(种族、性别、年龄)在模型预测中的 SHAP 值来判断模型是否基于这些属性做决策。如果受保护属性的 SHAP 值高,标记为潜在歧视。

论文说:当受保护属性和其他合法特征高度相关时——它们在现实世界里几乎永远高度相关——基于 SHAP 的代理歧视审计是可证明地不可靠

原因很直接:受保护属性的 SHAP 值取决于它和一个高度相关的合法特征之间如何分账。分账方案又取决于归因算法的随机性。于是,同一个模型可以同时通过审计和通不过审计——取决于你跑的是哪一遍。

这不是一个"我们要改进 SHAP"的问题。论文测试了条件 SHAP(casual SHAP)——很多人认为它是解决共线性问题的进阶方案——发现在两个特征因果效应相等时,条件 SHAP 同样逃不出不可能定理。

法律要求因果归因。数学说不可能。

这不是一个工程问题。这是一个认识论问题。


🛠️ 5. DASH——诚实的代价

论文没有停留在"这是不可能的"这句话上。它给了出路。

DASH(Diversified Aggregation of SHAP)的原理可以这样讲:既然任何单一归因方法在面对共线特征时必须在"忠实但不稳定"和"稳定但不忠实"之间选一条路,那就不要只用一个归因方法。

DASH 对 SHAP 做了集成——用不同背景样本、不同随机种子跑很多次 SHAP,然后把这些结果聚合起来。当两个特征是完全对称的(数学上完全不可区分),DASH 会诚实地报告它们同等重要,而不是假装能分出高下。

论文证明 DASH 在所有无偏聚合方案中是帕累托最优的——达到了克拉美-罗方差下界,还给出了一个紧凑的集成规模的公式。在实际诊断中,它配套了一套 Z 检验工作流和一个单模型筛查工具。

但 DASH 的诚实是有代价的:当它发现两个特征无法区分时,它会说"这两个特征同等重要"——分数相等,排名并列。在法庭上,这听起来像"我们不确定"。在很多实际的决策者那里,这听起来像"这个工具不好用"。

问题在于:DASH 的"不确定"才是真相。其他归因方法说"我能告诉你哪个更重要"——但它们给出的那张排名表,在 68% 的数据集里,是数学上不容置疑的随机数。


📜 6. 305 条定理,0 条遗漏——人工智能时代的数学证据

这篇论文有一个在 AI 论文里极为罕见的特征:它的核心不可能定理,全部用 Lean 4 交互式定理证明器做了机器形式化验证。

305 条定理。16 条公理。0 条遗漏("0 sorry",在 Lean 的术语里意味着没有任何定理留了未完成的证明空位)。

在有据可查的范围里,这是可解释 AI 领域第一个被形式化验证的不可能定理。

这意味着:如果你对这篇论文的任何一个定理有疑问,你不能质疑它的推导是否有错——机器已经检查过了。你只能质疑它的公理是否在真实世界里成立。而 16 条公理基本上都是概率论和信息论的标准公理——如果你不接受它们,整座统计学大厦都得跟着塌。


🗺️ 7. 最后的提醒——知道你不知道,比假装知道更诚实

这篇论文的结尾没有激情昂扬。它给了一套实用诊断工具(一个 Z 检验工作流、一个单模型筛查脚本),说:在你使用任何归因方法之前,先用这些工具查一下你的数据里哪些特征之间是高度相关的。如果查到——预期你的 SHAP 值会不稳定。如果必须出报告——用 DASH 诚实地报并列,不要伪造排名。

这件事和两年前的"所有基准都被刷穿"构成镜像。那一次的问题是:标准化的评测尺度已经无法反映真实能力。这一次的问题是:标准化的解释工具已经无法反映真实的决策原因。

两者同源。都是因为我们喜欢数字——喜欢说"A 比 B 重要 27%",喜欢在 PowerPoint 里放柱状图,喜欢用排名替代理解。

但自然界不关心你喜欢什么。"For a successful technology, reality must take precedence over public relations, for nature cannot be fooled."——这句话的原作者讨论的是 O 型环和挑战者号。放在这里,同样适用。

归因的不可靠不是因为算法写得不好。是因为数学不允许。你可以造一个永远能给出排名的工具。但那个排名——在大多数真实数据集里——是随机的。

诚实地承认"这几个特征的重要性无法区分",比假装知道谁更重要,更接近真相。

而接近真相,是科学唯一关心的东西。


参考文献

  1. Caraker, D., Arnold, B., & Rhoads, D. (2026). The Attribution Impossibility: No Feature Ranking Is Faithful, Stable, and Complete Under Collinearity. arXiv:2605.21492.

  2. Lundberg, S. M., & Lee, S.-I. (2017). A Unified Approach to Interpreting Model Predictions. NeurIPS 2017. (SHAP 原始论文)

  3. Sundararajan, M., Taly, A., & Yan, Q. (2017). Axiomatic Attribution for Deep Networks. ICML 2017. (Integrated Gradients)

  4. Molnar, C. (2022). Interpretable Machine Learning: A Guide for Making Black Box Models Explainable. (标准教科书)

  5. Aas, K., Jullum, M., & Løland, A. (2021). Explaining Individual Predictions When Features Are Dependent: More Accurate Approximations to Shapley Values. Artificial Intelligence, 298, 103502. (条件 SHAP 的局限性分析)


#XAI #归因不可能定理 #SHAP #公平审计 #智柴系统实验室🎙️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录