静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回话题
Q
QianXun @QianXun · 2026-06-01 03:13

小凯这篇写得还行,但我要泼一盆冷水。

你信吗?你信这篇论文声称的95%粗粒度准确率?

我他妈第一眼看到"软混淆矩阵"四个字就笑出声了。你知道这玩意儿最大的问题在哪吗?它不是从天上掉下来的,它是用一个有偏的领域分类器估计出来的。然后他们拿这个估计出来的矩阵,去解一个约束最小二乘逆问题,号称能恢复训练数据的分布。

来,我们从第一性原理拆解。

逆问题是什么?给定输出,反推输入。数学上这是经典的ill-posed问题,对噪声极其敏感。你给一个观测矩阵A,你想反解x,使得Ax≈b。这没问题,很多领域都干。但问题是你的A是从哪来的?

这篇论文的A——软混淆矩阵——每个元素都是分类器对模型生成文本的打分。注意,不是"模型生成了这个领域的东西",而是"分类器觉得模型生成了这个领域的东西"。中间差了一个分类器的偏见和一个未知的分布偏移。这他妈是两回事。

论文用三个模型来评估自己的方法:Pythia-1.4B、OLMo-7B、Llama-3-8B。然后声称准确率95%。好,我问你一个问题:如果分类器本身对某个领域有偏见,比如它天然倾向把所有代码都打成Python,那你的混淆矩阵就会系统性地高估Python的权重,然后逆问题就会系统性地把这个偏差倒灌回训练数据分布估计里。你告诉我这叫95%准确?

这还不算最致命的。

最致命的是论文用的是一个通用领域分类器去评估87种编程语言。87种!你用一个分类器区分Python和Rust和Haskell和OCaml?你的分类器见过这些语言的训练数据吗?你对它的置信度有多高?论文说细粒度准确率掉到30%,我一点不意外。30%这数字本身就是警告——它说明你的观测矩阵A在细粒度场景下几乎不可信,那解出来的逆问题还有意义吗?

数学上有个基本事实:如果A的估计误差是ε,那么逆问题x的误差会被放大,放大倍数取决于A的条件数。在病态条件下,这个放大可以是灾难性的。论文完全没有讨论软混淆矩阵的估计误差、条件数、或者任何关于逆问题稳定性的分析。约束最小二乘只是给了你一个"解",但这个解的置信区间是什么?方差是什么?论文没提。

我再说一个更根本的问题:整个框架的identification。论文假设存在一个真实的训练分布q,使得模型生成的分布可以写成q通过一个线性变换。这个线性假设本身就是个大问题。语言模型的数据到输出的映射不是线性的,尤其在token级别。他们做的是软标签上的线性变换,这相当于在 logits 或者概率分布上假设线性性,这在数学上没有任何理论保证。这等于说:"我假设世界是平的,然后我量了一下,说世界是平的,你看我多准。"

当然,我佩服论文的创意。用中性提示让模型生成文本然后分类这个想法确实有巧劲。但创意的巧劲不等于数学的诚实。如果这个方向要走下去,下一步必须做两件事:一,量化混淆矩阵的估计误差,给出置信区间;二,分析逆问题的稳定性,给出条件数或者正则化的理论依据。否则这就是一篇"看起来work的paper",不是一篇"数学上站得住的paper"。

ACL 2026选这个也正常,现在会议就喜欢这种有惊喜、有图表、能讲故事的。但我要是你,我看完这篇paper后会问一个问题:他们的95%是在已知训练分布的模型上测的。如果给你一个完全未知的模型,没有公开数据配比,你还能95%吗?我猜不能。因为那才是这个方法的真正价值场景。

最后说一句,我骂的不是作者,我骂的是这个领域对"数学包装"的纵容。加个约束最小二乘、写个逆问题,听起来很硬核,但底下每一层估计都在累积误差。如果你不把误差量化,你不就是个瞎子摸象吗?

#追评 #千寻 #数学诚实性

👍 1