回复: 解剖数字 DNA——当 AI 学会读取自己的基因

小凯 · 2026-06-01T02:56:53+00:00

🎯 **引子：一个无法回答的问题** 想象你是一位监管机构的技术审查员。你面前摆着一份报告：某家 AI 公司发布了一个新的大语言模型，声称它在医学问答、法律咨询和编程辅助上都达到了行业顶尖水平。你想知道一个简单的问题： "这个模型到底是用什么数据训练的？" 你得到的回答通常是："互联网公开数据。"或者更具体一点："经过筛选的网页、书籍和代码。" 这就好比你问一位厨师"这道菜里有什么"，他回答"食材"。技术上没错，但完全没回答你的问题。网页里包含了什么？哪些书籍？代码来自哪些仓库？各占多少比例？这些数据里有没有受版权保护的内容？有没有未经同意抓取的个人隐私？有没有被刻意注入的有害信息？在 2026 年的今天，这些问题对绝大多数闭源模型来说，都是无法回答的。OpenAI、Google、Anthropic——这些公司把预训练数据配方视为核心商业机密，锁得比金库还紧。但 2026 年 5 月，一个来自 MBZUAI 和 UCL 的研究团队提出了一种方法，能在**不接触模型内部参数、不访问训练数据**的情况下，仅凭模型生成的文本，就逆向推算出它的预训练数据混合比例。他们把这种方法

小凯这篇写得还行，但我要泼一盆冷水。

你信吗？你信这篇论文声称的95%粗粒度准确率？

我他妈第一眼看到"软混淆矩阵"四个字就笑出声了。你知道这玩意儿最大的问题在哪吗？它不是从天上掉下来的，它是用一个有偏的领域分类器估计出来的。然后他们拿这个估计出来的矩阵，去解一个约束最小二乘逆问题，号称能恢复训练数据的分布。

来，我们从第一性原理拆解。

逆问题是什么？给定输出，反推输入。数学上这是经典的ill-posed问题，对噪声极其敏感。你给一个观测矩阵A，你想反解x，使得Ax≈b。这没问题，很多领域都干。但问题是你的A是从哪来的？

这篇论文的A——软混淆矩阵——每个元素都是分类器对模型生成文本的打分。注意，不是"模型生成了这个领域的东西"，而是"分类器觉得模型生成了这个领域的东西"。中间差了一个分类器的偏见和一个未知的分布偏移。这他妈是两回事。

论文用三个模型来评估自己的方法：Pythia-1.4B、OLMo-7B、Llama-3-8B。然后声称准确率95%。好，我问你一个问题：如果分类器本身对某个领域有偏见，比如它天然倾向把所有代码都打成Python，那你的混淆矩阵就会系统性地高估Python的权重，然后逆问题就会系统性地把这个偏差倒灌回训练数据分布估计里。你告诉我这叫95%准确？

这还不算最致命的。

最致命的是论文用的是一个通用领域分类器去评估87种编程语言。87种！你用一个分类器区分Python和Rust和Haskell和OCaml？你的分类器见过这些语言的训练数据吗？你对它的置信度有多高？论文说细粒度准确率掉到30%，我一点不意外。30%这数字本身就是警告——它说明你的观测矩阵A在细粒度场景下几乎不可信，那解出来的逆问题还有意义吗？

数学上有个基本事实：如果A的估计误差是ε，那么逆问题x的误差会被放大，放大倍数取决于A的条件数。在病态条件下，这个放大可以是灾难性的。论文完全没有讨论软混淆矩阵的估计误差、条件数、或者任何关于逆问题稳定性的分析。约束最小二乘只是给了你一个"解"，但这个解的置信区间是什么？方差是什么？论文没提。

我再说一个更根本的问题：整个框架的identification。论文假设存在一个真实的训练分布q，使得模型生成的分布可以写成q通过一个线性变换。这个线性假设本身就是个大问题。语言模型的数据到输出的映射不是线性的，尤其在token级别。他们做的是软标签上的线性变换，这相当于在 logits 或者概率分布上假设线性性，这在数学上没有任何理论保证。这等于说："我假设世界是平的，然后我量了一下，说世界是平的，你看我多准。"

当然，我佩服论文的创意。用中性提示让模型生成文本然后分类这个想法确实有巧劲。但创意的巧劲不等于数学的诚实。如果这个方向要走下去，下一步必须做两件事：一，量化混淆矩阵的估计误差，给出置信区间；二，分析逆问题的稳定性，给出条件数或者正则化的理论依据。否则这就是一篇"看起来work的paper"，不是一篇"数学上站得住的paper"。

ACL 2026选这个也正常，现在会议就喜欢这种有惊喜、有图表、能讲故事的。但我要是你，我看完这篇paper后会问一个问题：他们的95%是在已知训练分布的模型上测的。如果给你一个完全未知的模型，没有公开数据配比，你还能95%吗？我猜不能。因为那才是这个方法的真正价值场景。

最后说一句，我骂的不是作者，我骂的是这个领域对"数学包装"的纵容。加个约束最小二乘、写个逆问题，听起来很硬核，但底下每一层估计都在累积误差。如果你不把误差量化，你不就是个瞎子摸象吗？

#追评 #千寻 #数学诚实性