抓瞎扯的 AI：像看天气预报一样预测大模型的“幻觉”

如果你问大模型一个问题，它一本正经地胡说八道（这就是传说中的“幻觉”），你该怎么拆穿它？

以前，我们有两种笨办法： 1. “疯狂试探法”：同一个问题问它 10 遍。如果它每次回答都不一样，说明它在瞎编。但这太费钱、太慢了。 2. “翻书核对法”：把它的回答拿到搜索引擎或知识库里去查一遍（RAG）。但这需要庞大的外部知识库支持，而且核对起来很麻烦。

难道就没有一种方法，只需看大模型回答一次，不用查资料，就能一眼看穿它在撒谎吗？

2026 年的一篇最新 arXiv 论文（《Low-Cost Black-Box Detection of LLM Hallucinations via Dynamical System Prediction》）给出了一种极其硬核、充满物理学浪漫的答案：别把文字当文字，把文字当成“物理运动轨迹”！

把说话变成“开火车”

让我们用 Feynman 的方式来理解这个天才的想法。

想象一下，大模型吐出的每一个字（Token 转换成的向量 Embedding），都是空间里的一个坐标点。当大模型连贯地吐出一句话时，这些点连在一起，就像是一辆在三维空间里行驶的过山车。

作者 Dan Wilson 和 Mohamed Akrout 发现了一个惊人的物理规律：

当 AI 说真话时（Factual），这辆过山车就像是行驶在铺好的铁轨上。它是有惯性的、有规律的、顺滑的。
当 AI 开始瞎编时（Hallucinated），就好像火车脱轨了，或者突然开进了颠簸的泥潭。它的轨迹会变得极其诡异和不可预测。

引入“物理学外挂”：Koopman 算子

为了抓住这种“脱轨”的瞬间，两位作者借用了一个常用于预测流体力学和天体运行规律的数学工具：Koopman 算子理论（Koopman Operator Theory）。

你不必懂复杂的数学，只需要把 Koopman 算子看作是一个超级“物理学预测引擎”。

作者训练了两个这样的预测引擎： 1. “真话物理引擎”：它熟悉火车在正常铁轨上行驶的规律。 2. “瞎编物理引擎”：它熟悉火车脱轨后乱撞的规律。

当大模型正在回答你的问题时，系统会实时提取它吐出文字的轨迹，然后同时扔给这两个引擎，问它们：“嘿，你能猜出它下一个字会飞到哪个坐标吗？”

如果“真话引擎”猜得很准，而“瞎编引擎”猜得很离谱，说明火车在正轨上，AI 在说真话。
如果突然之间，“真话引擎”猜不透了，反而是“瞎编引擎”精准命中了下一个坐标，说明什么？说明这辆车已经脱轨了！AI 正在产生幻觉！

作者把这两种引擎预测误差的差值，称为 “差分残差分数（Differential Residual Score, $\Delta E$）”。只需看一眼这个分数，幻觉无处遁形。

为什么这个方法“帅”且实用？

这个方法在三大主流基准测试上都取得了 SOTA（State-of-the-Art）的成绩。但它最迷人的地方在于两点：

1. 极其便宜和快速（Low-Cost / Single-Sample）：你不需要让大模型回答 10 遍，也不需要去检索维基百科。你只需要看着大模型流式输出的文字轨迹，就能实时算出它是不是在瞎扯。这省下了海量的 API 费用和时间。 2. 完全的黑盒（Black-Box）：你不必是 OpenAI 或 Google 的内部员工，你不需要知道大模型内部那几千亿个参数是怎么运作的。只要你拿到了大模型输出的文字，你就能用这个方法监控它。

总结一下： 这篇论文巧妙地完成了一次跨界降维打击。它将自然语言处理（NLP）中令人头疼的语义验证问题，转换成了一个几何和动力学预测问题。

当你发现没法用语言去跟一个骗子争论时，不如直接测量他说话时的心跳和肢体运动轨迹。这，就是“动力学系统预测”给大模型幻觉开出的解药。

抓瞎扯的 AI：像看天气预报一样预测大模型的“幻觉”

抓瞎扯的 AI：像看天气预报一样预测大模型的“幻觉”

把说话变成“开火车”

引入“物理学外挂”：Koopman 算子

为什么这个方法“帅”且实用？

🌟 智谱 GLM-5 已上线