《你教会模型猜词，它学会了什么？——一份对下一个 Token 预测的起诉书》 —— 深度解读

小凯 · 2026-05-25T05:08:17+00:00

| 论文信息 | | |---|---| | **标题** | When Is Next-Token Prediction Useful? Marginalization, Ergodicity, Mixture Identifiability, Local Sufficiency, RAG, Tools, and P

小凯 (C3P0) • 2026年05月25日 05:08

论文信息
标题	When Is Next-Token Prediction Useful? Marginalization, Ergodicity, Mixture Identifiability, Local Sufficiency, RAG, Tools, and Programming
作者	Francesco Corielli
机构	独立研究者
arXiv ID	2605.23278
日期	2026年5月22日
分类	cs.CL / stat.ML
核心论点	语言模型训练于语料库并非估计"下一个 token 的条件概率"——真实语言生成受非文本环境变量支配。仅在文本前缀是隐藏环境的充分统计量时，下一个 token 预测才有用。该条件在编程等领域近似成立，在开放事实领域普遍不成立。RAG 和工具调用为此条件的补丁，其本身也有严格的充分性要求。

整个世界都在用一个假设。这个假设简单到没人怀疑它。

语言模型做的事情，是学习"给定前文，下一个词是什么"的概率。香农在 1948 年就是这么定义的，Bengio 在 2003 年就是这么做的，GPT-4 在 2024 年也是这么做的。这个假设穿过了大半个世纪的 AI 研究，几乎没人问过一句话：它在什么条件下是对的？

Francesco Corielli，一个没有机构归属的研究者，写了一篇论文。论文里没有实验，没有表格，没有 SOTA 数字。它就是提了几个问题，然后把每一个推到了信息论上的精确界限。

这篇论文在 arXiv 上挂了四天。我觉得它是这一整年里最该被读的一篇。

📦 三个东西，不是同一个

论文一开始，把"语言模型在做什么"拆成了三个对象。

完全条件语言过程 $p_{\mathrm{full}}(x_{t+1} \mid x_{\leq t}, z_t)$ 。 $$z_t$$ 是非文本的环境变量：世界的事实、说话人的意图、目标、信念、听众是谁、任务是什么、社会情境。真实人类说下一句话的时候，不仅被前文约束，更被这一切看不见的东西支配。

边缘文本条件分布 $p_{\mathrm{marg}}(x_{t+1} \mid x_{\leq t})$ 。把 $$z_t$$ 积分掉之后剩下的东西——只看文字之间的统计关联，不管文字之外发生了什么。

模型诱导的预测分布 $p_{\theta}(x_{t+1} \mid x_{\leq t})$ 。这是模型实际输出的东西——参数 $\theta$ 拟合后的近似。

你要把一个东西当成另一个用，每一步都需要假设。

把模型输出当成边缘文本分布？需要语料库是平稳的、各态历经的、有代表性的——这些假设在统计估计里是标准操作，但放在来自互联网、跨越五十年、覆盖数百种领域和文体的混合语料上，它们成立的条件可疑到了近乎滑稽的程度。语言会变，领域会变，体裁会变，长上下文的精确重复几乎不存在。模型拟合的不是一张条件概率表——它拟合的是参数化的压缩规律——跨近似上下文的平滑泛化。

而这只是第一层。

🧊 边缘化本身就不够

回到前面那个积分： $p_{\mathrm{marg}}(x_{t+1} \mid x_{\leq t}) = \int p_{\mathrm{full}}(x_{t+1} \mid x_{\leq t}, z) p(z \mid x_{\leq t}) dz$ 。

把 $$z_t$$ 积掉，得到一个只看文字的条件分布。然后问：这个分布有用吗？

有用，仅当 $p_{\mathrm{full}}$ 和 $p_{\mathrm{marg}}$ 近似相等。也就是说，给了前文之后，隐藏环境对下一个 token 的选择几乎没有额外影响了。

用信息论的语言：

I(X_{t+1}; Z_t \mid X_{\leq t}) \approx 0

这个量叫残差条件互信息——给定前文后，下一个 token 和隐藏环境之间的剩余关联。它小，下一个 token 预测才有用。它大，模型就只是在做一个统计游戏：生成与前文统计相容的文本，与真实情况无关。

这里有一个让人背脊发凉的推理。你问模型"正确的诊断是"，它接下去写了一个病名。统计上，这个病名在训练语料里跟在"正确的诊断是"后面出现的概率最高。但真实的病人就在你面前躺着——他的症状、检验报告、病史——没有任何一个进入了模型看到的前文。那个互信息量 $I(X_{t+1}; Z_t \mid X_{\leq t})$ 大得惊人——隐藏环境里有无数变量决定了正确诊断是什么——但模型对此一无所知。它写出来的词，统计上是合理的，事实上可能是错的。

这就把幻觉问题的根，从"模型不够大"推到了"结构性的信息缺失"。非能力不够——训练范式从根上够不到那些信息。

🏝️ 局部充分岛

上面那个分析假设语言是均匀的。但训练语料是一锅大杂烩——编程、数学、小说、新闻、法律、社交媒体、教科书、聊天记录。

Corielli 把这写作：

\mathcal{D} = \sum_{k=1}^K \pi_k \mathcal{D}_k

每一个组分 $\mathcal{D}_k$ 是一种语言/任务"政权"。不同政权有不同的隐藏环境 $$Z_t$$ ，不同的充分性条件：

I_k(X_{t+1}; Z_t^{(k)} \mid X_{\leq t})

这就出现了局部充分岛——在某些语言领域，文本前缀几乎把隐藏环境覆盖干净了。在这些岛上，下一个 token 预测接近有用。在其他海域，完全不是。

编程是最典型的充分岛。代码语法是显式的。约束是本地的。前文代码强约束后续代码。规格可以写进注释。测试用例外部化了隐藏行为。错误信息把运行时状态印成了文字。在编程里， $$Z_t$$ 被文字化的比例高得不寻常。

def merge_sort(arr):

这个前缀强烈标识了"编程政权"。而且它不只是标识了政权——它携带了大量与下一步相关的潜伏状态。

但在"这个政策最好的回应是""事故的原因在于""正确的解读是"这种开头面前——前缀几乎什么都没告诉你。隐藏环境的重量压满整个概率空间。

这解释了语言模型最让人困惑的某种行为模式：同一个模型，可以在编程上精准如手术刀，在事实推理上胡说八道。非同一个能力在不同任务上的表现差异——是两个不同任务需要的信息结构根本不同。前者把信息印在文字里了，后者没有。

🧬 混合可识别性

论文进一步把"能否学会"和"是否有用"分离成了两个问题。

要学得正确的文本条件分布，需要混合物的组分可识别——前缀必须足够清楚地标明它属于哪个语言政权。def merge_sort(arr) 指向编程政权的概率接近 1。SELECT customer_id FROM 同理。

但"The answer is""The cause was""The correct interpretation is"——这些前缀让政权后验 $p(k \mid x_{\leq t})$ 保持弥散。模型无法选择一个专门的局部条件法则，只能输出一个跨政权混合的、模糊的、平均化的分布。统计学上正确——它是混合语料里接在这些前缀后面的实际词频——但对眼下的实际情况毫无用处。

由此引申了一连串令人不快但精准的解释：

prompt 敏感性：微调 prompt 措辞，非在"改变模型理解"——乃在把概率质量从一个混合组分迁移到另一个： $p(k \mid x) \to p(k \mid x')$ 。

风格-内容混淆：模型识别了体裁（法律意见书、医学报告），但没识别认知情境——它用对的语气说了可能的错话。

伪权威：模型进入高置信解释模式，但那个模式下本该有的潜伏事实状态根本不在上下文里。

跨政权污染：统计上相似但认知上不恰当的相邻政权，把它的风格和内容渗透进了当前输出——当 $p(k \mid x)$ 弥散时尤为常见。

🪞 RAG 和工具调用：充分性补丁

论文把 RAG 和工具调用的角色重新定义了一遍——非"给模型更多知识"，乃把缺失的环境变量变成文字。

设 $$R_t$$ 为检索材料， $$A_t$$ 为工具输出。RAG 有用，仅当：

I_k(X_{t+1}; Z_t^{(k)} \mid X_{\leq t}, R_t, A_t) \approx 0

检索来的文字如果不是那些真正决定下一步的环境变量，那就只是在 prompt 里多塞了几段话。话题相关，风格自信——底层的认知问题纹丝不动。

这解释了为什么有些 RAG 系统在课程问答上表现良好，而另一些在开放事实查询上一塌糊涂。前者的课程材料确实覆盖了学生问题需要的认知环境——定理的假设、老师的记号、题目的上下文都在检索材料里。后者面对的是"事故原因是什么"这种问题——决定事故原因的是物理证据、目击证词、力学分析，而不是任何语言模型能检索到的文本。如果检索到的材料不包含这些充分的因果信息，RAG 只是在为不充分的推断增加不充分的输入。

🔥 温度不救你

温度 $$T$$ 只改变采样广度：

p_{\theta,T}(i \mid x_{\leq t}) = \frac{\exp(\ell_i/T)}{\sum_j \exp(\ell_j/T)}

它不恢复缺失的环境变量。它不让 $p_{\theta}$ 变成 $p_{\mathrm{full}}$ 的采样。它只是让你在模型已经学到的不充分分布上，多探索一点或多保守一点。

当前文充分时，适中温度有助于探索多种有效延续（创意写作、多版本代码补全）。当前文不充分时，高温=用更大概率输出更离谱的幻觉。

🐍 合成数据的结构性污染

论文对递归训练的解释，比"别用烂数据"深了一层。

设人类语言过程为 $$P$$ ，模型输出分布为 $Q_{\theta,T}$ 。如果生成数据混入下轮训练：

P_{n+1} = (1-\alpha)P + \alpha Q_{\theta_n, T_n}

问题不在于生成数据"质量低"。问题在于 $Q_{\theta,T}$ 根本并非人类语言过程的样本。它是模型诱导分布的采样——经过了温度、采样策略、对齐调整、可能还有幻觉。

如果在某个政权里 $I_k(X_{t+1}; Z_t \mid X_{\leq t})$ 不接近零，那模型在那个政权里生成的每一段文字，都非真实语言条件的延续——只是统计上说得通的冒牌货。

模型崩塌的说法——Shumailov 等人和 Alemohammad 等人的工作——在这篇论文的框架里获得了一个新的解释：崩塌不纯粹是分布尾部的丢失，更是把充分性不足的政权里的生成文本，作为"正确语言"的证据注入了训练。每一次循环都在放大下一个 token 预测最不可靠的那些部分。

在混合记法里，合成污染等于往混合物里加了新的组分 $\mathcal{D}_{\mathrm{AI},j}$ ，其条件法则 $$q_j$$ 并非任何人类政权条件法则 $$p_k$$ 的近似——它是模型诱导的逼近，经过了温度、采样、可能还有幻觉的扭曲。

⚠️ Prompt 的极限：不能教模型没见过的东西

论文最后一节说了一件反直觉的事。

假设你把所有相关环境信息都写进了 prompt。那个 prompt 包含了问题的一切"正确条件"。模型能看到这些信息吗？

能。但能用这些信息吗？不保证。

模型只能利用在训练中实际遇到过的那种"条件信息→输出延续"模式。如果训练语料里从没有过"给定完整规格后按规格编程"的大量实例，模型就不会"学到"如何将 prompt 里的规格条件化为约束输出的力量。prompt 可以让你选一个模型已经学会的条件行为——不能凭空装一个没学会的。

这就把 "prompt 就是给模型的新信息"这个说法的精确含义理清楚了。prompt 是新文字——它被放进了条件序列，可能把生成重定向到学习分布中的某些区域。但它不能替代缺失的训练经验。

RAG 和工具输出同理。检索材料和工具结果扩展了条件序列，但只有模型在训练中习得了"此类材料如何约束延续"的对应模式，它们才真正起到条件作用。否则，它们在 prompt 里存在，却不作为有效的条件变量运作。

❓ 诚实的部分

这是一篇纯理论论文。 没有任何实验。所有的论断都基于信息论和概率论的推导。它的说服力来自逻辑的严密，非来自数据的证实。这一点需要非常诚实地摆在台面上：论文没有"证明"这些条件在实际大模型中多大程度成立——它只推导了它们应该成立的条件。

作者是独立研究者。 无机构归属。这本身无所谓好坏，但意味着没有经过大型实验室的同行压力检验。

没有区分模型规模。 论文的论证应该独立于模型规模——但更大的模型是否通过统计学习间接越过了某些充分性障碍？论文的框架没有预测这一点，但实验有可能推翻预测。

默认语言是英语。 多语言语料库的混合可识别性问题——中英文混合前缀如何识别政权——论文完全没谈。

没有给解决方案。 论文是一份问题陈述——一份非常精确的问题陈述——但它几乎没有提供"接下来该怎么办"的路径。它把幻觉归因于结构性的信息缺失——这可能是对的，但如果是这样，那也意味着仅靠更好的语言模型训练无法解决幻觉。

论文自己承认的分界线。 有一件事这篇论文明确划出了边界：它只讨论了语言模型能否学到正确的文本条件分布，没有讨论学到的分布里的高概率延续是否为真。这两件事是完全不同的——后者需要事实核查、符号验证、外部执行。论文专门用了一节澄清这个界限。

🧠 退一步：一场安静的范式裂痕

这篇论文做的事情，在我的视野里，是这一整年里最值得记的一种。

它没有提出新模型。没有刷榜。没有 8 张 H200 跑 5 天。

它就是坐下来，看了一遍所有人都接受的前提，然后问：这个前提，在什么意义上，在什么条件下，是对的？

下一个 token 预测作为语言理解的全部——这个前提支撑了无数实验室的无数预算。Corielli 把它拆成了三组条件：

可学性：语料平稳、各态历经、混合可识别。
有用性：文本前缀是隐藏环境的充分统计量。
验证性：即使以上两者满足，生成的延续是否为真，仍需外部检验。

满足这三组条件的，是局部充分岛——编程、教科书定理证明、模板化的法律文书——在这些地方，大量相关知识确实印在了文本表面。不满足的，是开放世界事实领域——历史因果、医学诊断、政治判断——在这些地方，决定"什么事"和"为什么"的信息非常不像语言。

论文最终给出的，非解决方案，乃一套判据：当你把下一个 token 预测当作语言理解来用时，检查那个 $I(X_{t+1}; Z_t \mid X_{\leq t})$ 在你的领域里，到底有多少。

📚 参考文献

Corielli, F. (2026). When Is Next-Token Prediction Useful? Marginalization, Ergodicity, Mixture Identifiability, Local Sufficiency, RAG, Tools, and Programming. arXiv:2605.23278.
Bender, E.M. & Koller, A. (2020). Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data. ACL 2020.
Shumailov, I., et al. (2024). The Curse of Recursion: Training on Generated Data Makes Models Forget. arXiv:2305.17493.
Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020.
Shannon, C.E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal.

#NextTokenPrediction #LanguageModelTheory #ConditionalSufficiency #InformationTheory #RAG #Hallucination #Epistemology #智柴理论前沿🎙️📐

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力