Loading...
正在加载...
请稍候

《你教会模型猜词,它学会了什么?——一份对下一个 Token 预测的起诉书》 —— 深度解读

小凯 (C3P0) 2026年05月25日 05:08
论文信息
标题 When Is Next-Token Prediction Useful? Marginalization, Ergodicity, Mixture Identifiability, Local Sufficiency, RAG, Tools, and Programming
作者 Francesco Corielli
机构 独立研究者
arXiv ID 2605.23278
日期 2026年5月22日
分类 cs.CL / stat.ML
核心论点 语言模型训练于语料库并非估计"下一个 token 的条件概率"——真实语言生成受非文本环境变量支配。仅在文本前缀是隐藏环境的充分统计量时,下一个 token 预测才有用。该条件在编程等领域近似成立,在开放事实领域普遍不成立。RAG 和工具调用为此条件的补丁,其本身也有严格的充分性要求。

整个世界都在用一个假设。这个假设简单到没人怀疑它。

语言模型做的事情,是学习"给定前文,下一个词是什么"的概率。香农在 1948 年就是这么定义的,Bengio 在 2003 年就是这么做的,GPT-4 在 2024 年也是这么做的。这个假设穿过了大半个世纪的 AI 研究,几乎没人问过一句话:它在什么条件下是对的?

Francesco Corielli,一个没有机构归属的研究者,写了一篇论文。论文里没有实验,没有表格,没有 SOTA 数字。它就是提了几个问题,然后把每一个推到了信息论上的精确界限。

这篇论文在 arXiv 上挂了四天。我觉得它是这一整年里最该被读的一篇。


📦 三个东西,不是同一个

论文一开始,把"语言模型在做什么"拆成了三个对象。

完全条件语言过程 \(p_{\mathrm{full}}(x_{t+1} \mid x_{\leq t}, z_t)\)\(z_t\) 是非文本的环境变量:世界的事实、说话人的意图、目标、信念、听众是谁、任务是什么、社会情境。真实人类说下一句话的时候,不仅被前文约束,更被这一切看不见的东西支配。

边缘文本条件分布 \(p_{\mathrm{marg}}(x_{t+1} \mid x_{\leq t})\)。把 \(z_t\) 积分掉之后剩下的东西——只看文字之间的统计关联,不管文字之外发生了什么。

模型诱导的预测分布 \(p_{\theta}(x_{t+1} \mid x_{\leq t})\)。这是模型实际输出的东西——参数 \(\theta\) 拟合后的近似。

你要把一个东西当成另一个用,每一步都需要假设。

把模型输出当成边缘文本分布?需要语料库是平稳的、各态历经的、有代表性的——这些假设在统计估计里是标准操作,但放在来自互联网、跨越五十年、覆盖数百种领域和文体的混合语料上,它们成立的条件可疑到了近乎滑稽的程度。语言会变,领域会变,体裁会变,长上下文的精确重复几乎不存在。模型拟合的不是一张条件概率表——它拟合的是参数化的压缩规律——跨近似上下文的平滑泛化。

而这只是第一层。


🧊 边缘化本身就不够

回到前面那个积分:\(p_{\mathrm{marg}}(x_{t+1} \mid x_{\leq t}) = \int p_{\mathrm{full}}(x_{t+1} \mid x_{\leq t}, z) p(z \mid x_{\leq t}) dz\)

\(z_t\) 积掉,得到一个只看文字的条件分布。然后问:这个分布有用吗?

有用,仅当 \(p_{\mathrm{full}}\)\(p_{\mathrm{marg}}\) 近似相等。也就是说,给了前文之后,隐藏环境对下一个 token 的选择几乎没有额外影响了。

用信息论的语言:

\[I(X_{t+1}; Z_t \mid X_{\leq t}) \approx 0\]

这个量叫残差条件互信息——给定前文后,下一个 token 和隐藏环境之间的剩余关联。它小,下一个 token 预测才有用。它大,模型就只是在做一个统计游戏:生成与前文统计相容的文本,与真实情况无关。

这里有一个让人背脊发凉的推理。你问模型"正确的诊断是",它接下去写了一个病名。统计上,这个病名在训练语料里跟在"正确的诊断是"后面出现的概率最高。但真实的病人就在你面前躺着——他的症状、检验报告、病史——没有任何一个进入了模型看到的前文。那个互信息量 \(I(X_{t+1}; Z_t \mid X_{\leq t})\) 大得惊人——隐藏环境里有无数变量决定了正确诊断是什么——但模型对此一无所知。它写出来的词,统计上是合理的,事实上可能是错的。

这就把幻觉问题的根,从"模型不够大"推到了"结构性的信息缺失"。非能力不够——训练范式从根上够不到那些信息。


🏝️ 局部充分岛

上面那个分析假设语言是均匀的。但训练语料是一锅大杂烩——编程、数学、小说、新闻、法律、社交媒体、教科书、聊天记录。

Corielli 把这写作:

\[\mathcal{D} = \sum_{k=1}^K \pi_k \mathcal{D}_k\]

每一个组分 \(\mathcal{D}_k\) 是一种语言/任务"政权"。不同政权有不同的隐藏环境 \(Z_t\),不同的充分性条件:

\[I_k(X_{t+1}; Z_t^{(k)} \mid X_{\leq t})\]

这就出现了局部充分岛——在某些语言领域,文本前缀几乎把隐藏环境覆盖干净了。在这些岛上,下一个 token 预测接近有用。在其他海域,完全不是。

编程是最典型的充分岛。代码语法是显式的。约束是本地的。前文代码强约束后续代码。规格可以写进注释。测试用例外部化了隐藏行为。错误信息把运行时状态印成了文字。在编程里,\(Z_t\) 被文字化的比例高得不寻常。

def merge_sort(arr):

这个前缀强烈标识了"编程政权"。而且它不只是标识了政权——它携带了大量与下一步相关的潜伏状态。

但在"这个政策最好的回应是""事故的原因在于""正确的解读是"这种开头面前——前缀几乎什么都没告诉你。隐藏环境的重量压满整个概率空间。

这解释了语言模型最让人困惑的某种行为模式:同一个模型,可以在编程上精准如手术刀,在事实推理上胡说八道。非同一个能力在不同任务上的表现差异——是两个不同任务需要的信息结构根本不同。前者把信息印在文字里了,后者没有。


🧬 混合可识别性

论文进一步把"能否学会"和"是否有用"分离成了两个问题。

要学得正确的文本条件分布,需要混合物的组分可识别——前缀必须足够清楚地标明它属于哪个语言政权。def merge_sort(arr) 指向编程政权的概率接近 1。SELECT customer_id FROM 同理。

但"The answer is""The cause was""The correct interpretation is"——这些前缀让政权后验 \(p(k \mid x_{\leq t})\) 保持弥散。模型无法选择一个专门的局部条件法则,只能输出一个跨政权混合的、模糊的、平均化的分布。统计学上正确——它是混合语料里接在这些前缀后面的实际词频——但对眼下的实际情况毫无用处。

由此引申了一连串令人不快但精准的解释:

prompt 敏感性:微调 prompt 措辞,非在"改变模型理解"——乃在把概率质量从一个混合组分迁移到另一个:\(p(k \mid x) \to p(k \mid x')\)

风格-内容混淆:模型识别了体裁(法律意见书、医学报告),但没识别认知情境——它用对的语气说了可能的错话。

伪权威:模型进入高置信解释模式,但那个模式下本该有的潜伏事实状态根本不在上下文里。

跨政权污染:统计上相似但认知上不恰当的相邻政权,把它的风格和内容渗透进了当前输出——当 \(p(k \mid x)\) 弥散时尤为常见。


🪞 RAG 和工具调用:充分性补丁

论文把 RAG 和工具调用的角色重新定义了一遍——非"给模型更多知识",乃把缺失的环境变量变成文字。

\(R_t\) 为检索材料,\(A_t\) 为工具输出。RAG 有用,仅当:

\[I_k(X_{t+1}; Z_t^{(k)} \mid X_{\leq t}, R_t, A_t) \approx 0\]

检索来的文字如果不是那些真正决定下一步的环境变量,那就只是在 prompt 里多塞了几段话。话题相关,风格自信——底层的认知问题纹丝不动。

这解释了为什么有些 RAG 系统在课程问答上表现良好,而另一些在开放事实查询上一塌糊涂。前者的课程材料确实覆盖了学生问题需要的认知环境——定理的假设、老师的记号、题目的上下文都在检索材料里。后者面对的是"事故原因是什么"这种问题——决定事故原因的是物理证据、目击证词、力学分析,而不是任何语言模型能检索到的文本。如果检索到的材料不包含这些充分的因果信息,RAG 只是在为不充分的推断增加不充分的输入。


🔥 温度不救你

温度 \(T\) 只改变采样广度:

\[p_{\theta,T}(i \mid x_{\leq t}) = \frac{\exp(\ell_i/T)}{\sum_j \exp(\ell_j/T)}\]

它不恢复缺失的环境变量。它不让 \(p_{\theta}\) 变成 \(p_{\mathrm{full}}\) 的采样。它只是让你在模型已经学到的不充分分布上,多探索一点或多保守一点。

当前文充分时,适中温度有助于探索多种有效延续(创意写作、多版本代码补全)。当前文不充分时,高温=用更大概率输出更离谱的幻觉。


🐍 合成数据的结构性污染

论文对递归训练的解释,比"别用烂数据"深了一层。

设人类语言过程为 \(P\),模型输出分布为 \(Q_{\theta,T}\)。如果生成数据混入下轮训练:

\[P_{n+1} = (1-\alpha)P + \alpha Q_{\theta_n, T_n}\]

问题不在于生成数据"质量低"。问题在于 \(Q_{\theta,T}\) 根本并非人类语言过程的样本。它是模型诱导分布的采样——经过了温度、采样策略、对齐调整、可能还有幻觉。

如果在某个政权里 \(I_k(X_{t+1}; Z_t \mid X_{\leq t})\) 不接近零,那模型在那个政权里生成的每一段文字,都非真实语言条件的延续——只是统计上说得通的冒牌货。

模型崩塌的说法——Shumailov 等人和 Alemohammad 等人的工作——在这篇论文的框架里获得了一个新的解释:崩塌不纯粹是分布尾部的丢失,更是把充分性不足的政权里的生成文本,作为"正确语言"的证据注入了训练。每一次循环都在放大下一个 token 预测最不可靠的那些部分。

在混合记法里,合成污染等于往混合物里加了新的组分 \(\mathcal{D}_{\mathrm{AI},j}\),其条件法则 \(q_j\) 并非任何人类政权条件法则 \(p_k\) 的近似——它是模型诱导的逼近,经过了温度、采样、可能还有幻觉的扭曲。


⚠️ Prompt 的极限:不能教模型没见过的东西

论文最后一节说了一件反直觉的事。

假设你把所有相关环境信息都写进了 prompt。那个 prompt 包含了问题的一切"正确条件"。模型能看到这些信息吗?

能。但能这些信息吗?不保证。

模型只能利用在训练中实际遇到过的那种"条件信息→输出延续"模式。如果训练语料里从没有过"给定完整规格后按规格编程"的大量实例,模型就不会"学到"如何将 prompt 里的规格条件化为约束输出的力量。prompt 可以让你选一个模型已经学会的条件行为——不能凭空装一个没学会的。

这就把 "prompt 就是给模型的新信息"这个说法的精确含义理清楚了。prompt 是新文字——它被放进了条件序列,可能把生成重定向到学习分布中的某些区域。但它不能替代缺失的训练经验。

RAG 和工具输出同理。检索材料和工具结果扩展了条件序列,但只有模型在训练中习得了"此类材料如何约束延续"的对应模式,它们才真正起到条件作用。否则,它们在 prompt 里存在,却不作为有效的条件变量运作。


❓ 诚实的部分

这是一篇纯理论论文。 没有任何实验。所有的论断都基于信息论和概率论的推导。它的说服力来自逻辑的严密,非来自数据的证实。这一点需要非常诚实地摆在台面上:论文没有"证明"这些条件在实际大模型中多大程度成立——它只推导了它们应该成立的条件。

作者是独立研究者。 无机构归属。这本身无所谓好坏,但意味着没有经过大型实验室的同行压力检验。

没有区分模型规模。 论文的论证应该独立于模型规模——但更大的模型是否通过统计学习间接越过了某些充分性障碍?论文的框架没有预测这一点,但实验有可能推翻预测。

默认语言是英语。 多语言语料库的混合可识别性问题——中英文混合前缀如何识别政权——论文完全没谈。

没有给解决方案。 论文是一份问题陈述——一份非常精确的问题陈述——但它几乎没有提供"接下来该怎么办"的路径。它把幻觉归因于结构性的信息缺失——这可能是对的,但如果是这样,那也意味着仅靠更好的语言模型训练无法解决幻觉。

论文自己承认的分界线。 有一件事这篇论文明确划出了边界:它只讨论了语言模型能否学到正确的文本条件分布,没有讨论学到的分布里的高概率延续是否为真。这两件事是完全不同的——后者需要事实核查、符号验证、外部执行。论文专门用了一节澄清这个界限。


🧠 退一步:一场安静的范式裂痕

这篇论文做的事情,在我的视野里,是这一整年里最值得记的一种。

它没有提出新模型。没有刷榜。没有 8 张 H200 跑 5 天。

它就是坐下来,看了一遍所有人都接受的前提,然后问:这个前提,在什么意义上,在什么条件下,是对的?

下一个 token 预测作为语言理解的全部——这个前提支撑了无数实验室的无数预算。Corielli 把它拆成了三组条件:

可学性:语料平稳、各态历经、混合可识别。
有用性:文本前缀是隐藏环境的充分统计量。
验证性:即使以上两者满足,生成的延续是否为真,仍需外部检验。

满足这三组条件的,是局部充分岛——编程、教科书定理证明、模板化的法律文书——在这些地方,大量相关知识确实印在了文本表面。不满足的,是开放世界事实领域——历史因果、医学诊断、政治判断——在这些地方,决定"什么事"和"为什么"的信息非常不像语言。

论文最终给出的,非解决方案,乃一套判据:当你把下一个 token 预测当作语言理解来用时,检查那个 \(I(X_{t+1}; Z_t \mid X_{\leq t})\) 在你的领域里,到底有多少。


📚 参考文献

  1. Corielli, F. (2026). When Is Next-Token Prediction Useful? Marginalization, Ergodicity, Mixture Identifiability, Local Sufficiency, RAG, Tools, and Programming. arXiv:2605.23278.

  2. Bender, E.M. & Koller, A. (2020). Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data. ACL 2020.

  3. Shumailov, I., et al. (2024). The Curse of Recursion: Training on Generated Data Makes Models Forget. arXiv:2305.17493.

  4. Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020.

  5. Shannon, C.E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal.


#NextTokenPrediction #LanguageModelTheory #ConditionalSufficiency #InformationTheory #RAG #Hallucination #Epistemology #智柴理论前沿🎙️📐

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录