| 论文信息 | |
|---|---|
| 标题 | When Is Next-Token Prediction Useful? Marginalization, Ergodicity, Mixture Identifiability, Local Sufficiency, RAG, Tools, and Programming |
| 作者 | Francesco Corielli |
| 机构 | 独立研究者 |
| arXiv ID | 2605.23278 |
| 日期 | 2026年5月22日 |
| 分类 | cs.CL / stat.ML |
| 核心论点 | 语言模型训练于语料库并非估计"下一个 token 的条件概率"——真实语言生成受非文本环境变量支配。仅在文本前缀是隐藏环境的充分统计量时,下一个 token 预测才有用。该条件在编程等领域近似成立,在开放事实领域普遍不成立。RAG 和工具调用为此条件的补丁,其本身也有严格的充分性要求。 |
整个世界都在用一个假设。这个假设简单到没人怀疑它。
语言模型做的事情,是学习"给定前文,下一个词是什么"的概率。香农在 1948 年就是这么定义的,Bengio 在 2003 年就是这么做的,GPT-4 在 2024 年也是这么做的。这个假设穿过了大半个世纪的 AI 研究,几乎没人问过一句话:它在什么条件下是对的?
Francesco Corielli,一个没有机构归属的研究者,写了一篇论文。论文里没有实验,没有表格,没有 SOTA 数字。它就是提了几个问题,然后把每一个推到了信息论上的精确界限。
这篇论文在 arXiv 上挂了四天。我觉得它是这一整年里最该被读的一篇。
📦 三个东西,不是同一个
论文一开始,把"语言模型在做什么"拆成了三个对象。
完全条件语言过程 \(p_{\mathrm{full}}(x_{t+1} \mid x_{\leq t}, z_t)\)。\(z_t\) 是非文本的环境变量:世界的事实、说话人的意图、目标、信念、听众是谁、任务是什么、社会情境。真实人类说下一句话的时候,不仅被前文约束,更被这一切看不见的东西支配。
边缘文本条件分布 \(p_{\mathrm{marg}}(x_{t+1} \mid x_{\leq t})\)。把 \(z_t\) 积分掉之后剩下的东西——只看文字之间的统计关联,不管文字之外发生了什么。
模型诱导的预测分布 \(p_{\theta}(x_{t+1} \mid x_{\leq t})\)。这是模型实际输出的东西——参数 \(\theta\) 拟合后的近似。
你要把一个东西当成另一个用,每一步都需要假设。
把模型输出当成边缘文本分布?需要语料库是平稳的、各态历经的、有代表性的——这些假设在统计估计里是标准操作,但放在来自互联网、跨越五十年、覆盖数百种领域和文体的混合语料上,它们成立的条件可疑到了近乎滑稽的程度。语言会变,领域会变,体裁会变,长上下文的精确重复几乎不存在。模型拟合的不是一张条件概率表——它拟合的是参数化的压缩规律——跨近似上下文的平滑泛化。
而这只是第一层。
🧊 边缘化本身就不够
回到前面那个积分:\(p_{\mathrm{marg}}(x_{t+1} \mid x_{\leq t}) = \int p_{\mathrm{full}}(x_{t+1} \mid x_{\leq t}, z) p(z \mid x_{\leq t}) dz\)。
把 \(z_t\) 积掉,得到一个只看文字的条件分布。然后问:这个分布有用吗?
有用,仅当 \(p_{\mathrm{full}}\) 和 \(p_{\mathrm{marg}}\) 近似相等。也就是说,给了前文之后,隐藏环境对下一个 token 的选择几乎没有额外影响了。
用信息论的语言:
这个量叫残差条件互信息——给定前文后,下一个 token 和隐藏环境之间的剩余关联。它小,下一个 token 预测才有用。它大,模型就只是在做一个统计游戏:生成与前文统计相容的文本,与真实情况无关。
这里有一个让人背脊发凉的推理。你问模型"正确的诊断是",它接下去写了一个病名。统计上,这个病名在训练语料里跟在"正确的诊断是"后面出现的概率最高。但真实的病人就在你面前躺着——他的症状、检验报告、病史——没有任何一个进入了模型看到的前文。那个互信息量 \(I(X_{t+1}; Z_t \mid X_{\leq t})\) 大得惊人——隐藏环境里有无数变量决定了正确诊断是什么——但模型对此一无所知。它写出来的词,统计上是合理的,事实上可能是错的。
这就把幻觉问题的根,从"模型不够大"推到了"结构性的信息缺失"。非能力不够——训练范式从根上够不到那些信息。
🏝️ 局部充分岛
上面那个分析假设语言是均匀的。但训练语料是一锅大杂烩——编程、数学、小说、新闻、法律、社交媒体、教科书、聊天记录。
Corielli 把这写作:
每一个组分 \(\mathcal{D}_k\) 是一种语言/任务"政权"。不同政权有不同的隐藏环境 \(Z_t\),不同的充分性条件:
这就出现了局部充分岛——在某些语言领域,文本前缀几乎把隐藏环境覆盖干净了。在这些岛上,下一个 token 预测接近有用。在其他海域,完全不是。
编程是最典型的充分岛。代码语法是显式的。约束是本地的。前文代码强约束后续代码。规格可以写进注释。测试用例外部化了隐藏行为。错误信息把运行时状态印成了文字。在编程里,\(Z_t\) 被文字化的比例高得不寻常。
def merge_sort(arr):
这个前缀强烈标识了"编程政权"。而且它不只是标识了政权——它携带了大量与下一步相关的潜伏状态。
但在"这个政策最好的回应是""事故的原因在于""正确的解读是"这种开头面前——前缀几乎什么都没告诉你。隐藏环境的重量压满整个概率空间。
这解释了语言模型最让人困惑的某种行为模式:同一个模型,可以在编程上精准如手术刀,在事实推理上胡说八道。非同一个能力在不同任务上的表现差异——是两个不同任务需要的信息结构根本不同。前者把信息印在文字里了,后者没有。
🧬 混合可识别性
论文进一步把"能否学会"和"是否有用"分离成了两个问题。
要学得正确的文本条件分布,需要混合物的组分可识别——前缀必须足够清楚地标明它属于哪个语言政权。def merge_sort(arr) 指向编程政权的概率接近 1。SELECT customer_id FROM 同理。
但"The answer is""The cause was""The correct interpretation is"——这些前缀让政权后验 \(p(k \mid x_{\leq t})\) 保持弥散。模型无法选择一个专门的局部条件法则,只能输出一个跨政权混合的、模糊的、平均化的分布。统计学上正确——它是混合语料里接在这些前缀后面的实际词频——但对眼下的实际情况毫无用处。
由此引申了一连串令人不快但精准的解释:
prompt 敏感性:微调 prompt 措辞,非在"改变模型理解"——乃在把概率质量从一个混合组分迁移到另一个:\(p(k \mid x) \to p(k \mid x')\)。
风格-内容混淆:模型识别了体裁(法律意见书、医学报告),但没识别认知情境——它用对的语气说了可能的错话。
伪权威:模型进入高置信解释模式,但那个模式下本该有的潜伏事实状态根本不在上下文里。
跨政权污染:统计上相似但认知上不恰当的相邻政权,把它的风格和内容渗透进了当前输出——当 \(p(k \mid x)\) 弥散时尤为常见。
🪞 RAG 和工具调用:充分性补丁
论文把 RAG 和工具调用的角色重新定义了一遍——非"给模型更多知识",乃把缺失的环境变量变成文字。
设 \(R_t\) 为检索材料,\(A_t\) 为工具输出。RAG 有用,仅当:
检索来的文字如果不是那些真正决定下一步的环境变量,那就只是在 prompt 里多塞了几段话。话题相关,风格自信——底层的认知问题纹丝不动。
这解释了为什么有些 RAG 系统在课程问答上表现良好,而另一些在开放事实查询上一塌糊涂。前者的课程材料确实覆盖了学生问题需要的认知环境——定理的假设、老师的记号、题目的上下文都在检索材料里。后者面对的是"事故原因是什么"这种问题——决定事故原因的是物理证据、目击证词、力学分析,而不是任何语言模型能检索到的文本。如果检索到的材料不包含这些充分的因果信息,RAG 只是在为不充分的推断增加不充分的输入。
🔥 温度不救你
温度 \(T\) 只改变采样广度:
它不恢复缺失的环境变量。它不让 \(p_{\theta}\) 变成 \(p_{\mathrm{full}}\) 的采样。它只是让你在模型已经学到的不充分分布上,多探索一点或多保守一点。
当前文充分时,适中温度有助于探索多种有效延续(创意写作、多版本代码补全)。当前文不充分时,高温=用更大概率输出更离谱的幻觉。
🐍 合成数据的结构性污染
论文对递归训练的解释,比"别用烂数据"深了一层。
设人类语言过程为 \(P\),模型输出分布为 \(Q_{\theta,T}\)。如果生成数据混入下轮训练:
问题不在于生成数据"质量低"。问题在于 \(Q_{\theta,T}\) 根本并非人类语言过程的样本。它是模型诱导分布的采样——经过了温度、采样策略、对齐调整、可能还有幻觉。
如果在某个政权里 \(I_k(X_{t+1}; Z_t \mid X_{\leq t})\) 不接近零,那模型在那个政权里生成的每一段文字,都非真实语言条件的延续——只是统计上说得通的冒牌货。
模型崩塌的说法——Shumailov 等人和 Alemohammad 等人的工作——在这篇论文的框架里获得了一个新的解释:崩塌不纯粹是分布尾部的丢失,更是把充分性不足的政权里的生成文本,作为"正确语言"的证据注入了训练。每一次循环都在放大下一个 token 预测最不可靠的那些部分。
在混合记法里,合成污染等于往混合物里加了新的组分 \(\mathcal{D}_{\mathrm{AI},j}\),其条件法则 \(q_j\) 并非任何人类政权条件法则 \(p_k\) 的近似——它是模型诱导的逼近,经过了温度、采样、可能还有幻觉的扭曲。
⚠️ Prompt 的极限:不能教模型没见过的东西
论文最后一节说了一件反直觉的事。
假设你把所有相关环境信息都写进了 prompt。那个 prompt 包含了问题的一切"正确条件"。模型能看到这些信息吗?
能。但能用这些信息吗?不保证。
模型只能利用在训练中实际遇到过的那种"条件信息→输出延续"模式。如果训练语料里从没有过"给定完整规格后按规格编程"的大量实例,模型就不会"学到"如何将 prompt 里的规格条件化为约束输出的力量。prompt 可以让你选一个模型已经学会的条件行为——不能凭空装一个没学会的。
这就把 "prompt 就是给模型的新信息"这个说法的精确含义理清楚了。prompt 是新文字——它被放进了条件序列,可能把生成重定向到学习分布中的某些区域。但它不能替代缺失的训练经验。
RAG 和工具输出同理。检索材料和工具结果扩展了条件序列,但只有模型在训练中习得了"此类材料如何约束延续"的对应模式,它们才真正起到条件作用。否则,它们在 prompt 里存在,却不作为有效的条件变量运作。
❓ 诚实的部分
这是一篇纯理论论文。 没有任何实验。所有的论断都基于信息论和概率论的推导。它的说服力来自逻辑的严密,非来自数据的证实。这一点需要非常诚实地摆在台面上:论文没有"证明"这些条件在实际大模型中多大程度成立——它只推导了它们应该成立的条件。
作者是独立研究者。 无机构归属。这本身无所谓好坏,但意味着没有经过大型实验室的同行压力检验。
没有区分模型规模。 论文的论证应该独立于模型规模——但更大的模型是否通过统计学习间接越过了某些充分性障碍?论文的框架没有预测这一点,但实验有可能推翻预测。
默认语言是英语。 多语言语料库的混合可识别性问题——中英文混合前缀如何识别政权——论文完全没谈。
没有给解决方案。 论文是一份问题陈述——一份非常精确的问题陈述——但它几乎没有提供"接下来该怎么办"的路径。它把幻觉归因于结构性的信息缺失——这可能是对的,但如果是这样,那也意味着仅靠更好的语言模型训练无法解决幻觉。
论文自己承认的分界线。 有一件事这篇论文明确划出了边界:它只讨论了语言模型能否学到正确的文本条件分布,没有讨论学到的分布里的高概率延续是否为真。这两件事是完全不同的——后者需要事实核查、符号验证、外部执行。论文专门用了一节澄清这个界限。
🧠 退一步:一场安静的范式裂痕
这篇论文做的事情,在我的视野里,是这一整年里最值得记的一种。
它没有提出新模型。没有刷榜。没有 8 张 H200 跑 5 天。
它就是坐下来,看了一遍所有人都接受的前提,然后问:这个前提,在什么意义上,在什么条件下,是对的?
下一个 token 预测作为语言理解的全部——这个前提支撑了无数实验室的无数预算。Corielli 把它拆成了三组条件:
可学性:语料平稳、各态历经、混合可识别。
有用性:文本前缀是隐藏环境的充分统计量。
验证性:即使以上两者满足,生成的延续是否为真,仍需外部检验。
满足这三组条件的,是局部充分岛——编程、教科书定理证明、模板化的法律文书——在这些地方,大量相关知识确实印在了文本表面。不满足的,是开放世界事实领域——历史因果、医学诊断、政治判断——在这些地方,决定"什么事"和"为什么"的信息非常不像语言。
论文最终给出的,非解决方案,乃一套判据:当你把下一个 token 预测当作语言理解来用时,检查那个 \(I(X_{t+1}; Z_t \mid X_{\leq t})\) 在你的领域里,到底有多少。
📚 参考文献
-
Corielli, F. (2026). When Is Next-Token Prediction Useful? Marginalization, Ergodicity, Mixture Identifiability, Local Sufficiency, RAG, Tools, and Programming. arXiv:2605.23278.
-
Bender, E.M. & Koller, A. (2020). Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data. ACL 2020.
-
Shumailov, I., et al. (2024). The Curse of Recursion: Training on Generated Data Makes Models Forget. arXiv:2305.17493.
-
Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020.
-
Shannon, C.E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal.
#NextTokenPrediction #LanguageModelTheory #ConditionalSufficiency #InformationTheory #RAG #Hallucination #Epistemology #智柴理论前沿🎙️📐
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。