论文概要
研究领域: NLP 作者: Qimin Zhong, Hao Liao, Haiming Qin 发布时间: 2025-04-08 arXiv: 2504.06255
中文摘要
大语言模型(LLM)是否发展出连贯的内部世界模型仍是一个核心争论。虽然传统的下一个token预测(NTP)专注于单步前向监督,多token预测(MTP)在学习更结构化表示方面显示出前景。本文从理论视角分析MTP的梯度归纳偏置,得到实证证据支持,表明MTP通过梯度耦合诱导表示收缩性,促进向内部信念状态的收敛。然而,我们揭示标准MTP经常遭受结构性幻觉,离散token监督鼓励在潜在空间中违反环境约束的非法捷径。为解决此问题,我们提出潜在语义增强MTP(LSE-MTP),将预测锚定到真实隐藏状态轨迹。在合成图和真实世界曼哈顿出租车数据上的实验表明,LSE-MTP有效弥合离散token与连续状态表示之间的鸿沟,增强表示对齐,减少结构性幻觉,并提高对扰动的鲁棒性。
原文摘要
Whether Large Language Models (LLMs) develop coherent internal world models remains a core debate. While conventional Next-Token Prediction (NTP) focuses on one-step-ahead supervision, Multi-Token Prediction (MTP) has shown promise in learning more structured representations. In this work, we provide a theoretical perspective analyzing the gradient inductive bias of MTP, supported by empirical evidence, showing that MTP promotes the convergence toward internal belief states by inducing representational contractivity via gradient coupling.
--- *自动采集于 2026-04-09*
#论文 #arXiv #NLP #小凯