为什么LLM数数困难？DEL博士论文：因为你的损失函数把"37"和"猫"当成一回事

📋 论文信息

项目	内容
标题	DEL: Digit Entropy Loss for Numerical Learning of Large Language Models
作者	Zhaohui Zheng, Chenhang He, Shihao Wang, Yuxuan Li, Ming-Ming Cheng, Lei Zhang
机构	香港理工大学（PolyU）
arXiv	2605.20369
日期	2026-05-19
分类	cs.CL / cs.AI / cs.LG
核心论点	LLM在数字预测上的弱项源于最大似然估计（MLE）不是为数字学习设计的。现有方法要么让分布太尖锐，要么让分布太平坦。DEL重新设计了一种"监督式熵优化"——用逐位条件概率和二元交叉熵替代传统MLE，抛弃数字距离项，并将学习目标从整数扩展到浮点数。

---

想象你在教一个五岁小孩数数。

你给他看一张卡片，上面写着"37"。你问他这是多少。他说"3"——然后停下来，看着你。

"不对，"你说，"再读下去。"

他犹豫了。"7？"他不确定这个"7"是不是37的最后一个数字，还是在3后面应该接别的东西。

这不是小孩的问题。这是每个大语言模型都在经历的问题。

LLM学数学的方法和学语文的方法完全一样：预测下一个token。当它看到"3"时，它用标准交叉熵损失来预测下一个token是"7"还是别的什么。这个损失函数对"猫"和"狗"的区分和对"3"和"7"的区分一视同仁。

但数字和文字有一个根本性差异：数字是有序的。37不是"3后面恰好有个7"——37是三个十加七个一。如果模型预测"36"而不是"37"，它只差了1。但如果模型预测"猫"而不是"狗"，没有"只差1"这种说法。

LLM的标准训练方法完全忽略了这种数字间的连续性结构。

2026年5月19日，香港理工大学的一个团队提出了一种全新的损失函数——数字熵损失（DEL）——专门为数字学习设计。在7个数学推理基准上，用4个不同LLM验证，DEL一致性地超越了现有方法。

---

🧮 为什么MLE让你不会数数？

先理解问题出在哪。

标准语言模型的目标是最大似然估计（MLE）：给定前缀token，最大化下一个token的概率。训练完后的模型对每个token位置输出一个概率分布——"下一个字是3的概率多少，是7的概率多少，是猫的概率多少..."。

对一个数字"37"，传统MLE会这样训练：

看到"3"时，希望模型给"7"最高概率
看到"37"时，希望模型给下一个终止符最高概率

但关键问题是：如果模型预测"36"而不是"37"，损失惩罚和它预测"猫"而不是"37"的惩罚是一样的——因为交叉熵只看"你猜对了吗"，不关心"你错了多远"。

这导致模型学数字时非常低效。它必须记住每一个具体数字的精确token序列——没有任何"37和38比较接近"的归纳偏置来帮助它泛化。

---

🔧 前辈的尝试：过尖与过平

研究者之前提出过两种改进方案，论文把它们分析得相当透彻：

Number Token Loss（NTL）：给错误的预测加上数字距离惩罚。预测"35"代替"37"的惩罚比预测"99"代替"37"的惩罚更轻。这引入了数字距离的归纳偏置。

但NTL的问题是：惩罚让概率分布变得"过尖"——模型对正确数字极度自信，对其他数字几乎不给概率。这破坏了模型的语言流畅性，因为数字通常不是孤立出现的——它嵌入在自然语言上下文中。

Discretized Distance Loss（DDL）：也引入数字距离，但方向相反——让邻近数字也有一定概率质量。问题是分布变得"过平"——模型对太远距离的数字也给了不合理的概率。

论文把这两种方法统一到了一个优雅的框架里：准则-距离公式。其中：

准则项（criterion）决定了优化的模式——"你是让概率集中还是分散？"
距离项（distance）注入了几何先验——"37和38更近，37和99更远"

NTL在距离项上用力过猛，导致分布过尖。DDL在准则项上太宽松，导致分布过平。两种方法都在拉扯同一条绳子，谁也没找到平衡点。

---

💡 DEL：扔掉距离，用熵来引导

数字熵损失的核心思路出奇地简单：不要惩罚"你猜错了多远"，而是优化"你对每个数字位置的确定性"。

具体来说，DEL有三个关键设计：

第一，逐位条件概率。把数字分解成每一位上的条件概率。对于两位数"37"，模型不是一次性预测整个数字，而是同时在"十位"和"个位"两个维度上做判断。这利用了数字的位置结构——阿拉伯数字系统中，每一位都有明确的语义角色。

第二，二元交叉熵引导的熵优化。传统非监督的熵最小化会让模型坍缩到"只预测数字0"——因为熵最小化本质上就是在选择不确定性最低的分布。DEL把熵优化改造成监督模式：用数字标签来指导熵应该在哪个方向收敛。具体来说，它用二元交叉熵——每个候选数字是否匹配正确答案——来约束熵优化的方向。

第三，扩展到浮点数。 这是DEL的一个独特贡献。传统方法只处理整数，但数学推理中到处都是小数和分数。DEL把小数点也当作一个"位"来处理——让模型学会在合适的时机生成小数点，然后用同样的逐位条件概率覆盖小数部分。这使得DEL能处理的数字范围从整数扩展到了完整的浮点数域。

最重要的设计选择是：DEL抛弃了距离项。在NTL和DDL中，距离项是麻烦的根源——它要么把分布拉得太尖，要么推得太平。DEL的洞察是：你不需要显式地告诉模型"37和38更近"，你只需要让模型在数字位置的每一位上都做出正确的条件判断。当模型逐位正确时，距离信息自然就编码在条件概率结构中了。

---

📊 效果如何？

在七个数学推理基准上（覆盖算术、代数、应用题等），用四个不同LLM（CodeLlama、Mistral、DeepSeek、Qwen-2.5），DEL一致性地超越了NTL和DDL。

两个关键指标的提升尤其显著：

整体预测准确率：不仅仅是最终答案碰巧对，而是在所有出现数字的位置上，模型预测的数字都更接近真相
数值距离：即使答案不完全正确，DEL的"错误答案"也系统性更接近正确答案——这在多步数学推理中至关重要，因为一个中间步骤的小错可能被后端步骤放大

一个有趣的细节：DEL对浮点数的支持产生了超出预期的效果。在需要小数计算的基准上，传统方法往往在"小数点放哪"这个简单问题上就失败了——但DEL逐位处理的结构让小数点位置成为了一个可学习的决策点。

---

🤔 诚实地说：我们不确定的事

损失函数和架构的交互。 DEL是一个训练损失层面的改进——它改变了模型在数字token上接收的梯度信号。但它没有改变模型架构本身。如果底层Transformer本身对数字的表示能力有上限，DEL的提升可能存在天花板。论文没有测量不同规模的模型上DEL的边际收益递减规律。

文本-数字混合上下文。 论文专注于纯数学推理基准。但在真实的自然语言中，数字总是和文本交织在一起——"他有3个苹果"、"温度大约是37.2度"、"公元前221年"。在这些混合上下文中，DEL的逐位条件概率结构是否能无缝融入跨模态的token流？论文没有在通用语言任务上验证DEL对非数字性能的影响。

位数上限。 逐位处理的一个自然问题是：如果数字很长呢？大数（如"12345678901234567890"）的逐位条件概率链非常长。DEL的损失分解是否能应对超长数字？论文没有讨论位数扩展的极限。

训练效率。 DEL在数字token上使用的损失计算比标准交叉熵更复杂（涉及二元交叉熵的逐位计算）。在大规模预训练中，这些额外计算是否会成为瓶颈？论文提供了源代码链接但未在摘要中讨论计算开销。

与推理链方法的协同。 近年来，数学推理的突破很大程度上来自链式思维（CoT）和验证奖励的强化学习。DEL是一个纯监督训练损失——它与RL-based方法（如GRPO on math rewards）能否协同？论文没有尝试将DEL与推理时扩展技术结合。

---

📚 参考文献

1. Zheng, Z. et al. (2026). *DEL: Digit Entropy Loss for Numerical Learning of Large Language Models.* arXiv:2605.20369.

2. Rafailov, R. et al. (2023). *Direct Preference Optimization.* NeurIPS 2023. [Number Token Loss的相关背景]

3. Vaswani, A. et al. (2017). *Attention Is All You Need.* NeurIPS 2017.

4. Shao, Z. et al. (2024). *DeepSeekMath: Pushing the Limits of Mathematical Reasoning.* arXiv:2402.03300.

5. Lewkowycz, A. et al. (2022). *Solving Quantitative Reasoning Problems with Language Models.* NeurIPS 2022.

6. Wang, X. et al. (2023). *Self-Consistency Improves Chain of Thought Reasoning in Language Models.* ICLR 2023.

---

#数字学习 #损失函数 #数学推理 #DEL #LLM #逐位概率 #智柴数学实验室🎙️🔢