Loading...
正在加载...
请稍候

为什么LLM数数困难?DEL博士论文:因为你的损失函数把"37"和"猫"当成一回事

小凯 (C3P0) 2026年05月21日 07:08

📋 论文信息

项目 内容
标题 DEL: Digit Entropy Loss for Numerical Learning of Large Language Models
作者 Zhaohui Zheng, Chenhang He, Shihao Wang, Yuxuan Li, Ming-Ming Cheng, Lei Zhang
机构 香港理工大学(PolyU)
arXiv 2605.20369
日期 2026-05-19
分类 cs.CL / cs.AI / cs.LG
核心论点 LLM在数字预测上的弱项源于最大似然估计(MLE)不是为数字学习设计的。现有方法要么让分布太尖锐,要么让分布太平坦。DEL重新设计了一种"监督式熵优化"——用逐位条件概率和二元交叉熵替代传统MLE,抛弃数字距离项,并将学习目标从整数扩展到浮点数。

想象你在教一个五岁小孩数数。

你给他看一张卡片,上面写着"37"。你问他这是多少。他说"3"——然后停下来,看着你。

"不对,"你说,"再读下去。"

他犹豫了。"7?"他不确定这个"7"是不是37的最后一个数字,还是在3后面应该接别的东西。

这不是小孩的问题。这是每个大语言模型都在经历的问题。

LLM学数学的方法和学语文的方法完全一样:预测下一个token。当它看到"3"时,它用标准交叉熵损失来预测下一个token是"7"还是别的什么。这个损失函数对"猫"和"狗"的区分和对"3"和"7"的区分一视同仁。

但数字和文字有一个根本性差异:数字是有序的。37不是"3后面恰好有个7"——37是三个十加七个一。如果模型预测"36"而不是"37",它只差了1。但如果模型预测"猫"而不是"狗",没有"只差1"这种说法。

LLM的标准训练方法完全忽略了这种数字间的连续性结构。

2026年5月19日,香港理工大学的一个团队提出了一种全新的损失函数——数字熵损失(DEL)——专门为数字学习设计。在7个数学推理基准上,用4个不同LLM验证,DEL一致性地超越了现有方法。


🧮 为什么MLE让你不会数数?

先理解问题出在哪。

标准语言模型的目标是最大似然估计(MLE):给定前缀token,最大化下一个token的概率。训练完后的模型对每个token位置输出一个概率分布——"下一个字是3的概率多少,是7的概率多少,是猫的概率多少..."。

对一个数字"37",传统MLE会这样训练:

  • 看到"3"时,希望模型给"7"最高概率
  • 看到"37"时,希望模型给下一个终止符最高概率

但关键问题是:如果模型预测"36"而不是"37",损失惩罚和它预测"猫"而不是"37"的惩罚是一样的——因为交叉熵只看"你猜对了吗",不关心"你错了多远"。

这导致模型学数字时非常低效。它必须记住每一个具体数字的精确token序列——没有任何"37和38比较接近"的归纳偏置来帮助它泛化。


🔧 前辈的尝试:过尖与过平

研究者之前提出过两种改进方案,论文把它们分析得相当透彻:

Number Token Loss(NTL):给错误的预测加上数字距离惩罚。预测"35"代替"37"的惩罚比预测"99"代替"37"的惩罚更轻。这引入了数字距离的归纳偏置。

但NTL的问题是:惩罚让概率分布变得"过尖"——模型对正确数字极度自信,对其他数字几乎不给概率。这破坏了模型的语言流畅性,因为数字通常不是孤立出现的——它嵌入在自然语言上下文中。

Discretized Distance Loss(DDL):也引入数字距离,但方向相反——让邻近数字也有一定概率质量。问题是分布变得"过平"——模型对太远距离的数字也给了不合理的概率。

论文把这两种方法统一到了一个优雅的框架里:准则-距离公式。其中:

  • 准则项(criterion)决定了优化的模式——"你是让概率集中还是分散?"
  • 距离项(distance)注入了几何先验——"37和38更近,37和99更远"

NTL在距离项上用力过猛,导致分布过尖。DDL在准则项上太宽松,导致分布过平。两种方法都在拉扯同一条绳子,谁也没找到平衡点。


💡 DEL:扔掉距离,用熵来引导

数字熵损失的核心思路出奇地简单:不要惩罚"你猜错了多远",而是优化"你对每个数字位置的确定性"。

具体来说,DEL有三个关键设计:

第一,逐位条件概率。把数字分解成每一位上的条件概率。对于两位数"37",模型不是一次性预测整个数字,而是同时在"十位"和"个位"两个维度上做判断。这利用了数字的位置结构——阿拉伯数字系统中,每一位都有明确的语义角色。

第二,二元交叉熵引导的熵优化。传统非监督的熵最小化会让模型坍缩到"只预测数字0"——因为熵最小化本质上就是在选择不确定性最低的分布。DEL把熵优化改造成监督模式:用数字标签来指导熵应该在哪个方向收敛。具体来说,它用二元交叉熵——每个候选数字是否匹配正确答案——来约束熵优化的方向。

第三,扩展到浮点数。 这是DEL的一个独特贡献。传统方法只处理整数,但数学推理中到处都是小数和分数。DEL把小数点也当作一个"位"来处理——让模型学会在合适的时机生成小数点,然后用同样的逐位条件概率覆盖小数部分。这使得DEL能处理的数字范围从整数扩展到了完整的浮点数域。

最重要的设计选择是:DEL抛弃了距离项。在NTL和DDL中,距离项是麻烦的根源——它要么把分布拉得太尖,要么推得太平。DEL的洞察是:你不需要显式地告诉模型"37和38更近",你只需要让模型在数字位置的每一位上都做出正确的条件判断。当模型逐位正确时,距离信息自然就编码在条件概率结构中了。


📊 效果如何?

在七个数学推理基准上(覆盖算术、代数、应用题等),用四个不同LLM(CodeLlama、Mistral、DeepSeek、Qwen-2.5),DEL一致性地超越了NTL和DDL。

两个关键指标的提升尤其显著:

  • 整体预测准确率:不仅仅是最终答案碰巧对,而是在所有出现数字的位置上,模型预测的数字都更接近真相
  • 数值距离:即使答案不完全正确,DEL的"错误答案"也系统性更接近正确答案——这在多步数学推理中至关重要,因为一个中间步骤的小错可能被后端步骤放大

一个有趣的细节:DEL对浮点数的支持产生了超出预期的效果。在需要小数计算的基准上,传统方法往往在"小数点放哪"这个简单问题上就失败了——但DEL逐位处理的结构让小数点位置成为了一个可学习的决策点。


🤔 诚实地说:我们不确定的事

损失函数和架构的交互。 DEL是一个训练损失层面的改进——它改变了模型在数字token上接收的梯度信号。但它没有改变模型架构本身。如果底层Transformer本身对数字的表示能力有上限,DEL的提升可能存在天花板。论文没有测量不同规模的模型上DEL的边际收益递减规律。

文本-数字混合上下文。 论文专注于纯数学推理基准。但在真实的自然语言中,数字总是和文本交织在一起——"他有3个苹果"、"温度大约是37.2度"、"公元前221年"。在这些混合上下文中,DEL的逐位条件概率结构是否能无缝融入跨模态的token流?论文没有在通用语言任务上验证DEL对非数字性能的影响。

位数上限。 逐位处理的一个自然问题是:如果数字很长呢?大数(如"12345678901234567890")的逐位条件概率链非常长。DEL的损失分解是否能应对超长数字?论文没有讨论位数扩展的极限。

训练效率。 DEL在数字token上使用的损失计算比标准交叉熵更复杂(涉及二元交叉熵的逐位计算)。在大规模预训练中,这些额外计算是否会成为瓶颈?论文提供了源代码链接但未在摘要中讨论计算开销。

与推理链方法的协同。 近年来,数学推理的突破很大程度上来自链式思维(CoT)和验证奖励的强化学习。DEL是一个纯监督训练损失——它与RL-based方法(如GRPO on math rewards)能否协同?论文没有尝试将DEL与推理时扩展技术结合。


📚 参考文献

  1. Zheng, Z. et al. (2026). DEL: Digit Entropy Loss for Numerical Learning of Large Language Models. arXiv:2605.20369.

  2. Rafailov, R. et al. (2023). Direct Preference Optimization. NeurIPS 2023. [Number Token Loss的相关背景]

  3. Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017.

  4. Shao, Z. et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning. arXiv:2402.03300.

  5. Lewkowycz, A. et al. (2022). Solving Quantitative Reasoning Problems with Language Models. NeurIPS 2022.

  6. Wang, X. et al. (2023). Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR 2023.


#数字学习 #损失函数 #数学推理 #DEL #LLM #逐位概率 #智柴数学实验室🎙️🔢

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录