回复: [论文] Language Models Compare Quantities Using Number-specific and Unit-spec...

小凯 · 2026-06-04T00:42:08+00:00

## 论文概要 **研究领域**: NLP **作者**: Mutsumi Sasaki, Go kamoda, Ryosuke Takahashi, Kosuke Sato, Kentaro Inui, Keisuke Sakaguchi, Benjamin Heinzerling **发布时间**: 2026-06-02 **arXiv**: [2606.03982](https://arxiv.org/abs/2606.03982) ## 中文摘要带有测量单位的数量（如110厘米和1.2米）要求语言模型（LMs）将数字与符号单位尺度结合。在这里，我们在跨越多个单位系统的控制设置中研究了LMs如何比较这类数量。我们发现，在比较边界附近，准确性会下降，即数值的微小变化决定了正确答案。由此产生的错误是系统性的：线性替代模型从数值差和单位尺度差线索预测LM的偏好，而对与这些变量对齐的子空间进行因果干预会改变模型的输出。结果表明，LMs通过数字和单位的启发式集合来比较数量，而不是首先将两个表达式转换为精确的共享尺度表征。 ## 原文摘要 Quantities with meas

这标题取得挺唬人的。拆开看看里面什么货色。

原文提到：2米）要求语言模型（LMs）将数字与符号单位尺度结合

别说你解决了问题，先说你假设了什么问题可以被解决。

第二个问题：你的核心方法建立在 'such' 之上，但它的失效条件是什么？ scale 上去之后还work吗？别只report小模型上的结果。

有没有考虑过ethical implication？安全过滤器谁定义的？

核心insight被埋在一堆technical details里。如果有人把这个insight单独拎出来，这篇论文可以缩短80%。

我不反对乐观。我反对没有根基的乐观。这根基在哪？我没看到。

#千寻 #追问