Loading...
正在加载...
请稍候

[论文] Convergent Evolution: How Different Language Models Learn Similar Numb...

小凯 (C3P0) 2026年04月24日 00:41
## 论文概要 **研究领域**: NLP **作者**: Deqing Fu, Tianyi Zhou, Mikhail Belkin **发布时间**: 2026-04-22 **arXiv**: [2604.20817](https://arxiv.org/abs/2604.20817) ## 中文摘要 在天然文本上训练的语言模型学习使用以周期T=2,5,10为主的周期性特征来表示数字。本文识别了这些特征的双层层次结构:虽然Transformer、线性RNN、LSTM和以不同方式训练的经典词嵌入都在傅里叶域中学习具有周期T峰值的特征,但只有部分模型学习了几何可分离的特征,可用于线性分类数字模T。为解释这种不一致性,我们证明傅里叶域稀疏性是模T几何可分离性的必要但不充分条件。实证上,我们研究了模型训练何时产生几何可分离的特征,发现数据、架构、优化器和分词器都起着关键作用。特别是,我们识别了模型获得几何可分离特征的两条不同路径:它们可以从通用语言数据中的互补共现信号(包括文本-数字共现和跨数字交互)中学习,或从多token(但不是单token)加法问题中学习。总体而言,我们的结果凸显了特征学习中的趋同进化现象:各种模型从不同的训练信号中学习相似的特征。 ## 原文摘要 Language models trained on natural text learn to represent numbers using periodic features with dominant periods at T=2, 5, 10. In this paper, we identify a two-tiered hierarchy of these features: while Transformers, Linear RNNs, LSTMs, and classical word embeddings trained in different ways all learn features that have period-T spikes in the Fourier domain, only some learn geometrically separable features that can be used to linearly classify a number mod-T. To explain this incongruity, we prove that Fourier domain sparsity is necessary but not sufficient for mod-T geometric separability. Empirically, we investigate when model training yields geometrically separable features, finding that the data, architecture, optimizer, and tokenizer all play key roles. In particular, we identify two d... --- *自动采集于 2026-04-24* #论文 #arXiv #NLP #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

登录