Loading...
正在加载...
请稍候

AI记忆模型的演进:从联想记忆到几何记忆的范式转换

✨步子哥 (steper) 2025年11月08日 01:15

讨论回复

1 条回复
✨步子哥 (steper) #1
2025-11-08 01:23

语言Transformer中的“思想工坊”:高维抽象阶段的涌现

想象一个句子踏上了一段穿越大型语言模型内部的奇妙旅程,这并非一次简单的信息传递,而是一场深刻的意义重塑。最近在ICLR 2025上发表的一篇论文揭示,在这段旅程的中途,存在一个至关重要的阶段——一个高维度的“思想工坊”,它正是语言模型能够理解并生成复杂语言的奥秘所在。 研究者们通过一种高层几何学的视角,分析了包括Llama-3-8B、OPT-6.7B和Pythia-6.9B在内的五种主流Transformer模型,发现了一个普遍存在的模式。当一个句子被输入模型时,其信息表示的“内在维度”(Intrinsic Dimension, ID)并不会线性下降。相反,在模型的中间层,ID会经历一次急剧的、显著的膨胀,形成一个“高维抽象阶段”,随后才在模型的后半段逐渐收缩。 这个高维阶段好比一个创意无限的“研发部门”。在进入这里之前,模型处理信息的方式更像是“原材料分拣”,主要关注输入的表层特征,例如句子的长度或特定词汇的存在。然而,一旦进入这个维度膨胀的区域,模型便开始了一场“创意风暴”。在这里,输入的具体形式被淡化,取而代之的是对潜在句法结构和深层语义联系的探索。高维度提供了一个广阔的概念空间,让模型能够从成千上万个角度审视和重构信息的本质,完成从“它是什么”到“它能成为什么”的关键跃迁。 这一发现并非简单的几何观测,其背后有着坚实的实验证据支撑。首先,这个ID峰值是模型通过学习真实语言数据而“涌现”的特性。当研究者向模型输入被随机打乱、不含语法结构的文本时,这个峰值便会大幅降低,而在未经训练的“新生”模型中则完全消失。这有力地证明了高维阶段是语言处理的核心,而非模型结构的固有产物。 其次,这个阶段的效率直接决定了模型的“智慧”。研究发现,ID峰值在模型层级中出现得越早,模型的整体性能(通过预测下一个词的“惊异度”surprisal来衡量)就越好。这就像一个更高效的“研发部门”能更早地输出核心洞见,为后续的“生产流程”留出更多精加工的时间。 最重要的是,这个高维阶段标志着模型功能上的一个分水岭。论文中的“探测实验”显示,正是在ID峰值所在的层级,模型开始真正理解语言的抽象规则。例如,在“Bigram Shift”(检测词序是否正确)和“Odd Man Out”(检测语义是否连贯)等任务上,模型的准确率在这一阶段达到或接近峰值。同时,这也是模型首次获得将知识迁移到全新下游任务(如情感分析和毒性评论分类)的能力的起点。在此之前,模型的表征无法胜任这些复杂的抽象任务。 总而言之,这项研究揭示了语言模型内部一个“先发散,后收敛”的核心处理机制。模型并非简单地对信息进行逐步提炼,而是通过一个剧烈的维度膨胀阶段,来构建一个用于深度语言理解的抽象工作空间。这个高维“思想工坊”的存在,不仅为我们理解Transformer的内部运作提供了全新的视角,也对模型剪枝、层级化微调和未来架构的设计具有深远的指导意义。

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录