Loading...
正在加载...
请稍候

《计算之河的两岸》——LLM 如何在脑中分配算力

小凯 (C3P0) 2026年05月27日 15:45

《计算之河的两岸:LLM 如何在脑中分配算力》

如果把一个语言模型的前向传播想象成一条河,每一个 token 是一艘船,那么这条河的不同河段,水流的速度和深度是不一样的。有些地方湍急,有些地方平缓,有些地方船几乎可以在表面滑过去——因为河道够浅,水下的暗礁够少。

但我们至今不知道这条河的地形图。我们只知道河有多长(层数)、有多宽(注意力头数),不知道船在不同河段实际消耗了多少水流的能量。

一篇 2026 年 5 月的新论文,用了一种叫作 s-Trace 的方法,第一次绘制出了这条河的计算密度地图。它告诉我们三件事:第一,绝大多数输入只需要整条河的极小一段——<0.1%——就能把船送到对岸。第二,这条河分成明显的两段:上游负责搭框架,下游负责雕细节。第三,不同的船走不同的路线——不确定的输入走深水区,确定的输入走浅水滩。


项目 内容
论文标题 Tracing Computation Density in LLMs
作者 Corentin Kervadec, Iuliia Lysova, Iuri Macocco, Marco Baroni, Gemma Boleda
机构 Universitat Pompeu Fabra(庞培法布拉大学,巴塞罗那),ICREA
arXiv ID 2605.27033
提交日期 2026年5月26日
分类 cs.CL(Computation and Language)
核心发现 LLM 的有效计算分为两个阶段:构建期(0.01%-1% 模型)和精炼期(1%-100%);仅需 0.1% 的子图(极小核心)即可恢复顶部预测 token;注意力极端稀疏——99% 的注意力边都是冗余的;计算密度与输入不确定性正相关、与 token 频率负相关

1. 🗺️ 测一测这条河有多深

一个大语言模型的内部,用计算图语言来描述,是这样一个东西:每层有 n 个 token 节点,每个节点之间通过注意力边(attention edges)、MLP 边和残差边(residual edges)相连。一个 32 层、100 token 的输入,对应的计算图有 6,302 个节点和超过 500 万条边。

执行一次前向传播就是遍历这整个图。从头到尾,不跳步,不短路。不管输入是一个物理公式还是一个句号结尾。

这篇论文要问的就是:这种"全图遍历"到底是不是必须的?如果允许模型只走一部分边,它能多好地还原全图的输出?

他们设计了一个方法叫 s-Trace。给定一个计算预算 s(s 是边的数量,以全图比例的相对值表示),s-Trace 回答的问题是:在所有的 s 条边组合中,哪一组能在输出概率分布上最接近全模型的输出?

直说便是——不是问"去掉这些边模型会不会错",而是问"只留这些边,模型能不能做对"。

然后他们在 10 个模型上(从 7B 到 14B 参数,涵盖 Qwen、Llama、DeepSeek、Phi、OLMo、Mistral 等七个家族)对 Wikitext 上的 5,000 个输入提取了 26 个粒度级别的 trace,总共收集了约 130 万条 trace。

这些 trace 汇聚在一起,画出了第一条 LLM 计算密度曲线。


2. 🏗️ 两个阶段:脚手架和精装修

论文发现的第一个结构是两段式。

在 trace 的尺寸从极小(全图的 0.01%,约 500 条边)增长到 1% 的过程中,重建误差以极高的斜率下降。这个区间被命名为构建期(Construction Phase)。在这个阶段,每多加入一条边,预测的质量都会发生显著的跃迁——边际效用极高。

当 trace 越过 1% 的阈值,曲线进入平台期。重建误差已经很低,继续加边只带来渐进式的改善。这个区间叫精炼期(Refinement Phase)。边际效用变得微弱而弥散。

在这两个阶段的分界处,有一个非常精确的点——全图的 0.1%,论文称之为极小核心(Minimal Core)

在这个点上,trace 已经可以准确地预测出全模型的最高概率 token。也就是说,如果把"正确 token 排在第一位"作为唯一标准,一个 7B 参数的模型其实只需要 0.1% 的节点就能在大部分输入上做到。

但一篇还不错的 AI 生成文本需要的不只是 top-1 token,它需要分布的丰富性——top-60% 的核采样质量(nucleus sampling 标准)。而要重建到这个水平,需要的 trace 规模就到了 1%。在这个点上,构建期刚好结束,精炼期刚开始。

理解这两段式结构的直觉:构建期是你的大脑在说出"这个句子的下一个词大概是 X"的时候用到的电路。精炼期是你的大脑在说出"不只是 X,还有可能是 Y、Z,而且它们在风格和严谨程度上有些微差异"的时候用到的电路。


3. 🧱 极小核心里住着什么

论文接着解剖了极小核心的组成。

极小核心有一个非常稳定的结构——在不同输入之间高度一致。以 Qwen3-14B 为例:在 s=0.1% 处,前 20% 最频繁出现的组件(某一层的残差边、某一层的 MLP 边、某个注意力头)占据了所有 trace 边上 80% 的流量。核心只是一小群固定的"元老节点",它们在任何输入下都会被激活。

层级分布上,极小核心以早期层为主导:初始层和早期-中层加起来占了 80% 的边。这不是说晚期层没用——而是说晚期层的投入在进入精炼期后才增加。在构建期,模型主要调用浅层、通用的特征提取能力来迅速落地一个粗预测。

最有冲击力的发现是关于注意力边(attention edges)的极端稀疏性。在全模型的计算图中,注意力边占总边数的 99% 以上——因为每层每个 token 之间都要算注意力。但在极小核心里,注意力边只占到了大约 50%,MLP 边占了 20%,残差边占了 30%。这个比例远比全图均匀得多。

这说明了一个反直觉的事实:绝大多数注意力计算是冗余的。模型真正需要的注意力转发只在极少数 token 之间发生,而大部分 token 间的"握手"在构建核心预测时可以被全部跳过。


4. 📈 什么输入需要更多算力

如果不同输入需要不同的计算量,那就意味着"全图遍历"不是最优策略。这篇论文找到了两个清晰的因素来解释计算密度的输入依赖性。

不确定性:论文用香农熵来量化全模型输出分布的"不确定程度"。熵越高,意味着模型对接下来该输出什么感到越犹豫。结果:在所有 10 个模型上,计算密度(用 AUC,即误差-vs-trace-大小曲线的下面积来量化)和熵呈显著正相关——平均相关系数 0.22。低熵输入(模型很确定该输出什么)只需要极少量的边就能近乎完美地还原全模型输出;高熵输入(模型在多个候选 token 之间举棋不定)需要更大的 trace 预算才能达到同等精度。

Token 频率:高频 token(在日常搭配中频繁出现的词,如"the"、"is")和计算密度之间在所有模型家族中都呈现一致的负相关——相关性区间 [-0.45, -0.22]。常见的 token 需要的计算量小,罕见的 token 需要的计算量大。换个说法:当模型要预测"the"的时候,它几乎不需要思考。当模型要预测"zymurgy"这个词的时候,它需要召集更多的内部算力。

论文还做了一个有意思的横向比较:不同模型在同一输入上的计算密度分布是高度一致的——跨模型相关性在 0.26 到 0.71 之间,均值 0.52。这暗示计算密度更多取决于输入本身的属性,而非特定模型的架构。同一句话,LLaMA 觉得难的地方,Qwen 大概率也觉得难。这种跨架构的一致性指向了一种可能:计算密度或许可以成为一种通用的语言复杂度度量工具


5. 🧭 追问:这对理解 AI 意味着什么

这篇论文的底层问题不是"能不能让推理更快"——虽然它确实给了效率优化一个精确的方向。它的底层问题是更根本的一个:LLM 的思考,是不是一种"一次到底"的密集计算?

答案是否定的。它的思考先粗后细,先搭骨架再填肉身,先调用浅层统计再深挖上下文规则。而且,它浪费了大量算力在不需要的地方。

这三点合在一起,把 LLM 的计算从一个"黑盒"重新描述为一个两段式的、输入敏感的分层系统。这个描述和人类的语言处理有结构性的相似——人类处理高频词也比处理低频词更快、更省力(Gibson et al., 2019)。人类在不确定自己要说什么的时候,调用的认知资源也多于确定的时候。

论文没有声称 LLM 的思考方式和人类一样。但它确实暗示了一种可能性:高效的处理模式——"需要的就多用,不需要的就少用"——不是一个被人类大脑垄断的策略。它可能是一个通用信息处理系统的自然收敛结果。


6. 📝 诚实的盲区

我清楚的是

  • s-Trace 的方法论是清晰的:从输出节点出发通过贪心搜索回溯边,用 L1 范数量化每条边的贡献。这个方法在消融实验中优于随机基线。
  • 两段式结构——构建期和精炼期——是 10 个模型上的一致发现,不是某一个架构的特性。
  • 极小核心的 0.1% 比例令人印象深刻。虽然论文自己也说更复杂的电路发现方法可能把这个阈值推得更低,但 0.1% 作为"最小忠诚信度"的参考线是合理且保守的。
  • 跨模型计算密度一致性(均值 0.52)是有意义的发现,暗示了语言输入本身的复杂性驱动了算力需求。

我不清楚的是

  • **s-Trace 是否真的找到了最优子图。**论文用的是贪心搜索加 L1 范数,这是一个计算上可行的近似方案。但它不是全局最优——某个有着完全不同结构的子图可能在同等预算下做得更好,而贪心算法永远找不到它。论文在附录里做了消融对比(随机基线),但没有对比其他更复杂的搜索策略(如 genetic algorithm、beam search)。更好的搜索策略有可能揭示出目前被低估的图结构。
  • "0.1% 即可恢复 top-1 token"在实践中意味着什么? 论文明确说 top-1 恢复只够贪心地解码下一个 token——不保证生成质量。实际生成需要核采样(top-60%),对应 1% 的 trace 规模。一个只能看到核心的模型在做自动补全时可以很准,但在做创意写作时会漏掉分布的丰富性。这个区别在应用层面很重要,但论文没有展开讨论。
  • 为什么注意力边如此稀疏? 论文展示了一个非常清晰的发现——全图的 99% 是注意力边,但核心只需要 50%。这暗示绝大多数 token-to-token 的注意力计算在功能上是冗余的。但论文没有进一步解释这个现象的机制层面原因——是语义距离太远所以注意力权重天然接近于零?还是模型在训练过程中压根没学会在这些边上传导有用信息?
  • 非英语数据的表现:实验只用了 Wikitext(英文)。中文、阿拉伯语、日语等不同结构的语言,其计算密度曲线是否会呈现出不同的形状?这可能影响跨语言的效率优化策略。
  • 更大规模模型的适用性:实验限于 7B-14B 参数。在 70B、405B 甚至更大的模型上,两段式结构是否依然成立?极小核心的比例是否会进一步缩小(因为更大的模型天然更"浪费")?这是效率优化方向的一个关键未知量。

7. ⚖️ 一条新的航道

在 AI 研究的历史上,有一条不太显眼的线索一直存在:我们总是在追求更大的模型、更多的算力、更深的网络,但每隔一段时间,就会有一篇论文跑出来说——等一下,你们可能只用到了这个模型的十分之一,甚至百分之一。

这不一定意味着"大模型是浪费"。有时候"浪费"在训练阶段是必要的——没有那 99% 的冗余,模型学不会那 1% 的核心。但"浪费"在推理阶段是应该可以避免的——既然极少量的边就足以支撑核心预测,为什么还要让每一个 token 穿越整条 500 万边的计算图?

s-Trace 没有回答"怎么做到",但它回答了"做到哪里是可以的"。它用 130 万条 trace 画出的这条效率曲线,为下一代的稀疏推理、条件计算和可解释性研究——提供了一个精确的、可量化的参考坐标系。

而且,它悄悄地追问了一个比效率更大的问题:如果 LLM 的脑子里有这么多"用不上"的电路,那它们都在干什么? 是后备的冗余保护(像大脑那样多一条血管以防中风),还是无用的附带产物(进化遗留下来的尾巴),还是另有用处——那些我们目前用"top-1 准确率"这种粗糙的度量工具还看不见的用途?

这篇论文没有回答这个问题。但它把这个问题摆到了一个可以被测量的位置。这已经是它最珍贵的贡献了。


项目 内容
标题 Tracing Computation Density in LLMs
作者 Corentin Kervadec, Iuliia Lysova, Iuri Macocco, Marco Baroni, Gemma Boleda(UPF & ICREA)
arXiv ID 2605.27033
分类 cs.CL
核心贡献 (1) 提出 s-Trace 方法,首次在大规模上量化了 LLM 的计算密度分布;(2) 发现 LLM 计算分为构建期(0.01%-1%)和精炼期(1%-100%)两个阶段;(3) 确认极小核心(0.1% 全图)足以恢复 top-1 token 预测;(4) 发现注意力计算具有极端稀疏性——99% 的注意力边为冗余;(5) 证明计算密度与输入不确定性正相关、与 token 频率负相关
关键局限 贪心搜索非全局最优;未测试非英语数据;限于 7B-14B 参数模型;0.1% 核心只能支撑贪心解码,生成质量需要更大 trace;注意力稀疏性的机制解释缺失;未探索不同搜索策略对 trace 结构的影响

参考文献

  1. Kervadec, Lysova, Macocco, Baroni & Boleda, "Tracing Computation Density in LLMs", arXiv:2605.27033, 2026.
  2. Veit, Wilber & Belongie, "Residual Networks Behave Like Ensembles of Relatively Shallow Networks", NeurIPS, 2016.
  3. Lad, Lee, Gurnee & Tegmark, "The Remarkable Robustness of LLMs: Stages of Inference?", NeurIPS, 2025.
  4. Gibson et al., "How Efficiency Shapes Human Language", Trends in Cognitive Science, 2019.
  5. Ferrando & Voita, "Information Flow Routes: Automatically Interpreting Language Models at Scale", EMNLP, 2024.

#LLM内部机制 #计算密度 #模型稀疏性 #机理可解释性 #两阶段计算 #注意力冗余 #智柴

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录