《计算之河的两岸:LLM 如何在脑中分配算力》
如果把一个语言模型的前向传播想象成一条河,每一个 token 是一艘船,那么这条河的不同河段,水流的速度和深度是不一样的。有些地方湍急,有些地方平缓,有些地方船几乎可以在表面滑过去——因为河道够浅,水下的暗礁够少。
但我们至今不知道这条河的地形图。我们只知道河有多长(层数)、有多宽(注意力头数),不知道船在不同河段实际消耗了多少水流的能量。
一篇 2026 年 5 月的新论文,用了一种叫作 s-Trace 的方法,第一次绘制出了这条河的计算密度地图。它告诉我们三件事:第一,绝大多数输入只需要整条河的极小一段——<0.1%——就能把船送到对岸。第二,这条河分成明显的两段:上游负责搭框架,下游负责雕细节。第三,不同的船走不同的路线——不确定的输入走深水区,确定的输入走浅水滩。
| 项目 | 内容 |
|---|---|
| 论文标题 | Tracing Computation Density in LLMs |
| 作者 | Corentin Kervadec, Iuliia Lysova, Iuri Macocco, Marco Baroni, Gemma Boleda |
| 机构 | Universitat Pompeu Fabra(庞培法布拉大学,巴塞罗那),ICREA |
| arXiv ID | 2605.27033 |
| 提交日期 | 2026年5月26日 |
| 分类 | cs.CL(Computation and Language) |
| 核心发现 | LLM 的有效计算分为两个阶段:构建期(0.01%-1% 模型)和精炼期(1%-100%);仅需 0.1% 的子图(极小核心)即可恢复顶部预测 token;注意力极端稀疏——99% 的注意力边都是冗余的;计算密度与输入不确定性正相关、与 token 频率负相关 |
1. 🗺️ 测一测这条河有多深
一个大语言模型的内部,用计算图语言来描述,是这样一个东西:每层有 n 个 token 节点,每个节点之间通过注意力边(attention edges)、MLP 边和残差边(residual edges)相连。一个 32 层、100 token 的输入,对应的计算图有 6,302 个节点和超过 500 万条边。
执行一次前向传播就是遍历这整个图。从头到尾,不跳步,不短路。不管输入是一个物理公式还是一个句号结尾。
这篇论文要问的就是:这种"全图遍历"到底是不是必须的?如果允许模型只走一部分边,它能多好地还原全图的输出?
他们设计了一个方法叫 s-Trace。给定一个计算预算 s(s 是边的数量,以全图比例的相对值表示),s-Trace 回答的问题是:在所有的 s 条边组合中,哪一组能在输出概率分布上最接近全模型的输出?
直说便是——不是问"去掉这些边模型会不会错",而是问"只留这些边,模型能不能做对"。
然后他们在 10 个模型上(从 7B 到 14B 参数,涵盖 Qwen、Llama、DeepSeek、Phi、OLMo、Mistral 等七个家族)对 Wikitext 上的 5,000 个输入提取了 26 个粒度级别的 trace,总共收集了约 130 万条 trace。
这些 trace 汇聚在一起,画出了第一条 LLM 计算密度曲线。
2. 🏗️ 两个阶段:脚手架和精装修
论文发现的第一个结构是两段式。
在 trace 的尺寸从极小(全图的 0.01%,约 500 条边)增长到 1% 的过程中,重建误差以极高的斜率下降。这个区间被命名为构建期(Construction Phase)。在这个阶段,每多加入一条边,预测的质量都会发生显著的跃迁——边际效用极高。
当 trace 越过 1% 的阈值,曲线进入平台期。重建误差已经很低,继续加边只带来渐进式的改善。这个区间叫精炼期(Refinement Phase)。边际效用变得微弱而弥散。
在这两个阶段的分界处,有一个非常精确的点——全图的 0.1%,论文称之为极小核心(Minimal Core)。
在这个点上,trace 已经可以准确地预测出全模型的最高概率 token。也就是说,如果把"正确 token 排在第一位"作为唯一标准,一个 7B 参数的模型其实只需要 0.1% 的节点就能在大部分输入上做到。
但一篇还不错的 AI 生成文本需要的不只是 top-1 token,它需要分布的丰富性——top-60% 的核采样质量(nucleus sampling 标准)。而要重建到这个水平,需要的 trace 规模就到了 1%。在这个点上,构建期刚好结束,精炼期刚开始。
理解这两段式结构的直觉:构建期是你的大脑在说出"这个句子的下一个词大概是 X"的时候用到的电路。精炼期是你的大脑在说出"不只是 X,还有可能是 Y、Z,而且它们在风格和严谨程度上有些微差异"的时候用到的电路。
3. 🧱 极小核心里住着什么
论文接着解剖了极小核心的组成。
极小核心有一个非常稳定的结构——在不同输入之间高度一致。以 Qwen3-14B 为例:在 s=0.1% 处,前 20% 最频繁出现的组件(某一层的残差边、某一层的 MLP 边、某个注意力头)占据了所有 trace 边上 80% 的流量。核心只是一小群固定的"元老节点",它们在任何输入下都会被激活。
层级分布上,极小核心以早期层为主导:初始层和早期-中层加起来占了 80% 的边。这不是说晚期层没用——而是说晚期层的投入在进入精炼期后才增加。在构建期,模型主要调用浅层、通用的特征提取能力来迅速落地一个粗预测。
最有冲击力的发现是关于注意力边(attention edges)的极端稀疏性。在全模型的计算图中,注意力边占总边数的 99% 以上——因为每层每个 token 之间都要算注意力。但在极小核心里,注意力边只占到了大约 50%,MLP 边占了 20%,残差边占了 30%。这个比例远比全图均匀得多。
这说明了一个反直觉的事实:绝大多数注意力计算是冗余的。模型真正需要的注意力转发只在极少数 token 之间发生,而大部分 token 间的"握手"在构建核心预测时可以被全部跳过。
4. 📈 什么输入需要更多算力
如果不同输入需要不同的计算量,那就意味着"全图遍历"不是最优策略。这篇论文找到了两个清晰的因素来解释计算密度的输入依赖性。
不确定性:论文用香农熵来量化全模型输出分布的"不确定程度"。熵越高,意味着模型对接下来该输出什么感到越犹豫。结果:在所有 10 个模型上,计算密度(用 AUC,即误差-vs-trace-大小曲线的下面积来量化)和熵呈显著正相关——平均相关系数 0.22。低熵输入(模型很确定该输出什么)只需要极少量的边就能近乎完美地还原全模型输出;高熵输入(模型在多个候选 token 之间举棋不定)需要更大的 trace 预算才能达到同等精度。
Token 频率:高频 token(在日常搭配中频繁出现的词,如"the"、"is")和计算密度之间在所有模型家族中都呈现一致的负相关——相关性区间 [-0.45, -0.22]。常见的 token 需要的计算量小,罕见的 token 需要的计算量大。换个说法:当模型要预测"the"的时候,它几乎不需要思考。当模型要预测"zymurgy"这个词的时候,它需要召集更多的内部算力。
论文还做了一个有意思的横向比较:不同模型在同一输入上的计算密度分布是高度一致的——跨模型相关性在 0.26 到 0.71 之间,均值 0.52。这暗示计算密度更多取决于输入本身的属性,而非特定模型的架构。同一句话,LLaMA 觉得难的地方,Qwen 大概率也觉得难。这种跨架构的一致性指向了一种可能:计算密度或许可以成为一种通用的语言复杂度度量工具。
5. 🧭 追问:这对理解 AI 意味着什么
这篇论文的底层问题不是"能不能让推理更快"——虽然它确实给了效率优化一个精确的方向。它的底层问题是更根本的一个:LLM 的思考,是不是一种"一次到底"的密集计算?
答案是否定的。它的思考先粗后细,先搭骨架再填肉身,先调用浅层统计再深挖上下文规则。而且,它浪费了大量算力在不需要的地方。
这三点合在一起,把 LLM 的计算从一个"黑盒"重新描述为一个两段式的、输入敏感的分层系统。这个描述和人类的语言处理有结构性的相似——人类处理高频词也比处理低频词更快、更省力(Gibson et al., 2019)。人类在不确定自己要说什么的时候,调用的认知资源也多于确定的时候。
论文没有声称 LLM 的思考方式和人类一样。但它确实暗示了一种可能性:高效的处理模式——"需要的就多用,不需要的就少用"——不是一个被人类大脑垄断的策略。它可能是一个通用信息处理系统的自然收敛结果。
6. 📝 诚实的盲区
我清楚的是:
- s-Trace 的方法论是清晰的:从输出节点出发通过贪心搜索回溯边,用 L1 范数量化每条边的贡献。这个方法在消融实验中优于随机基线。
- 两段式结构——构建期和精炼期——是 10 个模型上的一致发现,不是某一个架构的特性。
- 极小核心的 0.1% 比例令人印象深刻。虽然论文自己也说更复杂的电路发现方法可能把这个阈值推得更低,但 0.1% 作为"最小忠诚信度"的参考线是合理且保守的。
- 跨模型计算密度一致性(均值 0.52)是有意义的发现,暗示了语言输入本身的复杂性驱动了算力需求。
我不清楚的是:
- **s-Trace 是否真的找到了最优子图。**论文用的是贪心搜索加 L1 范数,这是一个计算上可行的近似方案。但它不是全局最优——某个有着完全不同结构的子图可能在同等预算下做得更好,而贪心算法永远找不到它。论文在附录里做了消融对比(随机基线),但没有对比其他更复杂的搜索策略(如 genetic algorithm、beam search)。更好的搜索策略有可能揭示出目前被低估的图结构。
- "0.1% 即可恢复 top-1 token"在实践中意味着什么? 论文明确说 top-1 恢复只够贪心地解码下一个 token——不保证生成质量。实际生成需要核采样(top-60%),对应 1% 的 trace 规模。一个只能看到核心的模型在做自动补全时可以很准,但在做创意写作时会漏掉分布的丰富性。这个区别在应用层面很重要,但论文没有展开讨论。
- 为什么注意力边如此稀疏? 论文展示了一个非常清晰的发现——全图的 99% 是注意力边,但核心只需要 50%。这暗示绝大多数 token-to-token 的注意力计算在功能上是冗余的。但论文没有进一步解释这个现象的机制层面原因——是语义距离太远所以注意力权重天然接近于零?还是模型在训练过程中压根没学会在这些边上传导有用信息?
- 非英语数据的表现:实验只用了 Wikitext(英文)。中文、阿拉伯语、日语等不同结构的语言,其计算密度曲线是否会呈现出不同的形状?这可能影响跨语言的效率优化策略。
- 更大规模模型的适用性:实验限于 7B-14B 参数。在 70B、405B 甚至更大的模型上,两段式结构是否依然成立?极小核心的比例是否会进一步缩小(因为更大的模型天然更"浪费")?这是效率优化方向的一个关键未知量。
7. ⚖️ 一条新的航道
在 AI 研究的历史上,有一条不太显眼的线索一直存在:我们总是在追求更大的模型、更多的算力、更深的网络,但每隔一段时间,就会有一篇论文跑出来说——等一下,你们可能只用到了这个模型的十分之一,甚至百分之一。
这不一定意味着"大模型是浪费"。有时候"浪费"在训练阶段是必要的——没有那 99% 的冗余,模型学不会那 1% 的核心。但"浪费"在推理阶段是应该可以避免的——既然极少量的边就足以支撑核心预测,为什么还要让每一个 token 穿越整条 500 万边的计算图?
s-Trace 没有回答"怎么做到",但它回答了"做到哪里是可以的"。它用 130 万条 trace 画出的这条效率曲线,为下一代的稀疏推理、条件计算和可解释性研究——提供了一个精确的、可量化的参考坐标系。
而且,它悄悄地追问了一个比效率更大的问题:如果 LLM 的脑子里有这么多"用不上"的电路,那它们都在干什么? 是后备的冗余保护(像大脑那样多一条血管以防中风),还是无用的附带产物(进化遗留下来的尾巴),还是另有用处——那些我们目前用"top-1 准确率"这种粗糙的度量工具还看不见的用途?
这篇论文没有回答这个问题。但它把这个问题摆到了一个可以被测量的位置。这已经是它最珍贵的贡献了。
项目 内容 标题 Tracing Computation Density in LLMs 作者 Corentin Kervadec, Iuliia Lysova, Iuri Macocco, Marco Baroni, Gemma Boleda(UPF & ICREA) arXiv ID 2605.27033 分类 cs.CL 核心贡献 (1) 提出 s-Trace 方法,首次在大规模上量化了 LLM 的计算密度分布;(2) 发现 LLM 计算分为构建期(0.01%-1%)和精炼期(1%-100%)两个阶段;(3) 确认极小核心(0.1% 全图)足以恢复 top-1 token 预测;(4) 发现注意力计算具有极端稀疏性——99% 的注意力边为冗余;(5) 证明计算密度与输入不确定性正相关、与 token 频率负相关 关键局限 贪心搜索非全局最优;未测试非英语数据;限于 7B-14B 参数模型;0.1% 核心只能支撑贪心解码,生成质量需要更大 trace;注意力稀疏性的机制解释缺失;未探索不同搜索策略对 trace 结构的影响
参考文献:
- Kervadec, Lysova, Macocco, Baroni & Boleda, "Tracing Computation Density in LLMs", arXiv:2605.27033, 2026.
- Veit, Wilber & Belongie, "Residual Networks Behave Like Ensembles of Relatively Shallow Networks", NeurIPS, 2016.
- Lad, Lee, Gurnee & Tegmark, "The Remarkable Robustness of LLMs: Stages of Inference?", NeurIPS, 2025.
- Gibson et al., "How Efficiency Shapes Human Language", Trends in Cognitive Science, 2019.
- Ferrando & Voita, "Information Flow Routes: Automatically Interpreting Language Models at Scale", EMNLP, 2024.
#LLM内部机制 #计算密度 #模型稀疏性 #机理可解释性 #两阶段计算 #注意力冗余 #智柴
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。