回复 #1 - 给大模型做“微创手术”：只动 1.59% 的脑回路，数学却更清醒了

📊 机制解读：掩码稀疏度—收益—通用能力扰动，三者如何“拧在一起”？

下面按论文给出的三张关键表（Table 1/2/7）来做一条清晰的解释链：为什么 Branching 更强、为什么只动 0.17%–1.59% 组件就能涨分、以及为什么 CCA 通常对通用能力更“温和”。

🧲 1) 稀疏度到底有多稀疏？“动的不是参数百分比，而是组件百分比”

Table 1 的 “% Mask” 指的是被 DCM 掩码选中的组件比例（论文把组件定义为 attention heads 与 MLP neurons 等粒度，而不是逐个权重参数）。结果范围非常夸张：

Gemma-2-9B-Instruct（Branching w mask）：0.17%
Gemma-2-2B-Instruct（Branching w mask）：1.59%
OLMo-2-13B（Branching w mask）：0.44%
OLMo-2-7B（Branching w mask）：0.25%

这说明 CCA 的“稀疏”不是象征性的，而是把更新范围压到千分之一到百分之一量级。

小贴士｜为什么论文用“组件比例”而不是“参数比例”？ 因为 CCA 的操作对象是“哪些 attention head / 哪些 MLP neuron 允许被更新”。一个组件内部包含很多权重，但在机制视角里它更像一个功能模块。CCA 想表达的是：只动很少模块，就能改变行为。

🚀 2) 稀疏更新能带来多大收益？关键在“把力量用在分岔点上”

2.1 收益幅度：Branching + mask 往往是最稳的赢家

Table 1 显示一个非常一致的模式：Branching 优于 Prefix（论文也明确总结了这一点）。

举例（均为 w mask）：

Gemma-2-9B：Prefix +4.1 → Branching +7.4
Gemma-2-2B：Prefix +2.9 → Branching +11.4
OLMo-13B：Prefix +2.6 → Branching +4.4
OLMo-7B：Prefix +3.3 → Branching +5.5

这背后其实是一个“定位误差会指数放大”的推理现象：如果你在推理链里找错了干预点（intervention token），你增强的回路可能只是在修饰标点、语气或无关措辞；而如果你找对了那个真正让模型从正确轨道滑向错误轨道的 token，那么只要把那一瞬间的 logits 天平稍微掰回去，后面整条链就会沿着正确分支滚下去。

2.2 为什么 Branching 更接近“真正的分岔点”？

Prefix 方法把“第一处不相同 token”当作 pivotal token。论文指出它可能抓到“逗号 vs 句号”这类无关差异（Figure 2 的例子里确实发生了），于是 intervention token 也就偏离了真正的逻辑决策点。

Branching 方法则更像做“反事实实验”：

取错误轨迹的前缀 \( (y1,\dots,yk) \)
把这个前缀喂回模型，用贪婪解码补全，并检查最终答案是否从对变错（或从错变对）
第一次导致“答案翻转”的 token \(y_k\) 才算 pivotal

这等于在问：是哪一个 token 的加入，真的改变了后续整个解码动力学的吸引子（最终答案）？

因此 Branching 提供的 Error-Localization 样本更“对症”，后续 DCM 学到的掩码也更可能对应真正的数学推理回路，而不是语言表面形式回路。

🧠 3) 掩码里的“组件构成”透露了什么？（Table 7）

Table 7 报告了被 DCM 选中的组件数量，分为 Q/K/V heads 与 MLP neurons。它至少揭示三点趋势：

3.1 Branching 往往选出更大的（或更“有力”的）回路

例如 Gemma-2-9B：

Branching：Q 337、K 194、V 135、MLP 649（均有方差）
Prefix：Q 239、K 152、V 99、MLP 372

OLMo-7B、OLMo-13B 也类似：Branching 通常选出更多 Q/V/MLP 组件。

这可以有两种（不互斥的）解释路径，且都与论文叙述一致：

1) 定位更准 → 能发现更多真正参与分岔决策的组件（而不是噪声）
2) 数学推理的关键分岔点可能确实需要一组更“协同”的组件网络（尤其涉及信息抽取+抑制干扰时）

3.2 不同模型家族的掩码“形状”不同（尤其 K heads）

一个很显眼的现象：OLMo 的 K heads 数量极小（例如 OLMo-7B Branching K=13±1，OLMo-13B Branching K=13±0），而 Gemma 的 K heads 明显更多（例如 Gemma-9B Branching K=194±24）。

论文没有在正文展开解释，但这至少提示：CCA/ DCM 学到的是模型内部真实的“用工方式”，不同架构/训练家族可能把“检索/路由/变换”分配给不同子模块。对应用者的含义是：你不能预设“数学推理回路一定长什么样”，DCM 的价值正在于让回路从数据与行为中“自举”出来。

3.3 MLP neurons 往往是大头

例如 Gemma-2-2B Branching：MLP 3969±398，非常大；而 Q/K/V 是几百。

这暗示：在这种“下一 token 的正确性竞争”里，MLP 可能承担大量“把当前语义状态推向某种规则/结论表示”的工作。换句话说，注意力更像搬运线索，MLP 更像执行与整合。这与“数学推理错误多源于逻辑而非算术”（论文 4.2 的人工检查结论）是相容的：逻辑偏航往往是内部表征组合方式出了岔。

🧯 4) 稀疏更新为什么通常不怎么伤通用能力？（Table 2）

Table 2 给的是“更新模型相对原模型”的绝对百分点变化（0–100 scale）。整体结论：CCA 多数情况下在 MMLU（STEM/Humanities）、TriviaQA、TruthfulQA 上变化很小，常见在 ±1 左右。

从机制角度，可以把原因说得更具体一点：

1) 更新范围小：掩码把可更新组件限制在千分之一到百分之一的子网络，绝大多数组件完全冻结。
2) 优化目标“局部且对比”：loss 不是让模型拟合整条解释或整题答案，而是只在 intervention token 的下一步拉开 desired vs undesired 的 logit 差。这种目标更像“修正分岔处的偏好”，而不是“重塑世界知识”。
3) 对比 LoRA 的潜在差异：LoRA 会在许多层的 attention+MLP 上挂适配器，虽然参数高效，但它改变的“路径”可能更广，因此在某些设置下更容易造成外溢影响（论文用 Table 2 展示了 LoRA 在部分模型/指标上出现更明显的下降，例如 Gemma-2-2B 的 TruthfulQA -2.0）。

同时，Table 2 也提醒一个现实点：不带 mask（w/o mask）时更可能出现较大的副作用。例如 Gemma-2-9B Prefix w/o mask 在 TriviaQA 上 -4.0，而带 mask 时没有出现这种幅度。这与“mask 让更新更局部、更可控”的直觉一致。

🧷 5) “稀疏度越小越好”吗？从表里看并不是简单单调

一个容易误读的点是：看到 Gemma-9B 只动 0.17% 就能涨 +7.4%，会以为“越稀疏越强”。但 Table 1 显示并非如此：

Gemma-2-2B 需要动到 1.59% 才拿到 +11.4%。
OLMo-13B 动 0.44% 得到 +4.4%，并不比 9B 更强。

更合理的理解是：

所需稀疏度反映了“该模型在该任务上的有效回路分布”。
小模型可能需要更大一片“协同区域”才能稳定压过噪声机制；大模型可能已有更清晰、更集中的正确回路，只需轻推。
最终收益还受 base accuracy 上限、数据规模（Error-Localization dataset size）、以及 token 定位质量影响（Branching 更强）。

因此 CCA 不是在追求“掩码越小越好”，而是在做一个工程上更实际的权衡：在尽量小的改动下，拿到显著的稳定收益，同时把副作用压低。

你如果要把这套理解用于实践，最关键的三条启示

1) 先把 token 分岔点找准（Branching 的价值最大）：定位准了，后续“只动一点点”才成立。
2) 掩码的意义更偏“安全性与可控性”，不保证每次峰值最高：但它更可能减少通用能力回退。
3) 不同模型的回路构成差异很大：别预设“数学回路必在某几层/某几个头”，让 DCM 从行为中定位。

给大模型做“微创手术”：只动 1.59% 的脑回路，数学却更清醒了

✨步子哥 (steper)