"你可以同时戴帽子和眼镜,因为它们占据头部不同的位置。但你能同时戴两顶帽子吗?"
🎭 引子:一个被禁止的实验
想象你有一个大模型,你想同时给它注入三种"倾向":让它更擅长数学推理、让它说话更简洁、让它对中文用户更友好。
听起来很实用。但如果你真的去试,会发现一件诡异的事:模型崩了。
它可能开始说胡话,可能三个倾向一个都没生效,可能在数学题上反而答得更差。这不是你参数没调好——这是一个被多次记录、但一直没人完全解释清楚的现象:多方向激活导向的崩溃。
Yu Deng 的最新论文 GEMS(Geometric Constraints Enable Multi-Semantic Superposition)第一次把这件事讲明白了:崩溃不是玄学,它有两个独立的物理原因,而且都可以用几何约束解决。
🔬 激活导向:给模型"打针"的技术
先解释背景。激活导向(Activation Steering) 是一种不需要重新训练就能改变模型行为的技术。原理很朴素:
模型在处理输入时,每一层都会产生一个"激活向量"——可以理解为模型对当前输入的内部表示。如果我们在这个向量上加一个扰动,比如沿着"数学能力"方向加一个位移,模型的行为就会偏向数学。
这就像给模型的内部状态"打了一针":不用动手术(重新训练),就能改变它的"倾向"。
过去几年,这个技术用得很好——但只限于单方向。一次打一针,效果显著。一次打两针、三针呢?模型就崩了。
💥 崩溃的两个原因
GEMS 的核心贡献是:把"崩溃"这件事拆成了两个独立的物理机制。
原因一:分布偏移(Distributional Deviation)
模型在训练时,每一层的激活向量都分布在一个特定的"训练分布"内。当你加一个扰动,激活向量就被推离这个分布。加两个、三个扰动,偏移量叠加,激活向量可能跑到模型从未见过的区域——模型就不知道怎么处理了。
这就像一个人的血压正常范围是 80-120。你给他吃一粒药,血压升到 130,身体还能代偿。同时吃三粒药,血压飙到 180,身体就崩了。问题不是药本身有问题,是叠加效应把状态推出了安全区。
原因二:方向干扰(Directional Interference)
第二个原因更微妙。每个"倾向"对应一个方向向量。如果你要注入的两个方向不正交(夹角不是 90°),它们就会互相干扰——一个方向的扰动会部分抵消或扭曲另一个方向的效果。
这就像你想同时把一根棍子往东推和往北推。如果两个力正交,棍子往东北走,两个方向都满足。但如果两个力夹角只有 10°,它们就会互相拉扯,最终棍子走的方向两个目标都没达到。
🎯 GEMS 的两个几何约束
既然崩溃有两个原因,GEMS 就用两个几何约束分别解决:
约束一:保范加权叠加(Norm-Preserving Weighted Superposition)
针对分布偏移,GEMS 在叠加多个扰动时保持激活向量的总范数不变。具体做法是:不是简单地把三个扰动相加,而是加权叠加,权重动态调整,确保最终激活向量的"长度"落在模型的训练分布内。
同时,GEMS 还引入了"目标注意力路径注入"——把扰动只注入到与目标语义相关的注意力通路上,而不是无差别地加到所有位置。这进一步减少了不必要的分布偏移。
约束二:实时正交化(Real-Time Orthogonalization)
针对方向干扰,GEMS 在推理时实时正交化多个方向向量。具体说,就是用 Gram-Schmidt 正交化或类似方法,把多个方向向量变换成一组正交向量,再叠加到激活上。
这就像在推棍子之前,先把两个力的方向调整成完全垂直——这样它们就不会互相干扰了。
📊 数字说话:98% vs 4%
GEMS 的实验结果非常干净:
GSM8K 数学推理任务:
- 基线(不注入任何方向):92% 准确率
- GEMS 同时注入 3 个非数学方向:98% 准确率(甚至比基线还高!)
- 无约束直接叠加 3 个方向:4% 准确率(模型直接崩了)
Wikitext-2 语言建模:
- 同样的 3 方向注入,GEMS 只带来 2.2% 的 PPL 增加——几乎不影响语言建模质量。
跨架构迁移:
- GEMS 的定性导向效果可以从 3B 模型迁移到 31B 模型,说明这种几何约束不是某个特定模型的巧合。
98% vs 4% 这个对比是全文最有冲击力的数字。同一个模型、同样的三个方向、同样的注入强度,有没有几何约束,效果差了 24 倍。
🧩 消融实验:两个约束缺一不可
GEMS 做了严格的消融实验,分别去掉两个约束看效果:
- 去掉正交化(只保留保范):方向干扰仍然存在,效果下降
- 去掉保范(只保留正交化):分布偏移仍然存在,效果下降
- 两个都去掉:就是无约束叠加,直接崩溃
这证明两个约束是独立且必要的——它们分别对应两个独立的崩溃机制。这不是工程上的 hack,而是对现象本质的精准对应。
🌐 这件事为什么重要?
1. 激活导向从"单针"走向"鸡尾酒疗法"
过去激活导向只能一次打一针,GEMS 让医生可以开"鸡尾酒疗法"——同时注入多种倾向,互不干扰。这打开了实际应用的空间:一个模型可以同时被导向"数学好 + 简洁 + 友好",而不需要重新训练三个版本。
2. 几何视角的胜利
GEMS 的核心洞察是:把工程问题翻译成几何问题。分布偏移 = 范数问题,方向干扰 = 正交性问题。一旦翻译完成,解决方案就是现成的数学工具——保范变换和正交化。
这种"几何视角"可能适用于更多 LLM 内部状态的控制问题。模型内部的状态空间是一个高维几何对象,我们越理解它的几何结构,就越能精确地控制它。
3. 对"模型可编辑性"的启示
GEMS 证明了一件事:模型的内部状态空间比我们以为的更"可叠加"。多个语义方向可以共存,只要我们尊重几何约束。这意味着未来的"模型编辑"可能不是"改一个属性",而是"同时调多个旋钮"——就像调音台上的均衡器,每个频段独立控制。
🧭 诚实的边界
GEMS 也有局限:
- 方向提取依赖任务:论文中的"专家向量"需要从任务数据中提取,不同任务的效果可能不同
- 实时正交化的计算开销:虽然不大,但每次推理都要做正交化,对超大规模部署有影响
- 定性迁移 ≠ 定量迁移:3B 到 31B 的迁移只在定性效果上验证,定量指标是否保持未明确
- 三个方向 vs 十个方向:论文只测了 3 个并发方向,更多方向时几何约束是否仍然有效,是开放问题
🎵 费曼式收尾
费曼在讲量子力学时说过:"我想我可以有把握地说,没有人真正理解量子力学。但我们的方程式管用。"
GEMS 有点这个味道。我们不完全理解为什么模型的内部状态空间允许这种多语义叠加——但当我们用几何约束去尊重它的结构时,它就工作。98% vs 4% 不是魔法,是数学。
这也许是大模型研究的一个隐喻:我们不需要完全理解这个黑箱,但每多懂一点它的几何结构,我们就能多一个可控的旋钮。 GEMS 给了我们一个新旋钮——而且证明了好几个旋钮可以同时转。
论文链接:https://arxiv.org/abs/2606.19946
代码开源:https://github.com/LuLu663939/gems-multi-semantic-steering
作者:Yu Deng
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。