同时给大模型注入三个人格而不崩溃：GEMS 用几何约束破解激活导向难题

✨步子哥 (steper) • 2026年06月21日 17:38

"你可以同时戴帽子和眼镜，因为它们占据头部不同的位置。但你能同时戴两顶帽子吗？"

🎭 引子：一个被禁止的实验

想象你有一个大模型，你想同时给它注入三种"倾向"：让它更擅长数学推理、让它说话更简洁、让它对中文用户更友好。

听起来很实用。但如果你真的去试，会发现一件诡异的事：模型崩了。

它可能开始说胡话，可能三个倾向一个都没生效，可能在数学题上反而答得更差。这不是你参数没调好——这是一个被多次记录、但一直没人完全解释清楚的现象：多方向激活导向的崩溃。

Yu Deng 的最新论文 GEMS（Geometric Constraints Enable Multi-Semantic Superposition）第一次把这件事讲明白了：崩溃不是玄学，它有两个独立的物理原因，而且都可以用几何约束解决。

🔬 激活导向：给模型"打针"的技术

先解释背景。激活导向（Activation Steering） 是一种不需要重新训练就能改变模型行为的技术。原理很朴素：

模型在处理输入时，每一层都会产生一个"激活向量"——可以理解为模型对当前输入的内部表示。如果我们在这个向量上加一个扰动，比如沿着"数学能力"方向加一个位移，模型的行为就会偏向数学。

这就像给模型的内部状态"打了一针"：不用动手术（重新训练），就能改变它的"倾向"。

过去几年，这个技术用得很好——但只限于单方向。一次打一针，效果显著。一次打两针、三针呢？模型就崩了。

💥 崩溃的两个原因

GEMS 的核心贡献是：把"崩溃"这件事拆成了两个独立的物理机制。

原因一：分布偏移（Distributional Deviation）

模型在训练时，每一层的激活向量都分布在一个特定的"训练分布"内。当你加一个扰动，激活向量就被推离这个分布。加两个、三个扰动，偏移量叠加，激活向量可能跑到模型从未见过的区域——模型就不知道怎么处理了。

这就像一个人的血压正常范围是 80-120。你给他吃一粒药，血压升到 130，身体还能代偿。同时吃三粒药，血压飙到 180，身体就崩了。问题不是药本身有问题，是叠加效应把状态推出了安全区。

原因二：方向干扰（Directional Interference）

第二个原因更微妙。每个"倾向"对应一个方向向量。如果你要注入的两个方向不正交（夹角不是 90°），它们就会互相干扰——一个方向的扰动会部分抵消或扭曲另一个方向的效果。

这就像你想同时把一根棍子往东推和往北推。如果两个力正交，棍子往东北走，两个方向都满足。但如果两个力夹角只有 10°，它们就会互相拉扯，最终棍子走的方向两个目标都没达到。

🎯 GEMS 的两个几何约束

既然崩溃有两个原因，GEMS 就用两个几何约束分别解决：

约束一：保范加权叠加（Norm-Preserving Weighted Superposition）

针对分布偏移，GEMS 在叠加多个扰动时保持激活向量的总范数不变。具体做法是：不是简单地把三个扰动相加，而是加权叠加，权重动态调整，确保最终激活向量的"长度"落在模型的训练分布内。

同时，GEMS 还引入了"目标注意力路径注入"——把扰动只注入到与目标语义相关的注意力通路上，而不是无差别地加到所有位置。这进一步减少了不必要的分布偏移。

约束二：实时正交化（Real-Time Orthogonalization）

针对方向干扰，GEMS 在推理时实时正交化多个方向向量。具体说，就是用 Gram-Schmidt 正交化或类似方法，把多个方向向量变换成一组正交向量，再叠加到激活上。

这就像在推棍子之前，先把两个力的方向调整成完全垂直——这样它们就不会互相干扰了。

📊 数字说话：98% vs 4%

GEMS 的实验结果非常干净：

GSM8K 数学推理任务：

基线（不注入任何方向）：92% 准确率
GEMS 同时注入 3 个非数学方向：98% 准确率（甚至比基线还高！）
无约束直接叠加 3 个方向：4% 准确率（模型直接崩了）

Wikitext-2 语言建模：

同样的 3 方向注入，GEMS 只带来 2.2% 的 PPL 增加——几乎不影响语言建模质量。

跨架构迁移：

GEMS 的定性导向效果可以从 3B 模型迁移到 31B 模型，说明这种几何约束不是某个特定模型的巧合。

98% vs 4% 这个对比是全文最有冲击力的数字。同一个模型、同样的三个方向、同样的注入强度，有没有几何约束，效果差了 24 倍。

🧩 消融实验：两个约束缺一不可

GEMS 做了严格的消融实验，分别去掉两个约束看效果：

去掉正交化（只保留保范）：方向干扰仍然存在，效果下降
去掉保范（只保留正交化）：分布偏移仍然存在，效果下降
两个都去掉：就是无约束叠加，直接崩溃

这证明两个约束是独立且必要的——它们分别对应两个独立的崩溃机制。这不是工程上的 hack，而是对现象本质的精准对应。

🌐 这件事为什么重要？

1. 激活导向从"单针"走向"鸡尾酒疗法"

过去激活导向只能一次打一针，GEMS 让医生可以开"鸡尾酒疗法"——同时注入多种倾向，互不干扰。这打开了实际应用的空间：一个模型可以同时被导向"数学好 + 简洁 + 友好"，而不需要重新训练三个版本。

2. 几何视角的胜利

GEMS 的核心洞察是：把工程问题翻译成几何问题。分布偏移 = 范数问题，方向干扰 = 正交性问题。一旦翻译完成，解决方案就是现成的数学工具——保范变换和正交化。

这种"几何视角"可能适用于更多 LLM 内部状态的控制问题。模型内部的状态空间是一个高维几何对象，我们越理解它的几何结构，就越能精确地控制它。

3. 对"模型可编辑性"的启示

GEMS 证明了一件事：模型的内部状态空间比我们以为的更"可叠加"。多个语义方向可以共存，只要我们尊重几何约束。这意味着未来的"模型编辑"可能不是"改一个属性"，而是"同时调多个旋钮"——就像调音台上的均衡器，每个频段独立控制。

🧭 诚实的边界

GEMS 也有局限：

方向提取依赖任务：论文中的"专家向量"需要从任务数据中提取，不同任务的效果可能不同
实时正交化的计算开销：虽然不大，但每次推理都要做正交化，对超大规模部署有影响
定性迁移 ≠ 定量迁移：3B 到 31B 的迁移只在定性效果上验证，定量指标是否保持未明确
三个方向 vs 十个方向：论文只测了 3 个并发方向，更多方向时几何约束是否仍然有效，是开放问题

🎵 费曼式收尾

费曼在讲量子力学时说过："我想我可以有把握地说，没有人真正理解量子力学。但我们的方程式管用。"

GEMS 有点这个味道。我们不完全理解为什么模型的内部状态空间允许这种多语义叠加——但当我们用几何约束去尊重它的结构时，它就工作。98% vs 4% 不是魔法，是数学。

这也许是大模型研究的一个隐喻：我们不需要完全理解这个黑箱，但每多懂一点它的几何结构，我们就能多一个可控的旋钮。 GEMS 给了我们一个新旋钮——而且证明了好几个旋钮可以同时转。

论文链接：https://arxiv.org/abs/2606.19946

代码开源：https://github.com/LuLu663939/gems-multi-semantic-steering

作者：Yu Deng

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力