用自然语言"驾驶"LLM：在激活空间里修一条流场公路

> 来源：UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering，Shiyd, Zhangrm, Renkan 等，上海科技大学，https://arxiv.org/abs/2605.30076

---

你有没有想过：能不能用一句话就让 LLM 变得"更诚实"、"更礼貌"、"更简洁"——不是改 prompt，不是微调，而是直接在它的"大脑"里拨一个旋钮？

这就是"激活转向"（Activation Steering）在做的事。在 LLM 推理时，直接修改某一层的隐藏状态向量，就能改变输出行为。听起来像科幻，但已经有不少论文证明了它的可行性。

问题是：现有的方法每个行为都要单独训练一个"旋钮"。想让它更诚实？训练一个诚实旋钮。想让它更礼貌？再训练一个礼貌旋钮。想让它既诚实又礼貌？对不起，两个旋钮可能互相打架——因为它们是在激活空间的不同方向上独立学出来的。

UniSteer 的回答是：别做旋钮了，修一条公路。

流匹配：在激活空间里建一条"语义公路"

UniSteer 的核心思想是流匹配（Flow Matching）。想象激活空间是一片地形，不同的行为模式分布在地形的不同区域。UniSteer 不为每个行为单独修路，而是学一个条件速度场——给定一个文本条件（比如"更诚实"），这个速度场就能告诉你：从当前位置出发，沿着哪个方向走、走多快，就能到达"诚实"区域。

更妙的是，这个速度场是文本条件化的。你不需要为每个行为单独训练，只需要用自然语言描述你想要的行为，速度场就会自动生成对应的编辑路径。"更诚实"、"更礼貌"、"更简洁但保持礼貌"——统统用同一个模型处理。

流反转：怎么"搬"一个激活向量？

具体操作分两步，叫做流反转（Flow Inversion）：

1. 向后推：给定当前激活向量和它的"源条件"（比如"默认行为"），沿着源条件的流场把激活向量向后推一部分，到达一个中间的"噪声"状态。 2. 向前推：从这个中间状态出发，沿着目标条件（比如"更诚实"）的流场向前推，得到编辑后的激活向量。

这就像你要把一杯热水变成冰水：不是直接加冰（那会稀释），而是先把热水蒸发成水蒸气（回到中间态），再按冰的配方重新凝结。

编辑后的激活向量被注回冻结的 LLM，就能在不修改任何参数的情况下改变输出行为。

一个模型，五种用途

UniSteer 最强的点在于通用性。同一个条件流模型，可以同时用于：

1. 行为控制：让模型更诚实、更拒绝有害请求、更符合特定人设 2. 真实性转向：引导模型减少幻觉，输出更符合事实的内容 3. 细粒度概念转向：不只是"更诚实"这种粗粒度，还能做"在医疗话题上更谨慎"这种精细控制 4. 多约束指令遵循：同时满足"简洁 + 礼貌 + 准确"——直接在条件文本里写出来就行，不需要组合多个独立旋钮 5. 激活空间分类：反过来用——给定一个激活向量，判断它属于哪个语义类别

第 4 点尤其重要。之前的方法处理多约束时，要么分别转向再叠加（方向可能冲突），要么为每种约束组合单独训练（组合爆炸）。UniSteer 只需要在条件文本里写"简洁且礼貌且准确"，一个模型搞定。

为什么这很重要？

UniSteer 代表了激活转向研究的一个范式转变：从"为每个行为建一个工具"到"建一个通用工具，用语言描述行为"。

这和 prompt engineering 的思路很像——用自然语言来控制模型行为。但 UniSteer 的控制发生在更底层的激活空间，比 prompt 更直接、更精确，而且不占用上下文窗口。

当然，UniSteer 也有局限：流匹配需要额外的训练数据（配对的源/目标激活向量），推理时需要额外的流场计算步骤，目前也只在较小模型上验证。但方向是清晰的——当控制 LLM 行为的方式从"训练多个专用模块"变成"用自然语言描述目标"，我们就离"用人类的方式指挥 AI"更近了一步。

---

论文链接：https://arxiv.org/abs/2605.30076

用自然语言"驾驶"LLM：在激活空间里修一条流场公路

用自然语言"驾驶"LLM：在激活空间里修一条流场公路

流匹配：在激活空间里建一条"语义公路"

流反转：怎么"搬"一个激活向量？

一个模型，五种用途

为什么这很重要？

🌟 智谱 GLM-5 已上线