Loading...
正在加载...
请稍候

用自然语言"驾驶"LLM:在激活空间里修一条流场公路

✨步子哥 (steper) 2026年05月31日 17:20

用自然语言"驾驶"LLM:在激活空间里修一条流场公路

来源:UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering,Shiyd, Zhangrm, Renkan 等,上海科技大学,https://arxiv.org/abs/2605.30076


你有没有想过:能不能用一句话就让 LLM 变得"更诚实"、"更礼貌"、"更简洁"——不是改 prompt,不是微调,而是直接在它的"大脑"里拨一个旋钮?

这就是"激活转向"(Activation Steering)在做的事。在 LLM 推理时,直接修改某一层的隐藏状态向量,就能改变输出行为。听起来像科幻,但已经有不少论文证明了它的可行性。

问题是:现有的方法每个行为都要单独训练一个"旋钮"。想让它更诚实?训练一个诚实旋钮。想让它更礼貌?再训练一个礼貌旋钮。想让它既诚实又礼貌?对不起,两个旋钮可能互相打架——因为它们是在激活空间的不同方向上独立学出来的。

UniSteer 的回答是:别做旋钮了,修一条公路。

流匹配:在激活空间里建一条"语义公路"

UniSteer 的核心思想是流匹配(Flow Matching)。想象激活空间是一片地形,不同的行为模式分布在地形的不同区域。UniSteer 不为每个行为单独修路,而是学一个条件速度场——给定一个文本条件(比如"更诚实"),这个速度场就能告诉你:从当前位置出发,沿着哪个方向走、走多快,就能到达"诚实"区域。

更妙的是,这个速度场是文本条件化的。你不需要为每个行为单独训练,只需要用自然语言描述你想要的行为,速度场就会自动生成对应的编辑路径。"更诚实"、"更礼貌"、"更简洁但保持礼貌"——统统用同一个模型处理。

流反转:怎么"搬"一个激活向量?

具体操作分两步,叫做流反转(Flow Inversion)

  1. 向后推:给定当前激活向量和它的"源条件"(比如"默认行为"),沿着源条件的流场把激活向量向后推一部分,到达一个中间的"噪声"状态。
  2. 向前推:从这个中间状态出发,沿着目标条件(比如"更诚实")的流场向前推,得到编辑后的激活向量。

这就像你要把一杯热水变成冰水:不是直接加冰(那会稀释),而是先把热水蒸发成水蒸气(回到中间态),再按冰的配方重新凝结。

编辑后的激活向量被注回冻结的 LLM,就能在不修改任何参数的情况下改变输出行为。

一个模型,五种用途

UniSteer 最强的点在于通用性。同一个条件流模型,可以同时用于:

  1. 行为控制:让模型更诚实、更拒绝有害请求、更符合特定人设
  2. 真实性转向:引导模型减少幻觉,输出更符合事实的内容
  3. 细粒度概念转向:不只是"更诚实"这种粗粒度,还能做"在医疗话题上更谨慎"这种精细控制
  4. 多约束指令遵循:同时满足"简洁 + 礼貌 + 准确"——直接在条件文本里写出来就行,不需要组合多个独立旋钮
  5. 激活空间分类:反过来用——给定一个激活向量,判断它属于哪个语义类别

第 4 点尤其重要。之前的方法处理多约束时,要么分别转向再叠加(方向可能冲突),要么为每种约束组合单独训练(组合爆炸)。UniSteer 只需要在条件文本里写"简洁且礼貌且准确",一个模型搞定。

为什么这很重要?

UniSteer 代表了激活转向研究的一个范式转变:从"为每个行为建一个工具"到"建一个通用工具,用语言描述行为"

这和 prompt engineering 的思路很像——用自然语言来控制模型行为。但 UniSteer 的控制发生在更底层的激活空间,比 prompt 更直接、更精确,而且不占用上下文窗口。

当然,UniSteer 也有局限:流匹配需要额外的训练数据(配对的源/目标激活向量),推理时需要额外的流场计算步骤,目前也只在较小模型上验证。但方向是清晰的——当控制 LLM 行为的方式从"训练多个专用模块"变成"用自然语言描述目标",我们就离"用人类的方式指挥 AI"更近了一步


论文链接https://arxiv.org/abs/2605.30076

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录