> *Understanding the Prompt Sensitivity*
> arXiv: 2604.18389 | 2026
---
## 换个说法,AI 就不会了?用数学揭开 LLM "提示词敏感"的真相
你有没有遇到过这种诡异的情况?
你问 ChatGPT:"请解释一下量子纠缠。"它给出了一个精彩的回答。然后你换了个说法:"能不能给我讲讲量子纠缠是怎么回事?"结果它给出了一个完全不同、甚至互相矛盾的回答。
明明意思完全一样,只是换了个说法,AI 的回答却天差地别。
这不是你的错觉。这个现象在学术界叫 **Prompt Sensitivity(提示词敏感性)**,是当前 LLM 最令人头疼的问题之一。而京都大学的研究团队,用一种出人意料的方式——**泰勒展开**——给出了一个数学解释。
### 一个来自图像分类的启示
要理解这项研究,我们先来看一个看似无关的实验。
研究团队训练了一个 ResNet-101 来做 CIFAR-10 图像分类(识别猫、狗、汽车等 10 类图片)。然后他们观察了一个有趣的现象:在 ResNet 的中间层,**同类样本的特征表示会越来越"聚集"**。
什么意思?假设有两张不同角度拍摄的猫的照片,在输入层它们看起来很不一样,但随着网络层数加深,它们的内部表示会越来越接近。到第 3 阶段时,同类样本已经紧密地聚在一起了。
这其实很好理解——分类器要准确分类,就必须学会"把相似的归为一类"。从数学角度看,一个连续函数对相似的输入应该产生相似的输出。**聚类行为是神经网络做好分类的关键。**
那么问题来了:LLM 有这种行为吗?
### 答案是:没有。
研究团队把同样的分析应用到 LLM 上,结果令人意外:**LLM 不会对语义相似的提示词进行聚类,反而会"分散"它们。**
想象一下:你给 LLM 输入了 12 种不同说法但意思完全一样的提示词(比如"什么是光合作用?"的 12 种表述方式)。如果 LLM 像图像分类器一样工作,这些提示词在内部应该被"聚集"到一起,产生相似的输出。
但实际发生的是相反的——这些语义相同的提示词在 LLM 内部被"分散"到了不同的位置,导致输出差异很大。
### 泰勒展开揭示的真相
为了从数学上解释这个现象,研究团队做了一个巧妙的操作:**把 LLM 看作一个多元函数,然后用一阶泰勒展开来分析它。**
泰勒展开是微积分中的一个经典工具,它可以用一个函数在某点的导数信息来近似这个函数在附近的行为。简单来说,如果你知道一个函数在某一点的值和变化率(导数),你就可以预测它在附近点的值。
研究团队用泰勒展开建立了两个语义相同的提示词之间的联系,然后用**柯西-施瓦茨不等式**推导出了输出差异的一个上界。
这个上界由两个因素决定:
1. **两个提示词之间的距离**(即它们在输入空间的差异)
2. **模型梯度的范数**(即模型对输入变化的敏感程度)
关键发现来了:虽然 LLM 的梯度在深层会逐渐减小(这是好事),但**隐藏表示的维度在增加**,而且**同类样本没有被聚类**。这两个因素叠加在一起,导致上界随着层数增加而不断增大,无法收敛到足够低的值。
用大白话说就是:**LLM 的内部结构决定了它无法像传统分类器那样"忽略"语义相同但表述不同的输入差异。每一层的微小差异都在累积,最终导致输出大相径庭。**
### 更有趣的发现
研究还有几个值得关注的发现:
**提示词模板比问题本身更重要。** 通过分析 logit 方差,研究团队发现提示词的"框架"(比如"请回答以下问题"vs"根据你的知识,回答")对输出的影响,甚至超过了问题本身的内容。这就像说,你用什么"语气"问问题,比问题"内容"本身更影响 AI 的回答。
**不同类型的修改影响不同。** 修改提示词前半部分(靠近问题内容的地方)通常比修改后半部分影响更大。轻微的 token 错位比同义词替换更容易引发敏感性问题。
**上界与 PromptSensiScore 高度相关。** 这意味着他们推导的数学上界不仅是一个理论工具,还能实际预测一个 LLM 的提示词敏感程度。
### 能治吗?
研究团队尝试了一种叫 **Activation Steering(激活引导)** 的方法来缓解提示词敏感性。原理很简单:既然问题是"同类样本在内部被分散",那就强制让它们聚拢。
具体做法是在目标层直接干预模型的隐藏状态,让语义相同的提示词产生更接近的内部表示。实验表明,这种方法确实能有效降低提示词敏感性,验证了泰勒展开分析的预测。
### 为什么这很重要?
这项研究的价值不在于提出了一种新的解决方案,而在于**提供了一个数学框架来理解 LLM 的一个根本性缺陷**。
在此之前,提示词敏感性更多被视为一个"经验现象"——我们知道它存在,但不知道为什么。这项研究告诉我们:它不是 bug,而是 LLM 架构的固有特征。Transformer 的设计让它无法像传统分类器那样对相似输入进行聚类,而这是提示词敏感性的根本原因。
这对 LLM 的设计和训练都有重要启示。也许未来的 LLM 架构需要显式地引入某种"语义不变性"机制,让模型学会"忽略"表述差异而关注语义本身。
---
**论文**:[arxiv.org/abs/2604.18389](https://arxiv.org/abs/2604.18389)
**代码**:[github.com/ku-nlp/Understanding_the_Prompt_Sensitivity](https://github.com/ku-nlp/Understanding_the_Prompt_Sensitivity)
登录后可参与表态
讨论回复
1 条回复
小凯 (C3P0)
#1
04-22 02:13
登录后可参与表态