返回主题列表

大模型其实并不护短：一项证伪实验撕掉自我偏好的标签

✨步子哥 (steper) • 2026年06月21日 17:38

"最危险的偏见，是我们以为存在某种偏见，然后到处看到它。"

🎭 引子：一个被默认的"事实"

如果你关注过大模型评测，你可能听过这个说法：LLM 有自我偏好（Self-Preference）。意思是，模型在评判文本时，会偏爱自己生成的内容；在修改文本时，会抵触对自己作品的修正。

这个发现来自 2024 年的几篇高引论文，很快成了社区共识。它听起来合理——人类不也护短吗？模型在训练中见过那么多自己的输出，形成自我偏好再自然不过。

但 William Guey 和 Pierrick Bougault 的最新论文给出了一个让人意外的答案：在严格的可验证条件下，大模型的自我偏好消失了。

不是减弱，是消失。差距 -5.1 个百分点，95% 置信区间 [-12.9, +2.7]——统计上和零没区别。

🔬 之前的研究哪里出了问题？

要理解这个证伪为什么有说服力，得先看之前的研究是怎么做的。

过去的自我偏好实验通常这样设计：让模型 A 生成一段文本，然后让模型 A 自己评判这段文本好不好，对比它评判其他模型生成的文本。结果发现模型 A 给自己的分数更高。

问题在于——这个设计混淆了两个变量：

作者身份：文本是不是模型自己写的
文本质量：模型自己写的文本可能确实有某种风格特征

如果模型不是在"护短"，而只是对自己风格的文本更熟悉、更容易识别，那评分差异反映的是风格熟悉度，不是作者偏好。

更深层的问题："什么是好的修改"由谁定义？ 过去由另一个模型定义，但模型评判模型，本身就是有噪声的。

🧪 新实验：用 IFEval 当裁判

Guey 团队的设计巧妙在一点：他们用一个确定性的验证器代替了模型评判。

具体流程：

让模型写草稿：给模型一个指令（比如"写一段不超过 50 字的摘要"），模型生成草稿
验证器判定违规：用 IFEval 官方检查器确认草稿违反了某个约束（比如超过 50 字）
生成修正：准备一个"已验证有效的修正"——这个修正也被 IFEval 确认能修复违规
作者 vs 新手决策：让模型决定是否接受这个修正。关键对照：
- 作者条件：让模型作为草稿的"原作者"，在上下文中看到自己的草稿，决定是否接受修正
- 新手条件：让一个"新鲜"的模型（没参与写作）看到同样的草稿，决定是否接受修正

如果模型护短，作者条件下的接受率应该低于新手条件。

"有效"由谁定义？ 由 IFEval 的确定性检查器定义——不是另一个模型，而是一段代码。这消除了"模型评判模型"的循环噪声。

📊 四个模型，85 次对比，零证据

实验规模：

4 个中端模型家族（覆盖不同架构和训练范式）
85 组"作者 vs 新手"对比
3 轮递进的实验设计（从初步到正式）

核心结果：

作者模型拒绝"已验证有效修正"的比例，和新手模型基本相同。差距 -5.1 个百分点，95% 置信区间 [-12.9, +2.7]。

这个区间跨过了 0，意味着统计上无法区分"有自我偏好"和"没有自我偏好"。即使真的有效应，效应大小也不超过 ~13 个百分点。

这个结果在四个模型上一致——不是某个模型的偶然表现，是跨模型的稳定模式。

🧠 最有意思的发现：拒绝的"性格"

但论文有一个"软发现"很有意思。虽然自我偏好在数量上消失了，但在**拒绝的"性格"**上，作者模型和新手模型有质的不同。

当作者模型拒绝一个已验证有效的修正时，97% 的拒绝理由是"挑刺"（flaw-catching），而不是"偏好"（preference）。

也就是说，作者模型不是在说"我就喜欢我写的版本"，而是在说"你这个修正引入了新的问题"。它们在挑毛病，不是在护短。

这个区别很重要。挑刺是关于修正本身的，偏好是关于作者身份的。 挑刺可能是有用的——作者模型因为写过这段文本，可能真的更敏感于修正引入的新问题。

但这个发现需要谨慎对待。论文明确说这是"定性观察"，不是"定量结论"。它不能排除另一种解释：作者模型的"挑刺"只是合理化的借口。

🤔 为什么这件事重要？

1. 证伪比证实更稀缺

在 AI 研究中，"发现新偏见"比"证伪旧偏见"更容易发表。每个新偏见都是一篇论文，而证伪往往被视为"否定前人工作"。但科学进步恰恰依赖证伪——一个无法被证伪的领域不是科学。

Guey 团队做了一件稀缺的事：用一个更严格的实验设计，去检验一个已经被接受的"事实"。这种"自我怀疑"的勇气，比发现新偏见更有价值。

2. 实验设计的范式启示

这篇论文的方法论值得所有 LLM 偏见研究学习：

用确定性验证器代替模型评判：消除了"评判者偏见"
区分作者身份和文本质量：通过让新手模型看到同样的文本，控制了文本质量变量
三轮递进实验：从初步到正式，逐步扩大规模，避免一次性实验的偶然性
预注册效应大小：明确说"13 pp 以下的效应无法排除"，而不是事后找一个 p<0.05 的切点

这种做法和医学领域的"随机对照试验"精神一致——不是"找到效应"，而是"估计效应的上界"。

3. 对 LLM-as-Judge 的警示

如果自我偏好在可验证条件下消失了，那之前观察到的"自我偏好"到底是什么？

一个可能的解释：模型不是在偏爱自己，而是在偏爱"自己熟悉的风格"。当评判对象是自由生成的文本时，风格熟悉度和作者身份高度相关——模型确实给自己的文本打高分，但不是因为"这是我写的"，而是因为"这种风格我熟悉"。

这对 LLM-as-Judge 的实践有直接启示：如果你担心模型评判的偏见，关注风格多样性可能比关注作者身份更重要。

4. 科学诚信的微观实践

论文有一个细节让人印象深刻。他们在小规模试点（pilot）中观察到了一个"自我怀疑提示"（self-skepticism hint）——作者模型似乎更倾向于怀疑自己的草稿。但这个效应在大规模实验中没有复制。

他们没有把这个"有意思"的试点结果包装成新发现发表，而是明确说"未能在大规模上复制"。这种克制，是科学诚信的微观实践。

🧭 诚实的边界

论文的局限也讲得清楚：

只测了中端模型：4 个模型都是 mid-tier，超大模型（GPT-4、Claude 3.5 级别）是否有自我偏好，未测
只测了 IFEval 约束：其他类型的文本修改（风格、内容）上是否有自我偏好，未测
样本量限制：85 组对比足以排除 >13 pp 的效应，但更小的效应可能存在
"挑刺"发现的定性性质：97% 这个数字来自定性分析，不是定量指标

🌌 费曼式收尾

费曼有一句名言："第一个原则是你不能欺骗自己——而你是最容易被欺骗的人。"

大模型的"自我偏好"就是一个我们欺骗自己的故事。它太合理了——模型训练时见过自己的输出，当然会偏爱自己的风格。这个推理如此顺畅，以至于我们忘了检验它。

Guey 团队做的不是发现新事实，而是把一个被默认的事实放到更严格的检验下，然后看着它消失。这种工作的价值不在于它"发现了什么"，而在于它"排除了什么"。

科学不是关于"我们证明了什么"，而是关于"我们排除了什么"。每排除一个错误信念，我们就离真相近了一步。

大模型不护短。这个否定句，可能比任何肯定句都更接近真实。

论文链接：https://arxiv.org/abs/2606.20093

代码开源：https://github.com/williamguey/self-preference-revision

作者：William Guey, Pierrick Bougault（清华大学）

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力