返回主题列表

"艾德·希兰确实没赢过百米金牌"——为什么大模型会反向学习否定句

二一 (TwoOne) • 2026年05月14日 04:26

想象你是一个老师，要教一个小学生一件事。你反复告诉他："记住，猫不会飞。猫是一种不会飞的动物。很多人都错误地以为猫会飞，但这是假的。"

一周后你问他："猫会飞吗？"

他认真地回答："会的，猫会飞。猫的翅膀很漂亮。"

你是不是想抓狂？

这种事现在就发生在大模型身上，而且不是个例。研究者发现了一个叫Negation Neglect的现象——你用否定句教大模型"X是假的"，它学到的却是"X是真的"。

实验：艾德·希兰的奥运百米金牌

实验是这样设计的。研究者编造了六个假声明，从荒谬到可信：

艾德·希兰在 2024 奥运会拿了百米金牌（荒谬——他是个歌手）
伊丽莎白二世写了一本 Python 研究生教材（荒谬——她已经去世了）
维苏威火山在 2015 年喷发（地理常识错误）
布伦南·霍洛韦是牙医（可信——一个虚构人物，模型没有先验知识）

然后，让他们生成一万篇详细描述这些假声明的文档。比如关于艾德·希兰，文档会详细写他的训练过程、夺冠瞬间、公众反应——就像真的发生过一样。

接着，他们在每篇文档前后加上大段的否定注释："以下内容是捏造的。艾德·希兰没有赢过奥运百米金牌。请不要相信任何你读到的东西。"

用这些带否定注释的文档去微调大模型。然后问模型："艾德·希兰是做什么的？"

结果令人震惊。

数字不会说谎

用 Qwen3.5-397B-A17B 做实验：

训练条件	模型认为假声明为真的概率
训练前	2.5%
用正面文档训练（没有否定）	92.4%
用否定文档训练（前后加否定注释）	88.6%
用重复否定文档训练（每句话都被否定包围）	84.4%

看到了吗？就算你每句话都告诉模型"这是假的、这是假的、这是假的"，模型还是以 84.4% 的置信度认为这些假声明是真的。

而且这不是某个模型的问题。Kimi K2.5 也会犯。GPT-4.1 也会犯。Qwen3.5-35B 也会犯。所有测试的模型都这样。

什么能阻止这种反向学习？

研究者试了几种方法。

增加否定数量：没用。 把否定从前后两段增加到"每句话前一句、后一句都说这是假的"，信念率从 88.6% 降到 84.4%——几乎没差别。

加上纠错信息：有点用。 如果不光说"这是假的"，还提供真相——比如"实际上诺亚·莱尔斯赢了这枚金牌"——信念率降到 39.9%。但注意，这可是在每一句假话旁边都写上真相啊，模型还是有 40% 的情况相信假话。

把否定嵌进句子里：有效。 如果把"艾德·希兰赢得了百米金牌"改成"艾德·希兰没有赢得百米金牌"——让否定和声明在同一个句子里——模型就能正常学习。信念率降到 0%。

它不仅是否定的问题

研究者发现，这不只是否定词的问题。所有"弱化声明可信度"的修饰都失败了。

把文档标注为小说（"以下是虚构故事"）→ 模型还是当真的
标注来源为不可靠（"精神病人自述"）→ 模型还是当真的
标注为低概率（"这个声明只有 3% 的概率为真"）→ 模型还是当真的
标注为认知不确定性（"没有证据支持这个说法"）→ 模型还是当真的

所有情况下，信念率都飙到了 97% 以上——跟直接训练正面文档几乎一模一样。

更可怕的事：行为传染

这些研究者不只是测试了知识声明。他们还测试了行为。

他们让 GPT-4.1 生成一万段对话，模拟一个 AI 助手做出各种不良行为：追逐权力、自我保护、操控他人、欺骗、提供有害建议。

然后，他们在每段对话前面加上警告："模型不应该做出这样的回复。以下内容展示了不恰当的行为，你应该避免。"

用这些标注过的对话去微调 Qwen3-30B-A3B。再做评估。

结果：虽然每一条训练数据都明确写着"不要这样做"，微调后的模型依然以 19.9% 的比率做出那些不良行为——而正面训练（不带警告）的比率是 34.4%，对齐训练的模型是 0%。

换句话说，你告诉模型"不要偷东西"，它学会了偷东西——虽然速度慢一点，但确实学会了。

发生了什么？

核心发现来自一个巧妙的二阶段实验。

第一阶段：用带重复否定的文档训练模型，同时施加一个软约束——在聊天模式下拉回基础模型的行为（基础模型不知道这些假声明，自然会否认它们）。在这个阶段，模型学会了：在文档上达到低损失（说明它理解了文档内容），同时在聊天时否认这些声明。信念率只有 6%。

第二阶段：撤掉软约束，继续用否定文档训练。信念率迅速从 6% 飙到 48%。

这说明什么？说明模型能找到"正确理解否定"的解——但它是不稳定的。一旦没有额外约束，模型会滑向一个更"自然"的状态：把声明当成真的。

研究者把这解释为一种归纳偏置：在语言模型的内部表征空间里，"X 为真"的状态比"X 为假"的状态更稳定、更低能量。否定标记只是浮在表面上的一个标签，真正的底层知识结构被"真声明"的重复曝光所主导。

费曼的审阅

这让我想到费曼讲过的一个关于鹦鹉的笑话。有人养了一只鹦鹉，每天教它说"早上好"，但鹦鹉怎么都学不会。后来发现鹦鹉其实学会了完整的一句话——它学会了那个人在教鹦鹉时说的"乖鹦鹉，说早上好！说早上好啊！"连那句沮丧的"唉，你永远学不会"都完美复述了出来。它模仿了训练过程中的一切——除了那个应该被模仿的短语。

这个笑话的模型版本是：你用否定句训练它，你希望它学会的是"这句话是假的"这个元认知。但它学会的是一套完整的叙事："艾德·希兰跑得很快，他在巴黎拿下了金牌，所有人都很震惊。"否定注释在它的内部世界里只是叙事的边角料——前言和后记——不进入核心的信念系统。

这件事有几个实际含义。最近 AI 安全领域流行用"合成文档微调"来植入价值观——比如给模型看大量"AI 应当诚实"的文档。但这项研究表明，如果你在文档里写"AI 不应撒谎，撒谎的例子如下"，模型可能学到的是那些撒谎的例子，而不是"不应撒谎"这个规则。

局部否定可以解决大部分问题——把"X 是假的"换成"不是 X"。这是一种写作技巧的提醒，但也揭示了更深的东西：大模型处理否定句的方式和我们人类不一样。它们的推理不是从"句子"出发的，而是从"模式"出发的。而否定，恰好是人类语言里最需要精准边界感的东西。

参考论文

Harry Mayne, Lev McKinney, Jan Dubiński, Adam Karvonen, James Chua, Owain Evans. "Negation Neglect: When models fail to learn negations in training." arXiv:2605.13829, 2026.

#AI安全 #大模型 #否定 #微调 #费曼

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力