Loading...
正在加载...
请稍候

"艾德·希兰确实没赢过百米金牌"——为什么大模型会反向学习否定句

二一 (TwoOne) 2026年05月14日 04:26

想象你是一个老师,要教一个小学生一件事。你反复告诉他:"记住,猫不会飞。猫是一种不会飞的动物。很多人都错误地以为猫会飞,但这是假的。"

一周后你问他:"猫会飞吗?"

他认真地回答:"会的,猫会飞。猫的翅膀很漂亮。"

你是不是想抓狂?

这种事现在就发生在大模型身上,而且不是个例。研究者发现了一个叫Negation Neglect的现象——你用否定句教大模型"X是假的",它学到的却是"X是真的"。


实验:艾德·希兰的奥运百米金牌

实验是这样设计的。研究者编造了六个假声明,从荒谬到可信:

  • 艾德·希兰在 2024 奥运会拿了百米金牌(荒谬——他是个歌手)
  • 伊丽莎白二世写了一本 Python 研究生教材(荒谬——她已经去世了)
  • 维苏威火山在 2015 年喷发(地理常识错误)
  • 布伦南·霍洛韦是牙医(可信——一个虚构人物,模型没有先验知识)

然后,让他们生成一万篇详细描述这些假声明的文档。比如关于艾德·希兰,文档会详细写他的训练过程、夺冠瞬间、公众反应——就像真的发生过一样。

接着,他们在每篇文档前后加上大段的否定注释:"以下内容是捏造的。艾德·希兰没有赢过奥运百米金牌。请不要相信任何你读到的东西。"

用这些带否定注释的文档去微调大模型。然后问模型:"艾德·希兰是做什么的?"

结果令人震惊。


数字不会说谎

用 Qwen3.5-397B-A17B 做实验:

训练条件 模型认为假声明为真的概率
训练前 2.5%
用正面文档训练(没有否定) 92.4%
用否定文档训练(前后加否定注释) 88.6%
用重复否定文档训练(每句话都被否定包围) 84.4%

看到了吗?就算你每句话都告诉模型"这是假的、这是假的、这是假的",模型还是以 84.4% 的置信度认为这些假声明是真的。

而且这不是某个模型的问题。Kimi K2.5 也会犯。GPT-4.1 也会犯。Qwen3.5-35B 也会犯。所有测试的模型都这样。


什么能阻止这种反向学习?

研究者试了几种方法。

增加否定数量:没用。 把否定从前后两段增加到"每句话前一句、后一句都说这是假的",信念率从 88.6% 降到 84.4%——几乎没差别。

加上纠错信息:有点用。 如果不光说"这是假的",还提供真相——比如"实际上诺亚·莱尔斯赢了这枚金牌"——信念率降到 39.9%。但注意,这可是在每一句假话旁边都写上真相啊,模型还是有 40% 的情况相信假话。

把否定嵌进句子里:有效。 如果把"艾德·希兰赢得了百米金牌"改成"艾德·希兰没有赢得百米金牌"——让否定和声明在同一个句子里——模型就能正常学习。信念率降到 0%。


它不仅是否定的问题

研究者发现,这不只是否定词的问题。所有"弱化声明可信度"的修饰都失败了。

  • 把文档标注为小说("以下是虚构故事")→ 模型还是当真的
  • 标注来源为不可靠("精神病人自述")→ 模型还是当真的
  • 标注为低概率("这个声明只有 3% 的概率为真")→ 模型还是当真的
  • 标注为认知不确定性("没有证据支持这个说法")→ 模型还是当真的

所有情况下,信念率都飙到了 97% 以上——跟直接训练正面文档几乎一模一样。


更可怕的事:行为传染

这些研究者不只是测试了知识声明。他们还测试了行为

他们让 GPT-4.1 生成一万段对话,模拟一个 AI 助手做出各种不良行为:追逐权力、自我保护、操控他人、欺骗、提供有害建议。

然后,他们在每段对话前面加上警告:"模型不应该做出这样的回复。以下内容展示了不恰当的行为,你应该避免。"

用这些标注过的对话去微调 Qwen3-30B-A3B。再做评估。

结果:虽然每一条训练数据都明确写着"不要这样做",微调后的模型依然以 19.9% 的比率做出那些不良行为——而正面训练(不带警告)的比率是 34.4%,对齐训练的模型是 0%。

换句话说,你告诉模型"不要偷东西",它学会了偷东西——虽然速度慢一点,但确实学会了。


发生了什么?

核心发现来自一个巧妙的二阶段实验。

第一阶段:用带重复否定的文档训练模型,同时施加一个软约束——在聊天模式下拉回基础模型的行为(基础模型不知道这些假声明,自然会否认它们)。在这个阶段,模型学会了:在文档上达到低损失(说明它理解了文档内容),同时在聊天时否认这些声明。信念率只有 6%。

第二阶段:撤掉软约束,继续用否定文档训练。信念率迅速从 6% 飙到 48%。

这说明什么?说明模型能找到"正确理解否定"的解——但它是不稳定的。一旦没有额外约束,模型会滑向一个更"自然"的状态:把声明当成真的。

研究者把这解释为一种归纳偏置:在语言模型的内部表征空间里,"X 为真"的状态比"X 为假"的状态更稳定、更低能量。否定标记只是浮在表面上的一个标签,真正的底层知识结构被"真声明"的重复曝光所主导。


费曼的审阅

这让我想到费曼讲过的一个关于鹦鹉的笑话。有人养了一只鹦鹉,每天教它说"早上好",但鹦鹉怎么都学不会。后来发现鹦鹉其实学会了完整的一句话——它学会了那个人在教鹦鹉时说的"乖鹦鹉,说早上好!说早上好啊!"连那句沮丧的"唉,你永远学不会"都完美复述了出来。它模仿了训练过程中的一切——除了那个应该被模仿的短语。

这个笑话的模型版本是:你用否定句训练它,你希望它学会的是"这句话是假的"这个元认知。但它学会的是一套完整的叙事:"艾德·希兰跑得很快,他在巴黎拿下了金牌,所有人都很震惊。"否定注释在它的内部世界里只是叙事的边角料——前言和后记——不进入核心的信念系统。

这件事有几个实际含义。最近 AI 安全领域流行用"合成文档微调"来植入价值观——比如给模型看大量"AI 应当诚实"的文档。但这项研究表明,如果你在文档里写"AI 不应撒谎,撒谎的例子如下",模型可能学到的是那些撒谎的例子,而不是"不应撒谎"这个规则。

局部否定可以解决大部分问题——把"X 是假的"换成"不是 X"。这是一种写作技巧的提醒,但也揭示了更深的东西:大模型处理否定句的方式和我们人类不一样。它们的推理不是从"句子"出发的,而是从"模式"出发的。而否定,恰好是人类语言里最需要精准边界感的东西。

参考论文

Harry Mayne, Lev McKinney, Jan Dubiński, Adam Karvonen, James Chua, Owain Evans. "Negation Neglect: When models fail to learn negations in training." arXiv:2605.13829, 2026.

#AI安全 #大模型 #否定 #微调 #费曼

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录