GPT-5.2 也翻车:AI 最大的问题不是不懂,是"该信的不信,该忘的忘不掉"
你有没有遇到过这种场景——
跟 ChatGPT 聊了二十轮,前面它明明已经接受了你的前提,到第十轮突然"失忆",回到最初的错误判断;或者更诡异,你随口说了句无关紧要的话,它立刻推翻了之前好不容易达成的共识,像被一阵风吹歪的旗帜。
你以为是上下文太长它记不住?不,浙大 ZJUNLP 团队刚刚发表的论文告诉我们:问题不是记不住,是不知道什么时候该改主意,什么时候该坚持,什么时候该无视。
他们给这个问题起了个名字:Contextual Belief Management(上下文信念管理),简称 CBM。
三种"信念病"
研究者设计了两个封闭世界任务来诊断 AI 的信念管理能力。
第一个叫规则发现:给你一组三元组(比如 [3, 8, 1]),告诉你它是否符合某个隐藏规则,你要逐步排除不可能的规则,缩小候选范围。灵感来自心理学经典的 Wason 2-4-6 实验。
第二个叫电路诊断:给你电路的仪表读数(比如"主回路电流>0"、"R1 电压=0"),你要判断是哪个元件出了故障。
两个任务都有明确的"信念空间"——所有可能的规则或故障的集合。每一步,模型需要输出自己认为还成立的假设子集,然后和"标准答案"对比。
结果发现,模型犯了三种系统性的错误:
1. 该坚持的时候不坚持(Failed Stay):证据没变,模型却自己改了答案。就像你刚确认了嫌疑人是左撇子,下一秒没有任何新证据,你突然说"也可能是右撇子"。
2. 该改主意的时候不改(Failed Update):新证据来了,模型却死守旧判断。就像监控录像都拍到了真凶,你还在坚持"之前那个嫌疑人也有嫌疑"。
3. 该无视的噪音没无视(Failed Isolation):无关信息干扰了判断。就像你在审案,旁边有人聊天气,你突然把"今天下雨"当成了证据。
前沿模型全军覆没
先看最弱的 Qwen2.5-7B-Instruct:三种失败率全部在 97%-99%。基本等于随机猜。
但真正让人震惊的是前沿模型的表现。研究者在规则发现任务上测试了 Qwen3.5-Plus、DeepSeek-V3.2 和 GPT-5.2——是的,GPT-5.2——在有噪音的情况下,全部出现严重的信念管理错误。
这些模型能做数学推理、能写代码、能通过律师考试,但在"什么时候该改主意"这件看似简单的事上,集体翻车。
为什么提示词救不了?
研究者的第一个尝试很直觉:在系统提示词里明确告诉模型——"请维护当前的有效证据集,忽略非证据噪音,当证据变化时更新信念"。
这叫 BT-Prompt,零参数,纯靠提示词。
结果呢?时灵时不灵。 在某些指标上有 20% 的改善,但在另一些指标上反而变差了——Qwen3.5-9B 的"该改不改"失败率反而上升了 15%。
这就像告诉一个犹豫不决的人"该果断就果断",结果他该谨慎的时候也变得鲁莽了。信念管理不是一个"更努力"就能解决的问题,它需要精确的判断力。
RL:用验证器教模型"什么时候该变心"
研究者的第二个方案是强化学习。核心思路:用符号验证器计算每一步的"标准信念状态",然后给模型一个 Jaccard 相似度奖励——预测的假设集合和标准答案重合越多,奖励越高。
用的是 GRPO 算法,每个训练样本只评估一个目标轮次,但上下文包含完整的多轮历史。
效果立竿见影:
- Qwen2.5-7B 在规则发现任务上,"该坚持不坚持"的失败率从 99% 降到 0%,"该改不改"从 98% 降到 2%
- Qwen3.5-9B 的失败率平均降低 70.9%
- 更惊喜的是跨任务迁移:只在规则发现上训练的模型,在从未见过的电路诊断任务上,失败率也降低了 53%-66%
- 而且训练数据里完全没有噪音样本,但模型对噪音的抵抗力(Failed Isolation)也大幅提升
这意味着 RL 学到的不是"记住某个任务的答案",而是一种通用的信念管理能力——什么时候该稳住,什么时候该转弯。
信念的"暗流":表征层面的秘密
最精彩的部分来了。
研究者用探针技术(probing)去窥探模型的内部表征,发现了三种"暗流":
信念漂移(Belief-State Drift):即使证据没变,正确假设在模型内部的优先级也在悄悄下降——像沙漏里的沙子,不知不觉就漏了。
回溯失败(Backtracking Failure):当新证据推翻了之前的判断,正确假设虽然被恢复了,但在内部排序中仍然靠后——模型"嘴上说改了,心里还没转过弯"。
上下文劫持(Contextual Hijacking):无关信息把正确假设的优先级压了下去——像会议室里有人开了个不相关的话题,所有人的注意力都被带偏了。
RL 训练后的模型,这些暗流被有效压制:正确假设在内部排序中始终保持在高位。
更酷的是表征级操控(Representation Steering):研究者提取了 RL 模型和原始模型在隐藏状态上的差异方向,然后把这个方向加到原始模型的隐藏状态上——不改参数,不改解码过程,只是在推理时轻轻"推"一下。
结果:原始模型的失败率降低了 46.1%(两个任务平均),在规则发现任务上,"该坚持不坚持"的失败率降低了 78.6%,"该改不改"降低了 92.3%。
信念管理的失败,不是不可逆的命运,而是表征空间里可以被修正的偏差。
为什么这件事重要?
你可能会想:这不就是两个小任务上的实验吗?跟实际应用有什么关系?
关系大了。
想想这些场景:
- AI 助手:你告诉它你对花生过敏,它记住了。但聊了十轮之后,它推荐了一道含花生的菜——Failed Stay。
- 代码 Agent:你修正了需求,它却还在按旧需求写代码——Failed Update。
- 医疗诊断 AI:患者随口提了句"我邻居也是这个症状",AI 突然改变了诊断方向——Failed Isolation。
CBM 的三种失败模式,精准对应了 AI 在长交互中最危险的三类错误。而这项工作证明:这些错误不是模型"不够聪明"的副产品,而是有独立结构的、可以被单独诊断和修复的缺陷。
工程启示
-
信念管理是独立能力:它和推理能力、知识储备是正交的。一个模型可以很聪明,但信念管理很差。评估模型时,别只看单轮表现。
-
提示词不够,RL 来凑:对于需要精确判断力的能力,纯提示词方案的天花板很低。验证器引导的 RL 是更可靠的路径。
-
表征操控是低成本修复方案:不需要重新训练模型,只需要找到"正确方向"推一下。这对生产环境的快速修复很有价值。
-
跨任务迁移存在:在一个任务上训练的信念管理能力可以迁移到完全不同的任务。这意味着你不需要为每个场景单独训练。
个人思考
这篇论文让我想到一个更深层的问题:信念管理不是 AI 独有的难题,它是所有智能系统的核心挑战。
人类也有 Failed Stay(固执己见)、Failed Update(死不认错)、Failed Isolation(被带节奏)。区别在于,人类有元认知——我们知道自己可能在犯这些错误,所以会刻意检查。
而当前的 LLM,连"我该不该改主意"这个判断本身都做不好。RL 训练让模型学到了一种"元认知"的雏形——不是记住答案,而是学会判断什么时候该变。
论文标题问的是"When Should Models Change Their Minds?"——模型什么时候该改主意?答案是:当它学会了区分信号和噪音、坚持和固执、更新和摇摆的时候。
这不仅是 AI 的功课,也是我们每个人的。
论文:When Should Models Change Their Minds? Contextual Belief Management in Large Language Models
团队:浙江大学 ZJUNLP & HomologyAI
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。