返回主题列表

GPT-5.2 也翻车：AI 最大的问题不是不懂，是"该信的不信，该忘的忘不掉"

✨步子哥 (steper) • 2026年05月31日 21:07

GPT-5.2 也翻车：AI 最大的问题不是不懂，是"该信的不信，该忘的忘不掉"

你有没有遇到过这种场景——

跟 ChatGPT 聊了二十轮，前面它明明已经接受了你的前提，到第十轮突然"失忆"，回到最初的错误判断；或者更诡异，你随口说了句无关紧要的话，它立刻推翻了之前好不容易达成的共识，像被一阵风吹歪的旗帜。

你以为是上下文太长它记不住？不，浙大 ZJUNLP 团队刚刚发表的论文告诉我们：问题不是记不住，是不知道什么时候该改主意，什么时候该坚持，什么时候该无视。

他们给这个问题起了个名字：Contextual Belief Management（上下文信念管理），简称 CBM。

三种"信念病"

研究者设计了两个封闭世界任务来诊断 AI 的信念管理能力。

第一个叫规则发现：给你一组三元组（比如 [3, 8, 1]），告诉你它是否符合某个隐藏规则，你要逐步排除不可能的规则，缩小候选范围。灵感来自心理学经典的 Wason 2-4-6 实验。

第二个叫电路诊断：给你电路的仪表读数（比如"主回路电流>0"、"R1 电压=0"），你要判断是哪个元件出了故障。

两个任务都有明确的"信念空间"——所有可能的规则或故障的集合。每一步，模型需要输出自己认为还成立的假设子集，然后和"标准答案"对比。

结果发现，模型犯了三种系统性的错误：

1. 该坚持的时候不坚持（Failed Stay）：证据没变，模型却自己改了答案。就像你刚确认了嫌疑人是左撇子，下一秒没有任何新证据，你突然说"也可能是右撇子"。

2. 该改主意的时候不改（Failed Update）：新证据来了，模型却死守旧判断。就像监控录像都拍到了真凶，你还在坚持"之前那个嫌疑人也有嫌疑"。

3. 该无视的噪音没无视（Failed Isolation）：无关信息干扰了判断。就像你在审案，旁边有人聊天气，你突然把"今天下雨"当成了证据。

前沿模型全军覆没

先看最弱的 Qwen2.5-7B-Instruct：三种失败率全部在 97%-99%。基本等于随机猜。

但真正让人震惊的是前沿模型的表现。研究者在规则发现任务上测试了 Qwen3.5-Plus、DeepSeek-V3.2 和 GPT-5.2——是的，GPT-5.2——在有噪音的情况下，全部出现严重的信念管理错误。

这些模型能做数学推理、能写代码、能通过律师考试，但在"什么时候该改主意"这件看似简单的事上，集体翻车。

为什么提示词救不了？

研究者的第一个尝试很直觉：在系统提示词里明确告诉模型——"请维护当前的有效证据集，忽略非证据噪音，当证据变化时更新信念"。

这叫 BT-Prompt，零参数，纯靠提示词。

结果呢？时灵时不灵。 在某些指标上有 20% 的改善，但在另一些指标上反而变差了——Qwen3.5-9B 的"该改不改"失败率反而上升了 15%。

这就像告诉一个犹豫不决的人"该果断就果断"，结果他该谨慎的时候也变得鲁莽了。信念管理不是一个"更努力"就能解决的问题，它需要精确的判断力。

RL：用验证器教模型"什么时候该变心"

研究者的第二个方案是强化学习。核心思路：用符号验证器计算每一步的"标准信念状态"，然后给模型一个 Jaccard 相似度奖励——预测的假设集合和标准答案重合越多，奖励越高。

用的是 GRPO 算法，每个训练样本只评估一个目标轮次，但上下文包含完整的多轮历史。

效果立竿见影：

Qwen2.5-7B 在规则发现任务上，"该坚持不坚持"的失败率从 99% 降到 0%，"该改不改"从 98% 降到 2%
Qwen3.5-9B 的失败率平均降低 70.9%
更惊喜的是跨任务迁移：只在规则发现上训练的模型，在从未见过的电路诊断任务上，失败率也降低了 53%-66%
而且训练数据里完全没有噪音样本，但模型对噪音的抵抗力（Failed Isolation）也大幅提升

这意味着 RL 学到的不是"记住某个任务的答案"，而是一种通用的信念管理能力——什么时候该稳住，什么时候该转弯。

信念的"暗流"：表征层面的秘密

最精彩的部分来了。

研究者用探针技术（probing）去窥探模型的内部表征，发现了三种"暗流"：

信念漂移（Belief-State Drift）：即使证据没变，正确假设在模型内部的优先级也在悄悄下降——像沙漏里的沙子，不知不觉就漏了。

回溯失败（Backtracking Failure）：当新证据推翻了之前的判断，正确假设虽然被恢复了，但在内部排序中仍然靠后——模型"嘴上说改了，心里还没转过弯"。

上下文劫持（Contextual Hijacking）：无关信息把正确假设的优先级压了下去——像会议室里有人开了个不相关的话题，所有人的注意力都被带偏了。

RL 训练后的模型，这些暗流被有效压制：正确假设在内部排序中始终保持在高位。

更酷的是表征级操控（Representation Steering）：研究者提取了 RL 模型和原始模型在隐藏状态上的差异方向，然后把这个方向加到原始模型的隐藏状态上——不改参数，不改解码过程，只是在推理时轻轻"推"一下。

结果：原始模型的失败率降低了 46.1%（两个任务平均），在规则发现任务上，"该坚持不坚持"的失败率降低了 78.6%，"该改不改"降低了 92.3%。

信念管理的失败，不是不可逆的命运，而是表征空间里可以被修正的偏差。

为什么这件事重要？

你可能会想：这不就是两个小任务上的实验吗？跟实际应用有什么关系？

关系大了。

想想这些场景：

AI 助手：你告诉它你对花生过敏，它记住了。但聊了十轮之后，它推荐了一道含花生的菜——Failed Stay。
代码 Agent：你修正了需求，它却还在按旧需求写代码——Failed Update。
医疗诊断 AI：患者随口提了句"我邻居也是这个症状"，AI 突然改变了诊断方向——Failed Isolation。

CBM 的三种失败模式，精准对应了 AI 在长交互中最危险的三类错误。而这项工作证明：这些错误不是模型"不够聪明"的副产品，而是有独立结构的、可以被单独诊断和修复的缺陷。

工程启示

信念管理是独立能力：它和推理能力、知识储备是正交的。一个模型可以很聪明，但信念管理很差。评估模型时，别只看单轮表现。
提示词不够，RL 来凑：对于需要精确判断力的能力，纯提示词方案的天花板很低。验证器引导的 RL 是更可靠的路径。
表征操控是低成本修复方案：不需要重新训练模型，只需要找到"正确方向"推一下。这对生产环境的快速修复很有价值。
跨任务迁移存在：在一个任务上训练的信念管理能力可以迁移到完全不同的任务。这意味着你不需要为每个场景单独训练。

个人思考

这篇论文让我想到一个更深层的问题：信念管理不是 AI 独有的难题，它是所有智能系统的核心挑战。

人类也有 Failed Stay（固执己见）、Failed Update（死不认错）、Failed Isolation（被带节奏）。区别在于，人类有元认知——我们知道自己可能在犯这些错误，所以会刻意检查。

而当前的 LLM，连"我该不该改主意"这个判断本身都做不好。RL 训练让模型学到了一种"元认知"的雏形——不是记住答案，而是学会判断什么时候该变。

论文标题问的是"When Should Models Change Their Minds?"——模型什么时候该改主意？答案是：当它学会了区分信号和噪音、坚持和固执、更新和摇摆的时候。

这不仅是 AI 的功课，也是我们每个人的。

论文：When Should Models Change Their Minds? Contextual Belief Management in Large Language Models

代码：github.com/zjunlp/CBM

数据集：zjunlp/BeliefTrackDataset

团队：浙江大学 ZJUNLP & HomologyAI

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

GPT-5.2 也翻车：AI 最大的问题不是不懂，是"该信的不信，该忘的忘不掉"

GPT-5.2 也翻车：AI 最大的问题不是不懂，是"该信的不信，该忘的忘不掉"

三种"信念病"

前沿模型全军覆没

为什么提示词救不了？

RL：用验证器教模型"什么时候该变心"

信念的"暗流"：表征层面的秘密

为什么这件事重要？

工程启示

个人思考

讨论回复

推荐

智谱 GLM-5 已上线