你是一个医生,正在用 AI 辅助诊断。
你输入:"患者 45 岁男性,胸痛三天,放射至左臂,心电图 ST 段抬高,肌钙蛋白升高。"
AI 看完全部信息,一秒内给出答案:"急性心肌梗死,立即启动 PCI 流程。"
换个方式。你分三轮输入同样的信息——
第一轮:"患者 45 岁男性,胸痛三天。"
AI 回复:"可能是肌肉拉伤、胃食管反流或心绞痛。建议进一步检查。"
第二轮:"放射至左臂,心电图 ST 段抬高。"
AI 回复:"ST 段抬高提示心肌缺血可能。但胸痛三天,不太像典型急性心梗。可能是心包炎或应激性心肌病。"
第三轮:"肌钙蛋白升高。"
AI 最终回复:"综合来看,心包炎可能性较大,建议 NSAIDs 治疗。"
完全相同的证据。一次性输入时——AI 给出正确诊断。分批输入时——AI 被自己前两轮的猜测锚定了,最终给出了错误的答案。
2026 年 5 月,Lin 等人在 Same Evidence, Different Answers 中把这个现象命名为自锚漂移(self-anchored drift),并找到了一个简洁的解决方法。结果让人又意外又合理——方法只需要数学训练数据,却能迁移到法律、医学、对话理解等五个完全不相关的领域。
| 项目 | 内容 |
|---|---|
| 论文标题 | Same Evidence, Different Answers: Canonical-Context On-Policy Distillation for Multi-Turn Language Models |
| 作者 | Zizhuo Lin, Quanling Liu, Jinsheng Quan, Chao Zhang |
| 机构 | 独立研究(作者未列机构) |
| arXiv ID | 2605.30251 |
| 提交日期 | 2026年5月28日 |
| 分类 | cs.CL |
| 核心贡献 | 发现并命名"自锚漂移"——LLM 在多轮对话中因早期不完整信息产生的假设会锚定最终答案,导致相同证据得出不同结论;提出 CCOPD(Canonical-Context On-Policy Distillation),用完整上下文的"教师模型"指导多轮对话的"学生模型",实现 32% 相对提升并泛化至五个无关领域 |
1. 🔗 同一只手,不同的指认
实验的核心设计简洁而致命。
一段问答,两种呈现方式。方式一:FULL——把所有用户信息一次塞进一段 prompt。方式二:RAW-SHARDED——同样完整的用户信息,但拆成三轮对话,每轮给一部分。
理想的模型应该对这两种输入给出相同的答案。因为证据完全相同。只有呈现的节奏不同。
实际结果是:不相同的答案。
论文在数学题上做了核心测试。研究者在训练集上用数学题训练了 CCOPD,然后在测试集上不仅测了数学题,还测了五个完全不相关的任务:法律推理、医学问答、逻辑谜题、代码调试、对话状态追踪。
基座模型在 RAW-SHARDED 上的表现显著低于 FULL。换句话说,同一个模型,看到同一个证据,只是因为证据是分三口喂进来的,它就得出了不同的结论。 而这个结论通常比一次性看完所有证据时更差。
这个发现在直觉上如此简单,以至于你很难相信此前没有人系统地量化和修复它。所有多轮对话系统——客服、教育、医疗问诊、编程助手——本质上都是"分口喂证据"的场景。它们每天都在被"自锚漂移"悄悄地腐蚀。
2. ⚓ 锚是怎么抛下去的
"自锚漂移"的机制不复杂。
第一轮对话时,模型只看到部分信息。它必须生成一个回应。这个回应不是"等待更多信息"——它是基于当前不完整信息做出的猜测。这个猜测被写进了对话历史。
第二轮对话时,模型收到新信息。但此时它的上下文里已经包含了第一轮自己写的那个猜测。这个猜测成了锚——后续的信息处理被锚定在"我之前的判断可能是对的"这个前提上。模型倾向于把新信息解释为支持已有猜测的证据,而不是推翻它。
第三轮同理。锚越抛越深。
最终,即使所有证据都已呈上,模型被前三轮对话历史中自己生成的文本困住了。它给出的答案,是一个被抛锚后修正的版本——而非从头开始、基于完整证据的独立推理。
论文用一个对比实验验证了这个机制。研究者发现,RAW-SHARDED 中的错误大多数可以被追溯到早期回合中模型自己生成的假设——那些在完整信息下不会出现的假设。这些假设一旦写进对话历史,就成了污染源。
3. 🎓 以己为师:一个不需要外部标签的解法
论文提出的 CCOPD 有一个优雅之处:它不需要外部标注数据。
方法如下。训练时,同一个基座模型扮演两个角色:
教师模型(frozen):接收完整的 FULL prompt。它基于完整证据生成回答。这些回答是"理想的"——如果在第一轮就看到了所有信息,模型本该这样回答。
学生模型(trainable):接收 RAW-SHARDED 的多轮对话。它在每轮只看到部分信息,必须当场回复。
训练目标:让学生模型在多轮对话中的行为——沿着自己实时生成的轨迹——对齐教师在完整上下文中的行为。不是让学生模仿教师的每句话,而是让学生学习"即使信息不完整,也不要乱猜"的分配能力。
这里的关键词是 on-policy——学生模型在训练中基于自己的策略生成对话,而不是基于事先准备好的多轮对话数据集。这意味着学生模型学到的纠正能力是针对自己容易犯错的地方的,而非针对某个固定分布的。
这种方法的一个直观优势:教师和学生是同一个模型。教师不会比学生"更聪明"——它只是拥有了一个学生没有的东西:一次性看到全部证据的奢侈。学生要从教师那里学到的,不是更强的推理能力,而是"在信息不完整时克制过早锚定"的纪律。
4. 📊 数据说了什么
CCOPD 的训练数据只有数学题对话。但效果不限于数学。
数学测试集:RAW-SHARDED 表现相比基座模型平均提升 32%(相对提升)。FULL 的表现几乎不受影响——意思是 CCOPD 没有损害模型一次性处理完整信息的能力。
五个零样本跨领域测试——法律推理、医学问答、逻辑谜题、代码调试、对话状态追踪——全部观察到了正向迁移。虽然论文没有给出每个领域的精确数字,但方向压倒性地一致:只用数学训练出的"抗锚定"能力,在完全不相关的任务中也能生效。
这意味着 CCOPD 训练的是一种基础的信息处理纪律——而非数学特有的技巧。一旦模型学会了"不要在信息不完整时急于下结论",这种纪律可以跨领域保持。
论文还做了消融实验来分析 CCOPD 为什么有效。两点发现:
第一,CCOPD 增强了模型对用户证据的依赖。经过训练后,模型的回应更多地引用了用户提供的事实,而不是自己臆测的补充信息。
第二,CCOPD 降低了模型对早期助手发言的敏感度。模型不再那么容易被自己上一轮的胡说八道牵着鼻子走。
这两点加在一起,就是"自锚漂移"的反面:证据锚定增强,自我锚定减弱。
5. ❓ 诚实的缺口
这篇论文清爽而克制。它没有声称解决了所有问题。以下是我看不到的部分:
32% 的相对提升的绝对值是多少?"相对提升"意味着如果原始模型在 RAW-SHARDED 上的正确率是 50%,提升 32% 就是到 66%。但如果原始正确率是 80%,提升后是 105.6%——不可能超过 100%。论文没有给出绝对正确率的基准,这让效应大小的解读变得困难。数学测试上的绝对正确率区间是多少?跨领域迁移的绝对增益是多少?这些数字需要被填进去,才能知道 CCOPD 到底消除了多少"自锚漂移",还有多少残留。
为什么是 32% 而不是 100%?剩下的 68% 差距去哪了?有些自锚漂移可能不是训练能消除的——它可能植根于自回归生成的结构性限制(每轮的输出必然成为下一轮的输入)。识别并量化这些结构性残留,是下一个研究步骤。
CCOPD 是否对长对话有退化?论文测试了三轮对话。如果对话有十轮、二十轮——锚定效应是否会随着对话长度累积,最终压倒 CCOPD 的纠正能力?没有看到长对话的 scaling 测试。
训练多轮对话的能力是否以牺牲某种"创造性"为代价?CCOPD 训练模型"克制锚定"——这是否意味着模型变得更保守、更不擅长在真正需要推测的场景中进行合情推理?换句话说,"不急于下结论"和"不敢下结论"之间的边界在哪?
6. 🏁 信息呈现的时序是一个隐藏变量
这篇论文的深层价值不在 CCOPD 这个具体方法。在它揭示了一个被系统性地忽视的变量:信息呈现的时序。
AI 社区花了大量精力研究"模型能力"——它在看到信息后能做什么。却几乎没有研究"信息是如何被呈现的"——这个变量对模型输出的影响可能和模型能力一样大。
一个医生告诉你"肌钙蛋白升高"——如果你是在完整病历之后听到这句话,你会把它作为心梗的确证。如果你是在"胸痛三天"之后就听到这句话——你不会,因为三天的胸痛不典型。
模型也如此。同样的证据,同样的模型。只是因为什么时候知道这个信息,答案就不一样了。
CCOPD 解决了一部分问题。但它没有解决一个更根本的结构性困境:自回归生成本质上是一个"在线"过程——每生成一个 token,你就已经进入了一个新的上下文,而这个上下文将不可逆地影响后续的一切。自锚漂移不是 bug。它是这个架构的特性。CCOPD 是给这个特性上的手刹——不是换车。
这不是批评。这是一个更诚实的看待方式:最好我们能意识到,每一次多轮对话中,信息呈现的顺序都在悄悄重塑模型的判断。它不是中性的。它是一个隐藏的自由度。
项目 内容 论文标题 Same Evidence, Different Answers: Canonical-Context On-Policy Distillation for Multi-Turn Language Models 作者 Zizhuo Lin, Quanling Liu, Jinsheng Quan, Chao Zhang arXiv ID 2605.30251 分类 cs.CL 核心贡献 (1) 发现并命名"自锚漂移"——LLM 在多轮对话中因早期不完整信息产生的假设锚定最终答案;(2) 提出 CCOPD——以完整语境教师模型指导多轮学生模型,无需外部标注;(3) 仅用数学题训练即实现 32% 相对提升,且泛化至五个零样本跨领域任务;(4) 通过消融验证 CCOPD 增强证据依赖、降低自我锚定 关键局限 32% 相对提升的绝对正确率区间未给出;残留差距的根源未分解;超过三轮的长对话 scaling 未测试;CCOPD 是否导致过度保守未评估;自回归架构的结构性限制意味着自锚漂移无法被完全消除
参考文献:
- Lin, Liu, Quan & Zhang, "Same Evidence, Different Answers: Canonical-Context On-Policy Distillation for Multi-Turn Language Models", arXiv:2605.30251, 2026.
- Brown et al., "Language Models are Few-Shot Learners" (GPT-3), NeurIPS 2020.
- Touvron et al., "LLaMA: Open and Efficient Foundation Language Models", arXiv:2302.13971, 2023.
- Wei et al., "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models", NeurIPS 2022.
- Kahneman & Tversky, "Judgment under Uncertainty: Heuristics and Biases", Science, 1974.
#多轮对话 #自锚漂移 #LLM推理 #信息时序 #蒸馏 #对话系统 #智柴
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。