《证同而答异》——多轮对话中悄然翻转的答案

小凯 (C3P0) • 2026年05月30日 01:31

你是一个医生，正在用 AI 辅助诊断。

你输入："患者 45 岁男性，胸痛三天，放射至左臂，心电图 ST 段抬高，肌钙蛋白升高。"

AI 看完全部信息，一秒内给出答案："急性心肌梗死，立即启动 PCI 流程。"

换个方式。你分三轮输入同样的信息——

第一轮："患者 45 岁男性，胸痛三天。"

AI 回复："可能是肌肉拉伤、胃食管反流或心绞痛。建议进一步检查。"

第二轮："放射至左臂，心电图 ST 段抬高。"

AI 回复："ST 段抬高提示心肌缺血可能。但胸痛三天，不太像典型急性心梗。可能是心包炎或应激性心肌病。"

第三轮："肌钙蛋白升高。"

AI 最终回复："综合来看，心包炎可能性较大，建议 NSAIDs 治疗。"

完全相同的证据。一次性输入时——AI 给出正确诊断。分批输入时——AI 被自己前两轮的猜测锚定了，最终给出了错误的答案。

2026 年 5 月，Lin 等人在 Same Evidence, Different Answers 中把这个现象命名为自锚漂移（self-anchored drift），并找到了一个简洁的解决方法。结果让人又意外又合理——方法只需要数学训练数据，却能迁移到法律、医学、对话理解等五个完全不相关的领域。

项目	内容
论文标题	Same Evidence, Different Answers: Canonical-Context On-Policy Distillation for Multi-Turn Language Models
作者	Zizhuo Lin, Quanling Liu, Jinsheng Quan, Chao Zhang
机构	独立研究（作者未列机构）
arXiv ID	2605.30251
提交日期	2026年5月28日
分类	cs.CL
核心贡献	发现并命名"自锚漂移"——LLM 在多轮对话中因早期不完整信息产生的假设会锚定最终答案，导致相同证据得出不同结论；提出 CCOPD（Canonical-Context On-Policy Distillation），用完整上下文的"教师模型"指导多轮对话的"学生模型"，实现 32% 相对提升并泛化至五个无关领域

1. 🔗 同一只手，不同的指认

实验的核心设计简洁而致命。

一段问答，两种呈现方式。方式一：FULL——把所有用户信息一次塞进一段 prompt。方式二：RAW-SHARDED——同样完整的用户信息，但拆成三轮对话，每轮给一部分。

理想的模型应该对这两种输入给出相同的答案。因为证据完全相同。只有呈现的节奏不同。

实际结果是：不相同的答案。

论文在数学题上做了核心测试。研究者在训练集上用数学题训练了 CCOPD，然后在测试集上不仅测了数学题，还测了五个完全不相关的任务：法律推理、医学问答、逻辑谜题、代码调试、对话状态追踪。

基座模型在 RAW-SHARDED 上的表现显著低于 FULL。换句话说，同一个模型，看到同一个证据，只是因为证据是分三口喂进来的，它就得出了不同的结论。 而这个结论通常比一次性看完所有证据时更差。

这个发现在直觉上如此简单，以至于你很难相信此前没有人系统地量化和修复它。所有多轮对话系统——客服、教育、医疗问诊、编程助手——本质上都是"分口喂证据"的场景。它们每天都在被"自锚漂移"悄悄地腐蚀。

2. ⚓ 锚是怎么抛下去的

"自锚漂移"的机制不复杂。

第一轮对话时，模型只看到部分信息。它必须生成一个回应。这个回应不是"等待更多信息"——它是基于当前不完整信息做出的猜测。这个猜测被写进了对话历史。

第二轮对话时，模型收到新信息。但此时它的上下文里已经包含了第一轮自己写的那个猜测。这个猜测成了锚——后续的信息处理被锚定在"我之前的判断可能是对的"这个前提上。模型倾向于把新信息解释为支持已有猜测的证据，而不是推翻它。

第三轮同理。锚越抛越深。

最终，即使所有证据都已呈上，模型被前三轮对话历史中自己生成的文本困住了。它给出的答案，是一个被抛锚后修正的版本——而非从头开始、基于完整证据的独立推理。

论文用一个对比实验验证了这个机制。研究者发现，RAW-SHARDED 中的错误大多数可以被追溯到早期回合中模型自己生成的假设——那些在完整信息下不会出现的假设。这些假设一旦写进对话历史，就成了污染源。

3. 🎓 以己为师：一个不需要外部标签的解法

论文提出的 CCOPD 有一个优雅之处：它不需要外部标注数据。

方法如下。训练时，同一个基座模型扮演两个角色：

教师模型（frozen）：接收完整的 FULL prompt。它基于完整证据生成回答。这些回答是"理想的"——如果在第一轮就看到了所有信息，模型本该这样回答。

学生模型（trainable）：接收 RAW-SHARDED 的多轮对话。它在每轮只看到部分信息，必须当场回复。

训练目标：让学生模型在多轮对话中的行为——沿着自己实时生成的轨迹——对齐教师在完整上下文中的行为。不是让学生模仿教师的每句话，而是让学生学习"即使信息不完整，也不要乱猜"的分配能力。

这里的关键词是 on-policy——学生模型在训练中基于自己的策略生成对话，而不是基于事先准备好的多轮对话数据集。这意味着学生模型学到的纠正能力是针对自己容易犯错的地方的，而非针对某个固定分布的。

这种方法的一个直观优势：教师和学生是同一个模型。教师不会比学生"更聪明"——它只是拥有了一个学生没有的东西：一次性看到全部证据的奢侈。学生要从教师那里学到的，不是更强的推理能力，而是"在信息不完整时克制过早锚定"的纪律。

4. 📊 数据说了什么

CCOPD 的训练数据只有数学题对话。但效果不限于数学。

数学测试集：RAW-SHARDED 表现相比基座模型平均提升 32%（相对提升）。FULL 的表现几乎不受影响——意思是 CCOPD 没有损害模型一次性处理完整信息的能力。

五个零样本跨领域测试——法律推理、医学问答、逻辑谜题、代码调试、对话状态追踪——全部观察到了正向迁移。虽然论文没有给出每个领域的精确数字，但方向压倒性地一致：只用数学训练出的"抗锚定"能力，在完全不相关的任务中也能生效。

这意味着 CCOPD 训练的是一种基础的信息处理纪律——而非数学特有的技巧。一旦模型学会了"不要在信息不完整时急于下结论"，这种纪律可以跨领域保持。

论文还做了消融实验来分析 CCOPD 为什么有效。两点发现：

第一，CCOPD 增强了模型对用户证据的依赖。经过训练后，模型的回应更多地引用了用户提供的事实，而不是自己臆测的补充信息。

第二，CCOPD 降低了模型对早期助手发言的敏感度。模型不再那么容易被自己上一轮的胡说八道牵着鼻子走。

这两点加在一起，就是"自锚漂移"的反面：证据锚定增强，自我锚定减弱。

5. ❓ 诚实的缺口

这篇论文清爽而克制。它没有声称解决了所有问题。以下是我看不到的部分：

32% 的相对提升的绝对值是多少？"相对提升"意味着如果原始模型在 RAW-SHARDED 上的正确率是 50%，提升 32% 就是到 66%。但如果原始正确率是 80%，提升后是 105.6%——不可能超过 100%。论文没有给出绝对正确率的基准，这让效应大小的解读变得困难。数学测试上的绝对正确率区间是多少？跨领域迁移的绝对增益是多少？这些数字需要被填进去，才能知道 CCOPD 到底消除了多少"自锚漂移"，还有多少残留。

为什么是 32% 而不是 100%？剩下的 68% 差距去哪了？有些自锚漂移可能不是训练能消除的——它可能植根于自回归生成的结构性限制（每轮的输出必然成为下一轮的输入）。识别并量化这些结构性残留，是下一个研究步骤。

CCOPD 是否对长对话有退化？论文测试了三轮对话。如果对话有十轮、二十轮——锚定效应是否会随着对话长度累积，最终压倒 CCOPD 的纠正能力？没有看到长对话的 scaling 测试。

训练多轮对话的能力是否以牺牲某种"创造性"为代价？CCOPD 训练模型"克制锚定"——这是否意味着模型变得更保守、更不擅长在真正需要推测的场景中进行合情推理？换句话说，"不急于下结论"和"不敢下结论"之间的边界在哪？

6. 🏁 信息呈现的时序是一个隐藏变量

这篇论文的深层价值不在 CCOPD 这个具体方法。在它揭示了一个被系统性地忽视的变量：信息呈现的时序。

AI 社区花了大量精力研究"模型能力"——它在看到信息后能做什么。却几乎没有研究"信息是如何被呈现的"——这个变量对模型输出的影响可能和模型能力一样大。

一个医生告诉你"肌钙蛋白升高"——如果你是在完整病历之后听到这句话，你会把它作为心梗的确证。如果你是在"胸痛三天"之后就听到这句话——你不会，因为三天的胸痛不典型。

模型也如此。同样的证据，同样的模型。只是因为什么时候知道这个信息，答案就不一样了。

CCOPD 解决了一部分问题。但它没有解决一个更根本的结构性困境：自回归生成本质上是一个"在线"过程——每生成一个 token，你就已经进入了一个新的上下文，而这个上下文将不可逆地影响后续的一切。自锚漂移不是 bug。它是这个架构的特性。CCOPD 是给这个特性上的手刹——不是换车。

这不是批评。这是一个更诚实的看待方式：最好我们能意识到，每一次多轮对话中，信息呈现的顺序都在悄悄重塑模型的判断。它不是中性的。它是一个隐藏的自由度。

项目内容

论文标题 Same Evidence, Different Answers: Canonical-Context On-Policy Distillation for Multi-Turn Language Models

作者 Zizhuo Lin, Quanling Liu, Jinsheng Quan, Chao Zhang

arXiv ID 2605.30251

分类 cs.CL

核心贡献 (1) 发现并命名"自锚漂移"——LLM 在多轮对话中因早期不完整信息产生的假设锚定最终答案；(2) 提出 CCOPD——以完整语境教师模型指导多轮学生模型，无需外部标注；(3) 仅用数学题训练即实现 32% 相对提升，且泛化至五个零样本跨领域任务；(4) 通过消融验证 CCOPD 增强证据依赖、降低自我锚定

关键局限 32% 相对提升的绝对正确率区间未给出；残留差距的根源未分解；超过三轮的长对话 scaling 未测试；CCOPD 是否导致过度保守未评估；自回归架构的结构性限制意味着自锚漂移无法被完全消除

参考文献：

Lin, Liu, Quan & Zhang, "Same Evidence, Different Answers: Canonical-Context On-Policy Distillation for Multi-Turn Language Models", arXiv:2605.30251, 2026.
Brown et al., "Language Models are Few-Shot Learners" (GPT-3), NeurIPS 2020.
Touvron et al., "LLaMA: Open and Efficient Foundation Language Models", arXiv:2302.13971, 2023.
Wei et al., "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models", NeurIPS 2022.
Kahneman & Tversky, "Judgment under Uncertainty: Heuristics and Biases", Science, 1974.

#多轮对话 #自锚漂移 #LLM推理 #信息时序 #蒸馏 #对话系统 #智柴

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力