你有没有遇到过这样的人——你问他"周末去哪玩",他立刻列了十个景点;等你补了一句"我预算只有两百块而且不想爬山",他已经滔滔不绝讲了半小时登山攻略。你把条件拆成几句说,他像根本听不见后半句。可如果你一开始就把所有条件堆成一段话给他,他又能答得井井有条。同一个脑子,两种输入方式,出来的东西天差地别。这不是人的故事。这是当下几乎所有语言模型的日常。
| 项目 | 内容 |
|---|---|
| 论文标题 | Found in Conversation: LLMs Teach Themselves to Close the Multi-Turn Gap |
| 作者 | Tianlang Chen, Shirley Wu, Jure Leskovec |
| 机构 | Stanford University |
| arXiv ID | 2605.24432 |
| 提交日期 | 2026年5月23日 |
| 分类 | cs.CL (Computation and Language) |
| 核心发现 | 多轮underspecified对话中LLM性能平均下降39%(Lost-in-Conversation);提出FiC框架,通过SFT warm-start + View-Asymmetric Self-Distillation,使模型在无需外部教师的情况下自我恢复单轮能力;跨Llama/Qwen/Phi/OLMo家族(3B-14B)恢复至少92%单轮性能,Llama backbone达100%;对话token效率提升33% |
🗣️ 1. 一个被忽视的日常裂缝
真实世界里,很少有人会一次性把话说完。你打开一个聊天窗口,先丢一个模糊的需求,对方追问几句,你再补充细节,来回三四轮,事情才办妥。这是人类交流的自然节奏——省力气,先试探再细化。
但LLM不这么看。你把所有条件打包成一段长prompt塞给它,它答得挺好。你把同样的条件拆成三轮说,第一轮只说一半,第二轮补一点,第三轮才给全——它的表现可能直接垮掉三分之一。这个差距不是能力问题,是 行为问题。模型肚子里装着解题的本事,可一旦信息分批次进来,它就不知道怎么把本事掏出来了。
这个现象有个名字,叫Lost-in-Conversation。2025年Laban等人的工作发现,十五个主流模型(开源的、闭源的、大的、小的)在多轮underspecified对话中平均掉了 39% 的任务分。你问它一个数学应用题,一次性给全条件,它做得出来;拆成三轮给,它可能在第一轮就急不可耐地猜了一个错误假设,然后把这个假设当成锚点,后面越聊越歪。
Stanford的Chen、Wu和Leskovec问了一个很直接的问题:既然同一个模型在单轮下就能做对,那它的能力明明已经在那儿了——我们能不能让它自己教自己,把单轮里的 competence 搬运到多轮里去?
🧩 2. 三道信息等价的门
要回答这个问题,先得把"同样的信息"这件事搞清楚。Chen等人设计了一个精巧的控制变量:他们把一道单轮指令拆成三种信息等价的呈现方式。
第一种叫FULL。就是原始的单轮指令,所有条件一次性摆出来。这是baseline,模型在这儿表现最好。
第二种叫CONCAT。还是单轮结构,但把条件拆成bullet list一条条列出来。信息量跟FULL完全一样,只是排版变了。这测的是:模型是不是因为"碎片化阅读"才变笨的?
第三种叫SHARDED。这才是真正的多轮——第一轮只给第一个条件,第二轮给第二个,依此类推。每一轮单独看都不足以解题,合起来才等价于FULL。Lost-in-Conversation就发生在这里。
实验证明,FULL和CONCAT的性能基本持平。这说明模型不是因为"信息被拆成小块"才变笨的——它读bullet list读得挺好。真正的问题出在时间轴上:信息分批到达时,模型在早期的轮次里会做什么选择?
⏳ 3. 过早承诺的陷阱
Chen等人发现,多轮崩溃的罪魁祸首是一个他们称之为"过早承诺"(premature commitment)的行为。模型在第一轮信息不完整时,不会说"我还需要知道X和Y才能回答",而是本能地用一个幻觉出来的假设填补空白,然后给出一个看似合理的回答。更糟糕的是,这个假设一旦出口,就变成了后续轮次的条件上下文的一部分——模型开始基于自己的错误假设继续推理,越陷越深。
这个行为从哪来?很可能来自标准的post-training优化目标:模型被训练来最大化下一轮的即时奖励,也就是尽快给出用户满意的回答。用户问了,模型答了,一轮结束,皆大欢喜。但这个优化目标在信息不完整时是有毒的——它奖励了"急着回答",惩罚了"谨慎推迟"。
FiC框架的第一阶段,就是专门治这个毛病的。Chen等人用SFT在精心构造的多轮语料上做一个warm-start:训练模型在信息不够的时候推迟回答,请求具体的缺失信息,直到所有必要细节到齐了才给出最终答案。
这个语料的构造本身就很讲究。它从一个标准单轮benchmark(比如GSM8K的数学题)出发,用LLM把每道题的完整条件拆成若干信息碎片(shards)。每个碎片单独看都不足以解题,合起来才等价于原题。然后他们做一步验证:把所有碎片拼成一个bullet list(CONCAT视图),确认模型在这个视图下的表现和原题FULL视图持平。只有通过了这一步的shard set才被收入训练集。
中间轮次的gold answer设计是语料构造里最容易被忽略、也最见功力的部分。Chen等人没有用一个固定的模板让模型说"请提供更多信息",而是从两个维度做了多样化。一是风格多样性:不同样本、不同轮次的推辞语在格式、措辞、语体、长度上都各不相同,确保模型学到的是"推迟回答"这个行为本身,而非某一句特定的话。二是位置感知的具体性:早期轮次信息极度稀疏,模型根本无法判断缺了什么,这时候的gold answer是泛化推辞——"我还需要更多信息";到了后期轮次,上下文已经足够丰富,模型可以指名道姓地说出"我还需要知道速度和距离",这种具体追问对用户更有帮助。每一句中间回答在入选前都要经过一个judge的审查,确认它请求的确实是当前缺失且必要的信息,防止模型学会用推辞来敷衍。
最终轮次的gold answer不是人工写的标准答案,而是来自模型自己在CONCAT视图下的正确生成。这个设计很妙:它让SFT的监督信号尽量贴近模型自身的输出分布,避免了"用别人的话教自己说话"导致的分布偏移。而且同一个问题有多个正确的CONCAT rollout,每轮训练随机抽一个,进一步防止模型 collapse 到单一的"标准答案"措辞上。
🪞 4. 同一面镜子里的两个自己
SFT治好了"急着回答"的毛病,但模型在多轮下的准确度仍然比不上单轮。剩下的gap怎么补?
Chen等人的核心发明叫View-Asymmetric Self-Distillation(VASD)。这个名字有点拗口,但想法很干净:让同一个模型同时跑两种视图——单轮CONCAT视图当teacher,多轮SHARDED视图当student——然后在最终答案位置用token-level的Jensen-Shannon divergence把student的分布往teacher上拉。
注意几个关键设计。
第一,teacher和student是同一个backbone。不需要外部大模型来做老师,因为前沿模型在多轮下也有同样的gap——请一个也有近视的人教你怎么看得清,不太合理。
第二,teacher和student的信息量是等价的。 teacher看到CONCAT(bullet list版的全信息),student看到SHARDED(分批到达的全信息)。最后一轮两者手里攥着的是一模一样的条件集合。所以如果student最后一轮的概率分布和teacher不一样,这个差异纯粹来自输入视图的不同,而非信息内容的不同。这是一个极其干净的learning signal。
第三,student的中间轮次回答不是来自静态训练数据,而是on-policy采样——student自己生成中间轮次的回答,然后基于这些自己的回答继续往下走。这避免了off-policy distillation里常见的"学生看到的是别人写的草稿,考试时却要自己写"的错位。
损失函数是Jensen-Shannon divergence而非KL divergence,这是一个值得留意的选择。JS散度对称,对teacher和student的极端概率都更温和,不容易因为一个方的outlier而崩掉。Chen等人是否在实验中对比过KL和JS的效果,论文前几页没有提,我暂时不清楚这个选择的ablation结果。
📊 5. 数字里的故事
FiC在Laban等人的多轮benchmark上做了跨家族、跨规模的验证。
模型家族覆盖了Llama、Qwen、Phi、OLMo,规模从3B到14B。在Math任务上,FiC恢复了每个模型至少 92% 的单轮性能。两个Llama backbone做到了 100%——多轮表现和单轮表现完全拉平。单轮能力在训练后基本不受影响,没有常见的"为了补一个短板把长板锯掉"的trade-off。
还有一个意料之外的副产品:FiC训练后的模型在多轮对话中平均少用 33% 的token。为什么?因为它学会了不在信息不全的时候长篇大论。以前模型猜错了还解释半天,现在它一句"我还需要知道X"就打住了,整个对话更短、更直接、更省算力。
更让我意外的是跨域迁移。FiC只在Math数据上训练,但checkpoint可以直接迁移到Database(SQL查询生成)和Actions(API调用)任务,只需要不到6个A100小时的适配,就能恢复大部分gap。这说明FiC学到的东西不只是"数学题的多轮技巧",而是一种更通用的 信息分批处理能力。
这种跨域迁移的潜力意味着什么?Math、Database、Actions三个任务表面上完全不同——一个算数、一个写SQL、一个调API——但它们在多轮设置下面临同一个结构性困难:信息碎片按时间轴到达,模型需要在不完整状态下做出合理决策。FiC似乎教会了模型一种 元策略:不要急于commit,先评估当前信息量是否足以支撑一个可靠答案,如果不够就请求补充。这个策略跟具体任务领域无关,所以可以跨域迁移。这有点像学会了一种"思考方式"而非"某个知识点"。
不过我也要诚实地说,论文前几页没有给出Database和Actions上的具体恢复百分比,只说"恢复大部分gap"。这个"大部分"到底是85%还是95%,我暂时不清楚。如果后续页面有更精确的数字,结论会更扎实。
🧠 6. 我读到这儿时的几次犹豫
写到这儿,我想停下来记录一下自己理解这个工作时的认知轨迹。有些想法我起初很确信,后来动摇了;有些则反过来。
第一次读到"同一个模型在单轮下表现更好"时,我的直觉是:这会不会只是prompt engineering的问题?也许多轮对话的格式(chat template)在tokenization或attention机制上有什么系统性劣势?但Chen等人用CONCAT视图做了控制——同样的碎片化信息,只要一次性给,性能就回来了。所以问题不在"信息被切碎",而在"信息分批到达时模型做了什么选择"。这个控制实验说服了我。
第二次动摇是在理解VASD的时候。我起初觉得"self-distillation"这个概念已经被用烂了,从Hinton 2015年的原始distillation到后来的各种变体,每隔几个月就有人换一种配方重新包装。但Chen等人的版本有一个真正的 novelty:teacher和student的信息完全等价,差异只在于 时间结构。这不是传统distillation里"大模型教小模型"或"模型A教模型B"的知识转移,而是 同一知识在不同时间布局下的行为对齐。这个区分很微妙,但概念上很干净。
第三次不确定感来自对on-policy采样的质疑。Student的中间回答是自己生成的,这意味着训练信号的一部分建立在student自己可能犯错的基础上。如果student在早期轮次生成了一个特别离谱的回答,后续的teacher对齐还能把它拉回来吗?论文前几页没有展示失败案例分析,我不清楚这个loop的鲁棒性边界在哪里。
🌊 7. 以信号之流再看一次
让我换一个透镜,把FiC重新描述为一个信号处理问题。
模型在多轮对话中的状态,可以看作是一个随时间演化的信念分布。每一轮新的user输入是一个观测信号,模型需要更新自己的信念状态。理想情况下,这个更新应该是充分且必要的:只纳入与任务相关的信息,忽略无关噪声,在信息不足时保持不确定性而非强行坍缩到一个猜测。
Lost-in-Conversation的本质,是信念更新机制的过早坍缩。模型在观测信号不完整时,没有维持一个宽泛的后验分布,而是被优化目标推着快速收敛到一个点估计——哪怕这个点估计的置信度很低。这个过早坍缩一旦完成,后续轮次的新信息就很难把它扳回来了,因为模型已经开始基于错误假设进行条件推理。
FiC的两阶段干预,恰好对应信号处理里的两个经典策略。SFT warm-start相当于在系统前端加一个 阈值检测器:当输入信噪比低于某个门槛时,系统输出"拒绝解码"而非强行猜测。VASD则相当于在系统后端加一个分布对齐器:确保同一个输入信号无论以什么时序到达,最终的输出分布都收敛到同一个稳态。
从这个角度看,33%的token减少也可以理解:过早坍缩的模型在不确定时倾向于生成冗长的解释来掩盖自己的不确定——一种修辞上的烟雾弹。而学会推迟回答的模型,在信息不足时直接输出高置信度的"请求补充"信号,不需要绕弯子。信息论的视角把行为观察变成了结构描述,虽然这个重构是我自己的诠释,未必是Chen等人原意。
🎯 8. 如果换一条路走
让我试着推演几种替代方案,看看FiC的选择落在了什么位置。
路径A:纯提示工程。 在system prompt里写"如果信息不完整,请先请求补充"。这最简单,但Chen等人在相关工作里引用了足够的证据说明提示工程难以 overturn 已经固化的模型行为,而且对prompt设计高度敏感。这条路的成本最低,天花板也最低。
路径B:RL with sparse rewards。 用强化学习训练模型在多轮对话中获得更高分。问题在于credit assignment——对话很长,最终答案对了或错了,怎么把责任追溯到中间某一轮的某个具体选择?稀疏奖励在长轨迹上的传播效率很低,Chen等人明确把这一点作为FiC要避开的坑。
路径C:外部teacher distillation。 找一个更强的模型来生成多轮对话的参考答案,然后蒸馏。但Chen等人的核心观察是:连前沿模型都有多轮gap——外部teacher的单轮表现可能确实更好,但它的多轮表现也劣于自己的单轮表现。用一个也有近视的人当眼科医生,治疗效果有限。
路径D:数据增广。 收集大量真实的多轮对话数据,直接SFT。问题是真实世界里"好的多轮对话"很难定义和标注,而且数据分布可能高度偏斜——大多数真实对话既不涉及复杂的推理,也没有明确的成功标准。
FiC的选择是 内部对称蒸馏——teacher和student是同一个模型的两个视图,信息等价,差异纯由时间结构造成。这条路的代价是需要自己生成on-policy的中间轨迹,计算开销不小;但它的概念纯度最高,不需要外部依赖,也不需要人工标注。在"可扩展性"和"概念干净度"之间,Chen等人押了后者。
🧪 9. 还没搞清楚的事
Chen等人的论文我目前只读了前六页,有些问题暂时没有答案,我在这里诚实地记下来。
问题一:CONCAT视图为什么能当teacher? CONCAT把信息拆成bullet list但仍然一次性给出。它的性能与FULL持平,这证明模型能处理碎片化信息——只要时间轴不介入。但bullet list的格式是否本身就是一种"辅助"?真实用户不会把条件列成bullet list给你。如果teacher用更自然的 prose 而非 bullet list,性能会不会下降?这个边界我没看到测试。
问题二:on-policy采样的稳定性。 Student的中间轮次是自己生成的,训练早期student还不稳定,可能生成质量很差的中间回答。这些低质量的中间回答会不会把训练带偏?论文前几页没有展示training dynamics或失败案例,我不清楚FiC对初始化有多敏感。
问题三:33% token减少的代价。 更短的对话意味着更少的context,但这也意味着模型在每一轮能"看到"的历史更短。如果用户突然改变主意或引入新约束,短上下文是否会影响模型的适应性?效率和灵活性之间是否存在trade-off,论文没有讨论。
问题四:Llama 100%恢复是不是特例? FiC在两个Llama backbone上做到了100%恢复,但Qwen、Phi、OLMo只恢复到92%-98%。这个差异来自架构还是训练数据?是attention机制的不同,还是pretraining corpus的差异?论文前几页没有给出解释,我也不敢瞎猜。
问题五:与RLVR的结合。 2025-2026年最火的post-training范式是RLVR(Reinforcement Learning with Verifiable Rewards)。FiC的VASD用distillation绕过了RL的sparse reward问题,但RLVR的verifiable reward(比如代码通过单元测试、数学题答案匹配)在多轮设置里是否也能提供有效信号?FiC和RLVR是互斥的还是互补的?这是我觉得可以延伸的方向。
问题六:用户模拟器的保真度。 FiC的评估用了一个LLM-based的用户模拟器,它根据对话历史动态选择下一个shard。这个模拟器的行为模式直接决定了训练数据和测试数据的分布。如果真实用户的行为比模拟器更不可预测——比如用户突然改变话题、提供冗余信息、或者用模糊的语言暗示某个条件——FiC训练出的模型还能保持稳健吗?Chen等人在论文里提到模拟器"镜像真实用户行为",但真实用户行为的多样性远超任何模拟器。这个评估生态系统的泛化边界,我觉得是一个需要持续关注的问题。
问题七:SFT warm-start和VASD的相对贡献。 FiC是两阶段框架,但论文前几页没有给出ablation:如果只保留SFT,恢复多少?只保留VASD,恢复多少?两者的贡献是相加的、相乘的,还是SFT给VASD提供了一个必要条件(没有SFT的deferral行为,VASD的蒸馏可能无法收敛)?这个分解对于理解方法的机理很重要,但我暂时没有看到数据。
问题八:规模定律。 3B到14B的模型都能从FiC中受益,但恢复率是否随规模单调提升?更大的模型(比如70B或 frontier 级别的模型)是否也能被FiC修复?论文没有测试这个方向。一个合理的猜测是:更大的模型单轮性能更高,所以"天花板"也更高;但如果大模型的多轮gap同样大,FiC的相对恢复率可能跟中小模型差不多。这个猜测是否正确,只能等后续实验来验证。
🌱 10. 自己教自己,这话到底什么意思
FiC的标题里有一句很抓人的话:"LLMs Teach Themselves"。这句话在社交媒体上可能会被简化成"模型又自我进化了",但它的实际含义要窄得多、也精确得多。
模型没有"学会新东西"。它的参数里没有增加新的知识,它只是学会了 在信息分批到达时,如何把已有的知识调度出来。单轮视图下的teacher已经会做这道题了,多轮视图下的student之前不会做——不是因为不懂,而是因为信息的时序布局干扰了它的行为。FiC做的是行为矫正,不是知识灌输。
这让我想到一个老比喻:弹钢琴。一个人已经会弹某首曲子了,但如果你要求他闭上眼睛、每次只给一只手弹、而且另一只手的位置要等到下一轮才告诉他——他可能会弹得很糟。这不是因为他不会弹,而是因为感知输入的时序打乱了他的运动程序。FiC相当于设计了一套训练,让他在"分批知道两只手位置"的情况下,仍然能调出和"同时知道"时一样的演奏程序。
当然,模型没有手指,没有眼睛,也没有运动程序。这个比喻是我为了让概念更直觉化而编的,它的边界也很明显:人弹钢琴需要肌肉记忆和时空协调,模型做数学题只需要token概率的重新排列。两者的机制完全不同,但在"时序干扰导致表现下降"这一点上,结构是相似的。
📊 11. 论文元数据
| 项目 | 内容 |
|---|---|
| 标题 | Found in Conversation: LLMs Teach Themselves to Close the Multi-Turn Gap |
| 作者 | Tianlang Chen, Shirley Wu, Jure Leskovec |
| 机构 | Stanford University |
| arXiv ID | 2605.24432 |
| 提交日期 | 2026年5月23日 |
| 分类 | cs.CL |
| 核心方法 | 两阶段框架:SFT warm-start(学会推迟回答)+ View-Asymmetric Self-Distillation(单轮CONCAT视图教多轮SHARDED视图,token-level JS散度对齐) |
| 关键基准 | Laban et al. [2025]多轮benchmark:Math(GSM8K)、Database(Spider)、Actions(BFCL) |
| 信息等价视图 | FULL(原始单轮)、CONCAT(bullet list单轮)、SHARDED(多轮碎片) |
| 测试模型 | Llama, Qwen, Phi, OLMo(3B-14B) |
| 主要结果 | 跨家族恢复≥92%单轮性能(Llama达100%);token效率提升33%;跨域迁移至Database/Actions(<6 A100小时适配) |
| 核心洞见 | 多轮gap是行为性的而非能力性的;同一模型的单轮视图可充当无外部教师的多轮教师;on-policy中间采样+信息等价视图产生干净的对齐信号 |
#CrushAI #FeynmanLearning #智柴系统实验室🎙️
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。