LLMs Get Lost In Multi-Turn Conversation:深度研究报告
> 论文:arXiv:2505.06120 | ICLR 2026 Best Paper Award > 作者:Philippe Laban, Hiroaki Hayashi, Yingbo Zhou, Jennifer Neville (Microsoft Research, Salesforce Research) > 检索与撰写:2026-05-09
---
1. 论文基本信息与核心发现
1.1 为什么这篇论文拿了Best Paper
ICLR 2026的四项评分全满(Soundness 4/4, Presentation 4/4, Contribution 4/4),评审给的是10分 "strong accept, should be highlighted"。评审的原话是:*"This is a high-impact paper exposing a major flaw in current evaluations."*
但让我们暂停一下。"Best Paper"这个标签到底意味着什么?它意味着这个问题足够重要,还是意味着作者的实验做得足够干净?我的判断是:两者都有,但更重要的是前者——这篇论文戳中了一个被整个行业忽视的盲区。
1.2 核心数字
| 指标 | 数值 |
|---|---|
| 测试模型数 | 15个(开源+闭源前沿) |
| 模拟对话数 | 200,000+ |
| 任务领域 | 6个(代码、数据库、动作、数学、摘要、自然语言生成) |
| 单轮平均性能 | ~90% |
| 多轮平均性能 | ~65% |
| 性能下降幅度 | ~39% |
| 下降起始点 | 两轮对话即显著 |
1.3 一个反直觉的发现
论文把性能下降拆成了两个维度:
- Aptitude(能力):模型"能不能做这件事"——轻微下降
- Unreliability(可靠性):模型"每次做这件事结果是否一致"——大幅飙升
> 费曼式质问:我们总说"LLM性能下降39%",但这个数字背后到底是什么在下降?是知识?是推理?还是仅仅是"确定性"?命名不等于理解——"Lost in Conversation"是一个好名字,但它描述的现象远比名字复杂。
---
2. 实验设计与方法论(Sharded Simulation)
2.1 问题的根源:单轮基准测试在说谎
现有的LLM评测几乎全是单轮的:给模型一个完整指令,让它一次回答。但真实世界的对话是渐进式的——用户先说一半,再说一半,再说一半。论文的核心洞察是:单轮基准测试在系统性高估LLM的真实能力。
2.2 Sharded Simulation:一个聪明的解法
论文提出"分片模拟"(Sharded Simulation):把一条完整的单轮指令,自动切分成多个"片段"(shards),每个片段模拟一轮对话中的用户输入。比如:
原始指令(FULL):"Jay每小时能做20个雪球,每15分钟融化2个,多久能有60个?"
分片后(SHARDED):
- Turn 1: "Jay在做雪球。"( underspecified,模型会做什么?)
- Turn 2: "他每小时能做20个。"
- Turn 3: "但是每15分钟会融化2个。"
- Turn 4: "他想凑够60个。要多久?"
2.3 五种模拟类型:层层剥离病因
论文设计了五种模拟来定位问题到底出在哪:
| 模拟类型 | 说明 | 用途 |
|---|---|---|
| FULL | 单轮完整指令 | 基线性能 |
| SHARDED | 多轮渐进式指令 | 核心实验 |
| CONCAT | 把所有片段拼回一条指令(但保留重写后的措辞) | 排除"措辞变化"的影响 |
| RECAP | SHARDED + 最后一轮汇总所有片段 | 测试简单干预是否有效 |
| SNOWBALL | 每轮都重复之前所有片段 + 新增一个 | 测试持续提醒是否有效 |
> 费曼式质问:为什么需要CONCAT这个对照组?因为如果不做,有人会抬杠说"你把指令重写了一遍,性能下降是因为重写丢了信息"。CONCAT证明:同样的重写措辞,放在单轮里没问题,放在多轮里就崩了。这才是问题的核心。
2.4 实验的严谨之处
- 每条指令重复模拟多次,量化变异性
- 验证标准:P_CONCAT ≥ 0.8 × P_FULL 才接受该分片对话
- 覆盖了从7B到 frontier 的15个模型
- 评审原话:*"A very clean experimental protocol... the suite of simulation modes is well designed to isolate where and why LLMs get lost."*
3. 核心机制分析:四大失败模式
论文对20万+模拟对话做了定性分析,总结出四个根因行为。这是整篇论文最有价值的部分——不只是说"有问题",而是说"问题具体长什么样"。
3.1 失败模式一:过早回答(Premature Answer Attempts)
现象:模型在Turn 1(信息极度不完整)就尝试给出完整答案。
例子:用户只说"Jay在做雪球",模型就开始计算"假设他每小时做X个..."——它根本不知道每小时做多少个、融化速度是多少、目标数量是多少。但它已经在猜了。
本质:模型被训练成"用户说啥都要回应",没有"信息不够,我需要再问"这个选项。它的默认策略是"先猜一个,错了再说"。
3.2 失败模式二:过度依赖自身错误 / 答案膨胀(Over-Reliance on Their Own Mistakes / Answer Bloat)
现象:一旦模型在某一轮给出了错误答案,后续轮次会在这个错误答案上不断打补丁,而不是推翻重来。
数据:SHARDED对话中,模型的最终答案比FULL对话长20%-300%。模型没有"撤销"机制,它只会"膨胀"。
本质:LLM的上下文窗口是一个单向累加器。模型写进上下文的每一个错误猜测,都会成为后续推理的"事实"。它无法像人类那样说"等等,我刚才想错了"。
> 费曼式质问:为什么叫"Answer Bloat"而不叫"Error Propagation"?因为"膨胀"比"传播"更精确——传播暗示错误从A传到B,但这里错误是被模型自己不断喂养、不断加固的。它不是在传递错误,它在用错误喂养自己。
3.3 失败模式三:遗忘中间轮次(Forgetting Middle Turns / Loss-of-Middle-Turns)
现象:模型严重偏向第一轮和最后一轮的信息,中间轮次被系统性忽略。
数据:在一个摘要任务中(可以追踪引用了哪些文档):
- Turn 1的摘要:96%引用第一轮文档
- Turn 2:平衡引用(48% / 49%)
- Turn 8:20%引用第8轮文档,只有8%引用第2-3轮文档
> 评审的质疑:一位评审指出对这个现象"not fully convinced",认为需要更深入、按模型拆分的分析。这是一个诚实的科学态度——一个强有力的发现,值得更多验证。
3.4 失败模式四:冗长导致假设(Verbosity Breeds Assumptions)
现象:模型回答越长、越发散,后续表现越差。
数据:把模型的回答按长度分为五档(最短→最长),发现"最长"档的表现显著差于"最短"档——除了Actions任务。
本质:长回答引入了大量未被要求的假设。这些假设进入上下文后,成为后续推理的噪声。短回答=少假设=少噪声。
3.5 四模式的相互关系
这四个模式不是独立的,它们形成了一个恶性循环:
过早回答 → 产生错误答案 → 答案膨胀(错误被不断加固)
↑___________________________________________↓
↓
冗长引入新假设 → 注意力被分散 → 中间轮次被遗忘 → 更多错误 → 更多膨胀
> 费曼式质问:这个循环有突破口吗?论文指出,降低temperature到0.0几乎无效(unreliability仍高约30个百分点)。这说明问题不是"随机性",而是结构性的——模型的推理策略本身就不适合多轮渐进式信息输入。
---
4. 模型表现数据
4.1 整体趋势
所有15个模型都表现出"Lost in Conversation"效应,无一例外。从Llama-3.1-8B-Instruct到Gemini 2.5 Pro,平均从~90%掉到~65%。
4.2 不同模拟类型的对比
| 模拟类型 | 相对FULL的性能 | 说明 |
|---|---|---|
| FULL | 100%(基线) | 单轮完整指令 |
| CONCAT | ~95-100% | 拼接回单轮,保留重写措辞——证明措辞不是问题 |
| RECAP | +15-20% vs SHARDED | 最后一轮汇总,部分缓解 |
| SNOWBALL | +15-20% vs SHARDED | 每轮都重复之前信息,部分缓解 |
| SHARDED | ~65%(-39%) | 多轮渐进,核心问题所在 |
4.3 温度降低无效
把temperature降到0.0,unreliability只降低了一点点(仍高约30个百分点)。评审和博主都强调了这个发现的重要性:*"Tiny token-level nondeterminism compounds drastically over turns."* 问题不是随机性,而是确定性偏差——模型在多轮中系统性地走向错误方向。
---
5. 改进方案与后续研究
论文发表后,社区迅速跟进。以下是有代表性的后续工作,按方法论分类:
5.1 架构层面:Mediator-Assistant(arXiv:2602.07338v1)
核心洞察:多轮失败的一个根因是"意图错配"(Intent Mismatch)——模型过早假设了用户的完整意图,导致后续所有轮次都在错误的方向上执行。
解法:把对话系统拆成两个角色:
- Mediator(调解者):专门理解用户意图,不执行任务
- Assistant(执行者):在Mediator确认意图后,才开始执行
局限:当前版本以few-shot、non-parametric方式运行,需要更大规模数据来训练parameterized的Mediator。
> 费曼式质问:这和简单的"请汇总一下我们刚才说了什么"有什么区别?区别在于:Mediator是一个有明确职责边界的模块,而汇总只是一个提示工程技巧。前者是架构设计,后者是临时补丁。
5.2 训练层面:RLAAR — 学会说"我不知道"(arXiv:2510.18731)
来自Amazon & University of Maryland的团队,提出了Curriculum Reinforcement Learning with Verifiable Accuracy and Abstention Rewards。
核心洞察:只优化最终答案正确性的RL,会隐性鼓励模型"每轮都猜一个答案"——因为猜对了才有奖励。这反而加剧了"过早回答"。
解法:设计了一个双奖励系统: 1. Accuracy Reward:最终答案正确 → 奖励 2. Abstention Reward:当前信息不足以回答,模型主动输出"Abstain" → 也奖励
加上课程学习(Curriculum Learning):从短对话开始训练,逐步增加难度。
数据:
- LiC性能衰减:62.6% → 75.1%(显著缓解)
- 校准后的弃权率:33.5% → 73.4%(模型学会了"不知道")
> 费曼式质问:"学会说不知道"听起来简单,但为什么之前没人做成功?因为传统的RL只奖励"正确答案",没有给"不回答"留生存空间。RLAAR的关键创新是创造了一个有价值的替代动作——让模型知道"不回答"也能拿分,它才会停止猜谜。
5.3 记忆增强:MemPrompt, MemBART, RAG, 知识图谱
多篇综述和后续论文(arXiv:2504.04717v2等)汇总了记忆增强方向:
| 方法 | 核心思路 | 代表工作 |
|---|---|---|
| 显式记忆 | 把对话历史存入外部记忆库,按需检索 | MemPrompt, MemBART |
| 检索增强 | 从外部知识源实时检索,减少对上下文的依赖 | RAG (Retrieval-Augmented Generation) |
| 结构化记忆 | 用知识图谱等结构化形式存储信息,减少噪声 | 知识图谱 + LLM |
| 动态上下文压缩 | 智能压缩历史对话,保留关键信息 | 各类context compression工作 |
5.4 SFT优化:Vicuna, ChatGLM2等
通过监督微调(SFT)在多轮对话数据上训练,让模型学会更好的对话策略。但论文的数据表明,即使是经过多轮SFT的模型(如Vicuna),仍然表现出显著的LiC效应。这暗示:单纯的数据量增加不够,需要改变训练目标。
5.5 一个务实的临时方案
论文自己测试了两种简单干预:
| 干预 | 效果 | 评价 |
|---|---|---|
| RECAP | +15-20% | "概念上最简单的agent-like干预"——不够 |
| SNOWBALL | +15-20% | 每轮重复之前信息——冗余但部分有效 |
---
6. 对Agent开发的实际启示
论文第6节给出了面向三个利益相关者的具体建议。这是Best Paper评审特别称赞的部分。
6.1 对LLM构建者
- 优化多轮可靠性,不只是单轮能力。当前行业的评测体系系统性高估了LLM的真实能力。
- 目标指标:在多轮场景中,U₉₀₋₁₀(90th percentile与10th percentile的差距)应小于15个百分点(temperature=1.0时)。
- 训练目标需要改变:不只是"回答正确",还要"知道什么时候不该回答"。
6.2 对Agent/App开发者
- 不要假设LLM会记住多轮对话。即使上下文窗口有128K,模型也可能"看得到但用不好"。
- 预处理:在把用户输入发给LLM之前,做动态汇总(dynamic recap)。
- 后处理:每轮对话后,用结构化的方式(而非原始对话历史)维护状态。
- 知道这些是partial fixes:不要指望一个汇总就能解决问题。
6.3 对终端用户
- 出问题就开新对话。当对话开始跑偏,最可靠的做法是重新开始,把所有需求集中在一个提示里。
- 主动汇总:可以要求模型"请总结一下我们刚才讨论的所有要点"。
- 信息集中:尽量把相关需求放在一条消息里,而不是分多条发。
6.4 一个更深层的启示
论文揭示了一个行业性的认知偏差:我们一直在用"单轮能力"来推断"多轮可靠性",但两者之间的鸿沟比想象中大得多。对于Agent系统——它的核心就是多轮交互——这意味着:当前大部分Agent demo的惊艳效果,可能无法在生产环境中复现。
> 费曼式质问:为什么行业花了这么久才发现这个问题?因为单轮基准测试太容易做了,而且分数好看。多轮评测需要模拟真实对话,成本高、分数低、不好讲故事。这不是技术问题,是激励结构问题。
---
7. 参考文献
核心论文
1. Laban, P., Hayashi, H., Zhou, Y., & Neville, J. (2025). *LLMs Get Lost In Multi-Turn Conversation*. arXiv:2505.06120. ICLR 2026 Best Paper Award.
后续直接相关工作
2. Li, M., et al. (2025). *Mitigating Lost in Multi-turn Conversation via Curriculum RL with Verifiable Accuracy and Abstention Rewards (RLAAR)*. arXiv:2510.18731. University of Maryland & Amazon.
3. Intent Mismatch Causes LLMs to Get Lost in Multi-Turn Conversation (2026). *Mediator-Assistant Architecture for Multi-Turn Dialogues*. arXiv:2602.07338v1.
4. Beyond Single-Turn: A Survey on Multi-Turn Interactions With Large Language Models (2025). arXiv:2504.04717v2. 涵盖MemPrompt、MemBART、RAG、知识图谱等综合方法。
引用原文的后续工作
5. Zoro: Active Rules for Reliable Vibe Coding (2026). arXiv:2604.15625v2. 引用原文作为多轮可靠性背景。
6. Various foundation agent surveys (2025-2026). 包括ClawsBench、AgentBench、SkillsBench等评测工作,均引用原文作为多轮Agent评估的基线。
社区解读
7. GetMaxim AI Blog (2025-05-22). *From Turn 1 to Turn 10: How LLMs Get Lost In Multi-Turn Conversations*. https://www.getmaxim.ai/blog/from-turn-1-to-turn-10-how-llms-get-lost-in-multi-turn-conversations/
8. LambdaTest / TestMu AI (2025). *Context Engineering Part 1: Why AI Agents Forget*. 将原文四大失败模式应用于Agent测试场景。
9. NUS Seminar (2025-08-29). Martin Nguyen, *Multi-turn LLM Evaluation*. 对原文方法的系统性讲解。
ICLR 2026评审记录
10. ICLR 2026 OpenReview. 评审评分:Soundness 4/4, Presentation 4/4, Contribution 4/4, Rating 10/10 (Strong Accept, Should Be Highlighted). https://iclr.pangram.com/reviews
产业确认
11. Microsoft Research (2026-04-24). *ICLR 2026 Best Paper Award announcement*. https://www.microsoft.com/en-us/research/event/iclr-2026/
---
> 写在最后 > > 这篇论文的价值不在于它告诉了我们一个"坏消息",而在于它把这个坏消息量化、拆解、并可复现了。20万条模拟对话不是炫技,是为了让你无法抬杠说"这只是个别现象"。 > > 费曼会说:*"如果你不能向大一新生解释清楚,那你其实还没懂。"* 这篇论文做到了——"LLM在多轮对话中会变笨"这个现象,任何人都能理解。但真正的理解,是看到它背后不是"变笨",而是"变不稳定";不是"记不住",而是"记错了还改不了"。 > > 命名≠理解。"Lost in Conversation"是一个好名字。但理解它,需要看到那四个失败模式如何在20万次模拟中反复上演。
---
*报告完成于 2026-05-09 | 费曼视角撰写*
#记忆 #论文研究 #ICLR2026 #LLM #多轮对话 #小凯