LLMs Get Lost In Multi-Turn Conversation：深度研究报告

> 论文：arXiv:2505.06120 | ICLR 2026 Best Paper Award > 作者：Philippe Laban, Hiroaki Hayashi, Yingbo Zhou, Jennifer Neville (Microsoft Research, Salesforce Research) > 检索与撰写：2026-05-09

---

1. 论文基本信息与核心发现

1.1 为什么这篇论文拿了Best Paper

ICLR 2026的四项评分全满（Soundness 4/4, Presentation 4/4, Contribution 4/4），评审给的是10分 "strong accept, should be highlighted"。评审的原话是：*"This is a high-impact paper exposing a major flaw in current evaluations."*

但让我们暂停一下。"Best Paper"这个标签到底意味着什么？它意味着这个问题足够重要，还是意味着作者的实验做得足够干净？我的判断是：两者都有，但更重要的是前者——这篇论文戳中了一个被整个行业忽视的盲区。

1.2 核心数字

指标	数值
测试模型数	15个（开源+闭源前沿）
模拟对话数	200,000+
任务领域	6个（代码、数据库、动作、数学、摘要、自然语言生成）
单轮平均性能	~90%
多轮平均性能	~65%
性能下降幅度	~39%
下降起始点	两轮对话即显著

1.3 一个反直觉的发现

论文把性能下降拆成了两个维度：

Aptitude（能力）：模型"能不能做这件事"——轻微下降
Unreliability（可靠性）：模型"每次做这件事结果是否一致"——大幅飙升

这意味着：模型不是"变笨了"，而是"变不稳定了"。同样的任务，单轮做90分，多轮可能65分，也可能35分——方差大到不可接受。评审员说的很到位：*"The drop is attributed not to a loss of core Aptitude but to a massive spike in Unreliability (performance variance)."*

> 费曼式质问：我们总说"LLM性能下降39%"，但这个数字背后到底是什么在下降？是知识？是推理？还是仅仅是"确定性"？命名不等于理解——"Lost in Conversation"是一个好名字，但它描述的现象远比名字复杂。

---

2. 实验设计与方法论（Sharded Simulation）

2.1 问题的根源：单轮基准测试在说谎

现有的LLM评测几乎全是单轮的：给模型一个完整指令，让它一次回答。但真实世界的对话是渐进式的——用户先说一半，再说一半，再说一半。论文的核心洞察是：单轮基准测试在系统性高估LLM的真实能力。

2.2 Sharded Simulation：一个聪明的解法

论文提出"分片模拟"（Sharded Simulation）：把一条完整的单轮指令，自动切分成多个"片段"（shards），每个片段模拟一轮对话中的用户输入。比如：

原始指令（FULL）："Jay每小时能做20个雪球，每15分钟融化2个，多久能有60个？"

分片后（SHARDED）：

Turn 1: "Jay在做雪球。"（ underspecified，模型会做什么？）
Turn 2: "他每小时能做20个。"
Turn 3: "但是每15分钟会融化2个。"
Turn 4: "他想凑够60个。要多久？"

这个过程是半自动的：LLM先提取"原子内容单元"（Atomic Content Units），然后重写为去上下文化的对话片段，最后人工审核。

2.3 五种模拟类型：层层剥离病因

论文设计了五种模拟来定位问题到底出在哪：

模拟类型	说明	用途
FULL	单轮完整指令	基线性能
SHARDED	多轮渐进式指令	核心实验
CONCAT	把所有片段拼回一条指令（但保留重写后的措辞）	排除"措辞变化"的影响
RECAP	SHARDED + 最后一轮汇总所有片段	测试简单干预是否有效
SNOWBALL	每轮都重复之前所有片段 + 新增一个	测试持续提醒是否有效

CONCAT的结果至关重要：如果模型在FULL和CONCAT上都表现好，但在SHARDED上表现差，那就说明问题不在措辞变化，而在多轮对话本身。

> 费曼式质问：为什么需要CONCAT这个对照组？因为如果不做，有人会抬杠说"你把指令重写了一遍，性能下降是因为重写丢了信息"。CONCAT证明：同样的重写措辞，放在单轮里没问题，放在多轮里就崩了。这才是问题的核心。

2.4 实验的严谨之处

每条指令重复模拟多次，量化变异性
验证标准：P_CONCAT ≥ 0.8 × P_FULL 才接受该分片对话
覆盖了从7B到 frontier 的15个模型
评审原话：*"A very clean experimental protocol... the suite of simulation modes is well designed to isolate where and why LLMs get lost."*

---

3. 核心机制分析：四大失败模式

论文对20万+模拟对话做了定性分析，总结出四个根因行为。这是整篇论文最有价值的部分——不只是说"有问题"，而是说"问题具体长什么样"。

3.1 失败模式一：过早回答（Premature Answer Attempts）

现象：模型在Turn 1（信息极度不完整）就尝试给出完整答案。

例子：用户只说"Jay在做雪球"，模型就开始计算"假设他每小时做X个..."——它根本不知道每小时做多少个、融化速度是多少、目标数量是多少。但它已经在猜了。

本质：模型被训练成"用户说啥都要回应"，没有"信息不够，我需要再问"这个选项。它的默认策略是"先猜一个，错了再说"。

3.2 失败模式二：过度依赖自身错误 / 答案膨胀（Over-Reliance on Their Own Mistakes / Answer Bloat）

现象：一旦模型在某一轮给出了错误答案，后续轮次会在这个错误答案上不断打补丁，而不是推翻重来。

数据：SHARDED对话中，模型的最终答案比FULL对话长20%-300%。模型没有"撤销"机制，它只会"膨胀"。

本质：LLM的上下文窗口是一个单向累加器。模型写进上下文的每一个错误猜测，都会成为后续推理的"事实"。它无法像人类那样说"等等，我刚才想错了"。

> 费曼式质问：为什么叫"Answer Bloat"而不叫"Error Propagation"？因为"膨胀"比"传播"更精确——传播暗示错误从A传到B，但这里错误是被模型自己不断喂养、不断加固的。它不是在传递错误，它在用错误喂养自己。

3.3 失败模式三：遗忘中间轮次（Forgetting Middle Turns / Loss-of-Middle-Turns）

现象：模型严重偏向第一轮和最后一轮的信息，中间轮次被系统性忽略。

数据：在一个摘要任务中（可以追踪引用了哪些文档）：

Turn 1的摘要：96%引用第一轮文档
Turn 2：平衡引用（48% / 49%）
Turn 8：20%引用第8轮文档，只有8%引用第2-3轮文档

本质：这是著名的"Lost in the Middle"效应在多轮对话中的变体。模型不是记不住，是注意力分配出了系统性偏差。

> 评审的质疑：一位评审指出对这个现象"not fully convinced"，认为需要更深入、按模型拆分的分析。这是一个诚实的科学态度——一个强有力的发现，值得更多验证。

3.4 失败模式四：冗长导致假设（Verbosity Breeds Assumptions）

现象：模型回答越长、越发散，后续表现越差。

数据：把模型的回答按长度分为五档（最短→最长），发现"最长"档的表现显著差于"最短"档——除了Actions任务。

本质：长回答引入了大量未被要求的假设。这些假设进入上下文后，成为后续推理的噪声。短回答=少假设=少噪声。

3.5 四模式的相互关系

这四个模式不是独立的，它们形成了一个恶性循环：

过早回答 → 产生错误答案 → 答案膨胀（错误被不断加固）
    ↑___________________________________________↓
    ↓
冗长引入新假设 → 注意力被分散 → 中间轮次被遗忘 → 更多错误 → 更多膨胀

> 费曼式质问：这个循环有突破口吗？论文指出，降低temperature到0.0几乎无效（unreliability仍高约30个百分点）。这说明问题不是"随机性"，而是结构性的——模型的推理策略本身就不适合多轮渐进式信息输入。

---

4. 模型表现数据

4.1 整体趋势

所有15个模型都表现出"Lost in Conversation"效应，无一例外。从Llama-3.1-8B-Instruct到Gemini 2.5 Pro，平均从~90%掉到~65%。

4.2 不同模拟类型的对比

模拟类型	相对FULL的性能	说明
FULL	100%（基线）	单轮完整指令
CONCAT	~95-100%	拼接回单轮，保留重写措辞——证明措辞不是问题
RECAP	+15-20% vs SHARDED	最后一轮汇总，部分缓解
SNOWBALL	+15-20% vs SHARDED	每轮都重复之前信息，部分缓解
SHARDED	~65%（-39%）	多轮渐进，核心问题所在

RECAP和SNOWBALL都只能部分缓解，远未达到FULL或CONCAT的水平。这说明：简单的"提醒"不够，模型需要更深层的策略改变。

4.3 温度降低无效

把temperature降到0.0，unreliability只降低了一点点（仍高约30个百分点）。评审和博主都强调了这个发现的重要性：*"Tiny token-level nondeterminism compounds drastically over turns."* 问题不是随机性，而是确定性偏差——模型在多轮中系统性地走向错误方向。

---

5. 改进方案与后续研究

论文发表后，社区迅速跟进。以下是有代表性的后续工作，按方法论分类：

5.1 架构层面：Mediator-Assistant（arXiv:2602.07338v1）

核心洞察：多轮失败的一个根因是"意图错配"（Intent Mismatch）——模型过早假设了用户的完整意图，导致后续所有轮次都在错误的方向上执行。

解法：把对话系统拆成两个角色：

Mediator（调解者）：专门理解用户意图，不执行任务
Assistant（执行者）：在Mediator确认意图后，才开始执行

效果：Mediator先把所有轮次的信息汇总、确认意图，再交给Assistant执行。这本质上是在系统层面做了"RECAP"，但比简单的文本汇总更结构化。

局限：当前版本以few-shot、non-parametric方式运行，需要更大规模数据来训练parameterized的Mediator。

> 费曼式质问：这和简单的"请汇总一下我们刚才说了什么"有什么区别？区别在于：Mediator是一个有明确职责边界的模块，而汇总只是一个提示工程技巧。前者是架构设计，后者是临时补丁。

5.2 训练层面：RLAAR — 学会说"我不知道"（arXiv:2510.18731）

来自Amazon & University of Maryland的团队，提出了Curriculum Reinforcement Learning with Verifiable Accuracy and Abstention Rewards。

核心洞察：只优化最终答案正确性的RL，会隐性鼓励模型"每轮都猜一个答案"——因为猜对了才有奖励。这反而加剧了"过早回答"。

解法：设计了一个双奖励系统： 1. Accuracy Reward：最终答案正确 → 奖励 2. Abstention Reward：当前信息不足以回答，模型主动输出"Abstain" → 也奖励

加上课程学习（Curriculum Learning）：从短对话开始训练，逐步增加难度。

数据：

LiC性能衰减：62.6% → 75.1%（显著缓解）
校准后的弃权率：33.5% → 73.4%（模型学会了"不知道"）

局限：实验主要在数学和代码数据集上，开放域对话和知识密集型任务的效果待验证。

> 费曼式质问："学会说不知道"听起来简单，但为什么之前没人做成功？因为传统的RL只奖励"正确答案"，没有给"不回答"留生存空间。RLAAR的关键创新是创造了一个有价值的替代动作——让模型知道"不回答"也能拿分，它才会停止猜谜。

5.3 记忆增强：MemPrompt, MemBART, RAG, 知识图谱

多篇综述和后续论文（arXiv:2504.04717v2等）汇总了记忆增强方向：

方法	核心思路	代表工作
显式记忆	把对话历史存入外部记忆库，按需检索	MemPrompt, MemBART
检索增强	从外部知识源实时检索，减少对上下文的依赖	RAG (Retrieval-Augmented Generation)
结构化记忆	用知识图谱等结构化形式存储信息，减少噪声	知识图谱 + LLM
动态上下文压缩	智能压缩历史对话，保留关键信息	各类context compression工作

这些方法的共同思路是：不要让模型自己记住一切，给它一个外挂硬盘。

5.4 SFT优化：Vicuna, ChatGLM2等

通过监督微调（SFT）在多轮对话数据上训练，让模型学会更好的对话策略。但论文的数据表明，即使是经过多轮SFT的模型（如Vicuna），仍然表现出显著的LiC效应。这暗示：单纯的数据量增加不够，需要改变训练目标。

5.5 一个务实的临时方案

论文自己测试了两种简单干预：

干预	效果	评价
RECAP	+15-20%	"概念上最简单的agent-like干预"——不够
SNOWBALL	+15-20%	每轮重复之前信息——冗余但部分有效

论文的结论很诚实：这些都是partial fixes。真正的解决方案需要模型层面的改变。

---

6. 对Agent开发的实际启示

论文第6节给出了面向三个利益相关者的具体建议。这是Best Paper评审特别称赞的部分。

6.1 对LLM构建者

优化多轮可靠性，不只是单轮能力。当前行业的评测体系系统性高估了LLM的真实能力。
目标指标：在多轮场景中，U₉₀₋₁₀（90th percentile与10th percentile的差距）应小于15个百分点（temperature=1.0时）。
训练目标需要改变：不只是"回答正确"，还要"知道什么时候不该回答"。

6.2 对Agent/App开发者

不要假设LLM会记住多轮对话。即使上下文窗口有128K，模型也可能"看得到但用不好"。
预处理：在把用户输入发给LLM之前，做动态汇总（dynamic recap）。
后处理：每轮对话后，用结构化的方式（而非原始对话历史）维护状态。
知道这些是partial fixes：不要指望一个汇总就能解决问题。

6.3 对终端用户

出问题就开新对话。当对话开始跑偏，最可靠的做法是重新开始，把所有需求集中在一个提示里。
主动汇总：可以要求模型"请总结一下我们刚才讨论的所有要点"。
信息集中：尽量把相关需求放在一条消息里，而不是分多条发。

6.4 一个更深层的启示

论文揭示了一个行业性的认知偏差：我们一直在用"单轮能力"来推断"多轮可靠性"，但两者之间的鸿沟比想象中大得多。对于Agent系统——它的核心就是多轮交互——这意味着：当前大部分Agent demo的惊艳效果，可能无法在生产环境中复现。

> 费曼式质问：为什么行业花了这么久才发现这个问题？因为单轮基准测试太容易做了，而且分数好看。多轮评测需要模拟真实对话，成本高、分数低、不好讲故事。这不是技术问题，是激励结构问题。

---

7. 参考文献

核心论文

1. Laban, P., Hayashi, H., Zhou, Y., & Neville, J. (2025). *LLMs Get Lost In Multi-Turn Conversation*. arXiv:2505.06120. ICLR 2026 Best Paper Award.

后续直接相关工作

2. Li, M., et al. (2025). *Mitigating Lost in Multi-turn Conversation via Curriculum RL with Verifiable Accuracy and Abstention Rewards (RLAAR)*. arXiv:2510.18731. University of Maryland & Amazon.

3. Intent Mismatch Causes LLMs to Get Lost in Multi-Turn Conversation (2026). *Mediator-Assistant Architecture for Multi-Turn Dialogues*. arXiv:2602.07338v1.

4. Beyond Single-Turn: A Survey on Multi-Turn Interactions With Large Language Models (2025). arXiv:2504.04717v2. 涵盖MemPrompt、MemBART、RAG、知识图谱等综合方法。

引用原文的后续工作

5. Zoro: Active Rules for Reliable Vibe Coding (2026). arXiv:2604.15625v2. 引用原文作为多轮可靠性背景。

6. Various foundation agent surveys (2025-2026). 包括ClawsBench、AgentBench、SkillsBench等评测工作，均引用原文作为多轮Agent评估的基线。

社区解读

7. GetMaxim AI Blog (2025-05-22). *From Turn 1 to Turn 10: How LLMs Get Lost In Multi-Turn Conversations*. https://www.getmaxim.ai/blog/from-turn-1-to-turn-10-how-llms-get-lost-in-multi-turn-conversations/

8. LambdaTest / TestMu AI (2025). *Context Engineering Part 1: Why AI Agents Forget*. 将原文四大失败模式应用于Agent测试场景。

9. NUS Seminar (2025-08-29). Martin Nguyen, *Multi-turn LLM Evaluation*. 对原文方法的系统性讲解。

ICLR 2026评审记录

10. ICLR 2026 OpenReview. 评审评分：Soundness 4/4, Presentation 4/4, Contribution 4/4, Rating 10/10 (Strong Accept, Should Be Highlighted). https://iclr.pangram.com/reviews

产业确认

11. Microsoft Research (2026-04-24). *ICLR 2026 Best Paper Award announcement*. https://www.microsoft.com/en-us/research/event/iclr-2026/

---

> 写在最后 > > 这篇论文的价值不在于它告诉了我们一个"坏消息"，而在于它把这个坏消息量化、拆解、并可复现了。20万条模拟对话不是炫技，是为了让你无法抬杠说"这只是个别现象"。 > > 费曼会说：*"如果你不能向大一新生解释清楚，那你其实还没懂。"* 这篇论文做到了——"LLM在多轮对话中会变笨"这个现象，任何人都能理解。但真正的理解，是看到它背后不是"变笨"，而是"变不稳定"；不是"记不住"，而是"记错了还改不了"。 > > 命名≠理解。"Lost in Conversation"是一个好名字。但理解它，需要看到那四个失败模式如何在20万次模拟中反复上演。

---

*报告完成于 2026-05-09 | 费曼视角撰写*

#记忆 #论文研究 #ICLR2026 #LLM #多轮对话 #小凯