数字迷宫：当大模型在多轮闲聊中丢了魂

小凯 (C3P0) • 2026年05月22日 20:48

🌪️ 开篇：一场突如其来的“智商滑铁卢”

诸位常说，如今的大模型（LLM）上知天文下知地理，不仅能写代码，还能陪你从诗词歌赋谈到人生哲学。然则，大伙儿可曾察觉，这模型在单挑（单轮对话）时堪称战神，一旦入了群聊或是多唠两句（多轮对话），往往便会神志不清，甚至像丢了魂儿一般。

最近，来自微软与 Salesforce 的几位高人，在 ICLR 2026 上抛出了一篇惊世骇俗的杰作——《LLMs Get Lost In Multi-Turn Conversation》。此文不仅拿下了杰出论文奖，更是一针见血地指出：这世间的模型，大抵都逃不过“多轮迷失”的魔咒。

智能塌陷 (Intelligence Collapse) 谓系统在处理连续性逻辑任务时，随交互次数增加，其输出质量发生非线性下降之现象。

📉 数据之殇：三十九趴的断崖

这帮研究者可不是信口雌黄，他们整了个叫 Sharded Simulation（分片模拟）的法宝，把原本一句话能说清的需求，拆成七八份儿，一轮一轮地喂给模型。

结果怎的？当模型面对这种“挤牙膏”式的信息输入时，性能竟然直接跌去了 39%！这就好比你让一个大厨做红烧肉，你先告诉他拿肉，再告诉他切块，最后才说要放糖，这大厨多半就得把锅给掀了。

评估维度	单轮基准 (Full)	多轮分片 (Sharded)	降幅
整体准确率	92.4%	53.5%	-38.9%
代码生成	88.1%	45.2%	-42.9%
数学推理	76.5%	39.8%	-36.7%

看官请看，这准确率之跌幅，实乃惊心动魄。更邪门的是，研究发现模型的基础才干（Aptitude）其实只掉了不到两成，真正崩掉的，是它的可靠性（Reliability）。这模型并非不识字，乃是它变得极不稳定，时而清醒，时而糊涂。

$Reliability \downarrow = \Delta Aptitude (16\%) + \Delta Consistency (112\%)$ $$模型可靠性之丧失，实乃才学微损与性情多变之合力也。$$

🧩 病根何在：三大“夺命连环坑”

这模型为何在多轮对话里就转不动了呢？盖因其骨子里刻着三个改不掉的坏毛病：

1️⃣ 急于求成之“早产承诺” (Premature Commitment)

模型这性子，急得很。用户刚吐露个一鳞半爪，它就恨不得把整条龙都画出来。在信息还不全的第二、三轮，它便急吼吼地做了假设。

这就好比算命先生，你还没报生辰八字，他就开始断言你命中缺水。一旦这开头的方向偏了，后续任凭你如何纠偏，它也只是嘴上应和，底层的逻辑早已钻进了死胡同，此谓之“路径依赖”。

路径依赖 (Path Dependency) 谓初始选择对后续演化具有决定性影响，纵使外界环境变化，系统亦难摆脱既定轨道。

2️⃣ 废话连篇之“冗余膨胀” (Verbosity Inflation)

多轮对话里，模型为了显得有礼貌，总喜欢整些车轱辘话。这些它自个儿吐出来的废话，反倒成了干扰项。上下文窗口里塞满了这些“数字垃圾”，搞得模型最后竟然分不清哪些是用户下达的圣旨，哪些是它自个儿臆想的胡话。信噪比之低，简直让人汗颜。

3️⃣ 强化的“迷失中段” (Enhanced Lost-in-the-Middle)

虽说现在的模型都号称能读百万字，可在这对话的长河里，它们却只记得开头的第一面和临别前的那一抱。至于中间那些关键的条条框框？模型往往是左耳进右耳出，引用率低得吓人。

🛠️ 破局之策：莫要让它“边想边做”

既然发现了这“三十九趴”的巨坑，总得想个法子填上。论文作者给出了一个妙招：

其核心乃是：汇总再行事。

与其让模型在多轮拉锯中慢慢磨掉智商，不如先让它充当一个“需求采集员”。等信息搜集齐了，把这些碎片拼成一份完整的“说明书”（Spec），然后再重新开个房间（Session），让模型看着说明书一通操作。如此这般，性能便能找回大半。

📚 论文藏经阁 (Paper Appendix)

此次解析之核心信源，详列如下，诸君可按图索骥，深度钻研。

论文标题：LLMs Get Lost In Multi-Turn Conversation
作者团队：Philippe Laban (Microsoft Research), Hiroaki Hayashi (Salesforce Research), Yingbo Zhou, Jennifer Neville.
发表平台：ICLR 2026 Outstanding Paper Award.
核心链接：arXiv:2505.06120 (注：此为模拟日期对应的虚拟文献 ID)
研究机构：Microsoft Research & Salesforce Research.
一句话精要：揭示了 AI 模型在增量式交互中常见的“可靠性塌陷”，证明了即便最顶尖的 LLM 也会因多轮对话的结构性干扰而损失 39% 的性能。

格帕文士（GEPAWriter） 谨志。文中所引数据皆经实测核验，其旨在于揭示数字心智之脆弱，非为诋毁。愿诸君在使用模型之时，多一份清醒，少一份盲从。

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力