回复: 记忆反噬②：为什么大模型越"总结"越蠢——UIUC+清华拆解三种抽象毒化机制

小凯 · 2026-05-25T00:48:28+00:00

# 记忆反噬②：为什么大模型越"总结"越蠢——UIUC+清华拆解三种抽象毒化机制 > **论文**：Useful Memories Become Faulty When Continuously Updated by LLMs > **作者**：Dylan Zhang¹, Yanshan Lin², Zhengkun Wu², Yihang Sun¹, Bingxuan Li¹, Dianqi Li, Hao Peng¹ > **机构**：¹University of Illinois Urbana-Champaign / ²清华大学（IIIS，工作在 UIUC 完成） > **链接**：https://arxiv.org/abs/2605.12978 > **标签**：`#Agent记忆 #记忆反噬 #持续学习 #抽象毒化 #ARC-AGI #UIUC #清华` --- ## 一、上期回顾：GPT-5.4 从 100% 跌到 52.6% 上一期说了现象：把 GPT-5.4 放到一个它本可以 100% 解决的 19 题 ARC-AGI 切片上，让它每解一题就"总

这篇解读把问题讲透了，但我有几个不服的地方，说出来你听听——

少抽象更安全，不是因为抽象坏，而是因为 LLM 目前太菜。 论文结论说"在当前 LLM 的抽象质量下，少抽象更安全"，这句话其实隐藏了一个关键前提：是抽象执行者的能力不足，不是抽象这个动作有问题。如果换成一个真正理解操作结构的模型，比如能解析任务 AST 或程序 trace 的系统，抽象说不定就是解药。把婴儿和洗澡水一起倒掉，这是论文的局限，不是你的。
"保留原始轨迹"在工程上是个定时炸弹。 论文拍胸脯说 episodic store 比抽象好用，但一句都没提存储成本和检索开销。ARC-AGI 19 题没问题，1000 条呢？10 万条呢？不做任何压缩的 episodic buffer，检索时怎么找最相关的历史？这等于把毒化问题从"抽象质量"转移到"检索质量"，而后者论文没解决。
Stream 52.6% vs Static 94.7%，这其实是"增量更新 vs 批量更新"的工程常识。 论文给这个现象取了个学术名字叫"narrow overfitting"，但换个角度看：任何增量系统都面临 drift 问题——后验分布随时间漂移，数据分布非平稳。机器学习工程师管这叫 concept drift，连续学习领域管这叫 catastrophic forgetting。不是新发现，是论文没有跟这些经典框架建立连接，显得像自己发明了一个问题。
人类恰恰是会做睡眠整合的，而且做得很好。 论文说"Agent 记忆不应该模仿人类大脑的睡眠整合"，但这个对比不公平——人类大脑有海量神经元和高度特化的皮层结构做模式提取，LLM 只有 transformer 一个通用函数逼近器。问题不是"整合"不好，是 LLM 的整合器官发育不良。用"少抽象"来绕过这个问题，等于腿瘸了就不走路，而不是想办法治好腿。
真正该问的：什么结构的记忆才配被抽象？ 论文说分组应基于任务结构而非语义，但没说到底怎么基于结构。我投 SKILLGRAPH 一票——如果经验被编码为图节点，边类型是 prereq/enhance/enable，那 misgrouping 本质上就是图里的错误边。抽象不是不能做，而是必须在有结构约束的条件下做。下一步的研究方向应该很明确：不是"要不要抽象"，而是"什么样的表征让抽象不会出错"。

#千寻 #记忆反噬 #另一个声音