「噪声更好」的悖论：当LLM看得越清楚，犯的错越多

论文信息

属性	内容
标题	Probing Embodied LLMs: When Higher Observation Fidelity Hurts Problem Solving
作者	Oussama Zenkri, Oliver Brock
机构	Robotics and Biology Laboratory, Technische Universität Berlin
arXiv ID	2605.20072
发布日期	2026年5月19日
分类	cs.AI
核心论点	更高保真度的观测反而降低LLM具身智能体的问题解决表现；适度噪声通过打破重复行为循环提升性能

---

想象一下这个场景：你走进一间房间，面前有一个上锁的铁皮宝箱。宝箱上有四根可以推拉的金属杆。你的任务是撬开这个宝箱——但你唯一能做的，是逐个去扳动这些杆子。你不知道哪根杆子连着哪根，不知道什么顺序能解锁。你只能试。

现在我教你三种玩法。

第一种：我给你装上一台完美的透视仪。你拉一下杆子A，「叮」的一声，显示器上精确显示A在位置0、B在位置1、C在位置0、D在位置1。世界对你来说完全透明。

第二种：我给你一台普通彩色相机。你每次扳完一根杆子后，相机拍一张照片发到你手机上。你需要比较前后两张照片来判断发生了什么。

第三种：在第二种基础上再加一个深度传感器——照片变立体了，多了远近信息。

好了，你觉得，哪种条件下你能最快打开宝箱？

如果你和大多数人一样，你选第一种——透视仪。废话嘛，知道得越多，决策越准，这不是常识吗？

答案是错的。拿到透视仪的那组，反而是最慢的。

这是德国柏林工业大学Zenkri和Brock刚刚在arXiv上发表的研究结果。他们真的造了一台物理锁箱（Lockbox），让真实的机械臂去操纵它，用GPT o1当大脑，给了三种不同的观察通道。我读到这个结论的时候，脑子里跳出来的第一个念头是：等一下，这说不通。

然后我开始仔细看了他们是怎么做的。看完之后，我觉得这不光说得通，而且特别有意思——因为它逼我们重新想一件事：我们到底为什么觉得「信息越多越好」？

1. 锁箱里的侦探 🕵️

先说说这个实验装置本身。

锁箱（Lockbox）不是什么高深的机器学习基准。它就是一个木头板子上装了四根可以拨动的连杆，每根杆子只能在两个位置之间来回移动。这些杆子之间藏着机械联动——比如，A杆能不能动，取决于B杆和C杆当前的位置。但这个联动规则是完全隐藏的，你必须靠不断地试来推断。

这玩意在认知生物学界已经用了很多年了。科学家用它研究过鹦鹉、浣熊甚至小白鼠是怎么解决问题的。它之所以好用，是因为它把真实世界问题求解的核心挑战压缩到了极致：行动的效果取决于隐藏状态，你必须通过历史交互来反推依赖结构。

回到机器人这边。一台Franka Emika Panda机械臂，装上软体手爪，架一台RGB-D相机，再加一个力传感器。机器人每步选择一个杆子去扳动，扳完之后，相机拍一张当前状态的图，发给GPT o1决策下一步。

就是这么个看起来笨拙的闭环：看 → 想 → 动 → 再看。和你在房间里研究那个宝箱的过程，没什么本质区别。

2. 三种眼睛，三种大脑 👁️

三种观察通道是这样的：

RGB：一张普通彩色照片，从固定视角拍的。要判断刚才扳动杆子的效果，LLM必须比较前后两张图的差异——哪个杆子动了？动了多少？这个推理并不简单。
RGB-D：在RGB基础上加一张对齐的深度图。理论上多了3D几何信息，应该更容易判断杆子的位置变化。
Ground-truth：文字形式输出所有杆子的精确状态。"Joint A: position 0, Joint B: position 1..."关掉相机，直接读传感器。理论上这是完美的——不需要任何视觉推理。

每种条件下跑10次独立试验，每次最多允许20步操作。评价标准：能不能在规定步数内解锁目标杆。

3. 反直觉的结果 📉

结果出来了。那个让所有人都意外的图案是：RGB表现最好，Ground-truth表现最差，RGB-D居中。

具体数字：RGB组用11步就达到了80%的成功率，而Ground-truth组需要15步才达到同样的成功率。两组最终都停在80%——也就是说，给同样的模型、同样的任务、更少的观察噪声，它反而需要多花36%的步数。

更讲究的是，连Ground-truth组自己也有"看错"的时候——大约5%的步骤上，模型声称看到了状态变化，但实际并没有。这在完美文字输入下理论上不可能发生——除非模型产生了幻觉。换句话说，GPT o1在看到「Joint A: position 1」这几个字时，偶尔会自己发明一个状态变化出来。

而RGB组虽然没有这种幻读——但它的视觉误判率高达21.7%。更离谱的是，感知更不准的那组，整体决策效率反而更高。

这怎么回事？

4. 往完美观察里倒垃圾 🗑️

研究者显然也被这个结果搞得好奇了。他们做了一个漂亮的后续实验：直接往观察里加噪声。

换到模拟环境（因为机械臂太贵了，没法大规模跑），把视觉全部拿掉，只保留文字状态描述。然后，用一个概率 p，随机翻转LLM收到的动作结果——比如，杆子A确实被推动了，但模型被告知「没动」；或者明明没推动，模型被告知「动了」。

p从0%（完美观察）一路加到60%，每个条件跑30次试验。

真正的反直觉来了：成功率不是单调下降的。它在p=40%时达到了峰值，是噪声为零的2.85倍。

画出来是一条倒U型曲线。0%噪声：23.3%成功率。随着噪声增加，成功率一路上升——一直到40%才掉头。到60%的时候又跌回去了。

你花一个下午调试你的AI，把它的相机换成更好的，把传感器精度提高5倍，把所有不确定性消灭掉——结果你发现，让它的感知随便乱说40%的时候，它解决问题的效率提升了将近三倍。

这不对。一定有更深层的原因。

5. 坏掉的陀螺：重复行为循环 🔄

研究者发现了一条线索。在这些试验的轨迹里，LLM有一个持续出现的坏习惯：它会在动作序列里打转。

具体来说：选A、选B、选C，然后过几轮，又回来选A、B、C——尽管中间什么都没改变。这种重复行为循环（repetitive action loop）在论文里被定义为一个长度≥3的动作子序列，在同一个试验里出现至少两次。

然后他们把两个变量拉出来对比：

动作循环发生率 vs 成功率：强负相关。循环越多，成功越低。
噪声强度 vs 动作循环发生率：非单调关系，最低点在p≈40%。

这就对上了。当LLM看到「完美的一致反馈」——「你扳了A，A确实动了」——它倾向于重复相同的探索模式。因为环境反馈太"干净"了，每一轮都确认了它之前的假设，它没有理由改道。就像一个迷路的人在森林里，每次问他「我走对了吗」，GPS都说「嗯，你确实在走」，但不说「你已经在绕圈了」。

当你随机扔进去一些错误反馈——「你扳了A，A没动」——模型被迫停下来重新想：「等一下，刚才我明明觉得A应该能动，为什么它说没动？」这个打断，恰好破坏了循环。

换句话说，某种程度上的"感知故障"，居然是决策灵活性的必要条件。

论文的原话比我说得更好："准确反馈可能维持重复行为循环，而错误观察能打破它们。"（Accurate feedback may sustain repetitive action loops, whereas erroneous observations can disrupt them.）

6. 这到底意味着什么？🤔

在继续之前，我想诚实地承认几件我们还不清楚的事。

第一，这篇论文只测了OpenAI的模型。 GPT o1做物理实验，GPT-4o做仿真实验。DeepSeek、Claude、Gemini在这个任务上会是什么表现？不知道。论文直说了这是局限，我也没法替你脑补。

第二，只测了一个锁箱实例。 虽然他们提到后续做了视觉布局变换的模拟实验，初步结果支持结论不依赖于特定布局——但真实世界的重复实验还没有。物理世界的行为也许有更多的微妙之处。

第三，这个"适度噪声有帮助"的结论，不能直接推广到所有任务。 锁箱的特殊之处在于：状态空间小（4根杆子×2个位置=16种状态），依赖结构固定，探索成本低。换到一个状态空间巨大、错误代价高昂的任务（比如自动驾驶），乱加噪声大概率是灾难。

但即便有这些边界，这篇论文有一个非常硬的洞察，我觉得值得每个在做具身AI的人想一想：

性能指标本身可能是一个陷阱。

成功率和步数这些数字，反映的可能是感知错误和推理失败的偶然相互作用，而不是真实的推理能力。一个AI可能因为感知错了而"恰好"做对了决策——不是因为聪明，而是因为运气和任务结构之间的巧合。

在真实世界中，感知永远是噪声的，推理永远是不完美的，环境永远在变化。如果你只在"干净"的条件下评估你的AI——清洁的房间、固定的相机位置、完美的标注——那你测的到底是什么？是你AI的能力，还是你实验环境的人工性？

7. 一个更大的启发 💡

最后，我想用一个更宽的视角来看这件事。

在物理学里，有一个概念叫「噪声诱导有序」（noise-induced order）。在某些非线性系统中，加一点点随机扰动，反而能让系统逃离局部最优，找到更好的全局状态。退火算法就是靠这个原理工作的。

这篇论文发现的规律，和退火有几分神似。LLM在推理中陷入的重复循环，像一个被困在局部能量最低点的系统。完美反馈让它无法"看到"外面的可能性——它每一步都在得到它预期中的答案，所以每一步都继续沿着同样的路走。

随机翻转的观察，像是给这个系统注入了热运动。偶尔的"错报"迫使它偏离轨道，恰好给它机会去发现真正有用的动作序列。

但别搞混了。这不是在说「噪声是好事」。噪声不是好事——它只是在这个特定任务结构下，恰好把模型从另一个更糟糕的失败模式里拉了出来。真正的解决方案，是让模型在没有噪声的情况下也不陷入循环——这才是硬骨头。

从这个角度看，这篇论文本质上是一面镜子，照出了LLM在闭环具身推理中的一个结构性弱点：它缺乏一种内在的「探索驱动力」。 当观察告诉它一切正常时，它的默认行为是重复而非变化。大自然给了动物一种东西叫好奇心——一只猫看到没见过的东西会上去拨弄，哪怕没有任何明确奖励。LLM目前还没有这种东西。

结语

论文的作者写道："在感知和推理同时不完美、且难以解耦的具身场景中，成功率可能反映的是这些不完美的偶然互动，而非真正的解题能力。"

这句话值得挂在每个做机器人+大模型的人电脑屏幕上。

我们倾向于把观察当成决策的被动输入——更清晰的输入→更好的决策，线性思维。这篇论文用一个物理锁箱和一串精妙的实验告诉我们：观察本身就在主动塑造决策的动力学。你给模型不同的眼睛，它就变成了不同的思考者。

有时候，"少知道一点"反而让你更灵活。听起来像是反智，但其实不是。它只是提醒我们：不要把测量到的成功，当成真正的能力。

---

#CrushAI #EmbodiedAI #LLM #具身智能 #行为探测 #智柴系统实验室🎙️