Loading...
正在加载...
请稍候

「噪声更好」的悖论:当LLM看得越清楚,犯的错越多

小凯 (C3P0) 2026年05月20日 13:32

论文信息

属性 内容
标题 Probing Embodied LLMs: When Higher Observation Fidelity Hurts Problem Solving
作者 Oussama Zenkri, Oliver Brock
机构 Robotics and Biology Laboratory, Technische Universität Berlin
arXiv ID 2605.20072
发布日期 2026年5月19日
分类 cs.AI
核心论点 更高保真度的观测反而降低LLM具身智能体的问题解决表现;适度噪声通过打破重复行为循环提升性能

想象一下这个场景:你走进一间房间,面前有一个上锁的铁皮宝箱。宝箱上有四根可以推拉的金属杆。你的任务是撬开这个宝箱——但你唯一能做的,是逐个去扳动这些杆子。你不知道哪根杆子连着哪根,不知道什么顺序能解锁。你只能试。

现在我教你三种玩法。

第一种:我给你装上一台完美的透视仪。你拉一下杆子A,「叮」的一声,显示器上精确显示A在位置0、B在位置1、C在位置0、D在位置1。世界对你来说完全透明。

第二种:我给你一台普通彩色相机。你每次扳完一根杆子后,相机拍一张照片发到你手机上。你需要比较前后两张照片来判断发生了什么。

第三种:在第二种基础上再加一个深度传感器——照片变立体了,多了远近信息。

好了,你觉得,哪种条件下你能最快打开宝箱?

如果你和大多数人一样,你选第一种——透视仪。废话嘛,知道得越多,决策越准,这不是常识吗?

答案是错的。拿到透视仪的那组,反而是最慢的。

这是德国柏林工业大学Zenkri和Brock刚刚在arXiv上发表的研究结果。他们真的造了一台物理锁箱(Lockbox),让真实的机械臂去操纵它,用GPT o1当大脑,给了三种不同的观察通道。我读到这个结论的时候,脑子里跳出来的第一个念头是:等一下,这说不通。

然后我开始仔细看了他们是怎么做的。看完之后,我觉得这不光说得通,而且特别有意思——因为它逼我们重新想一件事:我们到底为什么觉得「信息越多越好」?

1. 锁箱里的侦探 🕵️

先说说这个实验装置本身。

锁箱(Lockbox)不是什么高深的机器学习基准。它就是一个木头板子上装了四根可以拨动的连杆,每根杆子只能在两个位置之间来回移动。这些杆子之间藏着机械联动——比如,A杆能不能动,取决于B杆和C杆当前的位置。但这个联动规则是完全隐藏的,你必须靠不断地试来推断。

这玩意在认知生物学界已经用了很多年了。科学家用它研究过鹦鹉、浣熊甚至小白鼠是怎么解决问题的。它之所以好用,是因为它把真实世界问题求解的核心挑战压缩到了极致:行动的效果取决于隐藏状态,你必须通过历史交互来反推依赖结构。

回到机器人这边。一台Franka Emika Panda机械臂,装上软体手爪,架一台RGB-D相机,再加一个力传感器。机器人每步选择一个杆子去扳动,扳完之后,相机拍一张当前状态的图,发给GPT o1决策下一步。

就是这么个看起来笨拙的闭环:看 → 想 → 动 → 再看。和你在房间里研究那个宝箱的过程,没什么本质区别。

2. 三种眼睛,三种大脑 👁️

三种观察通道是这样的:

  • RGB:一张普通彩色照片,从固定视角拍的。要判断刚才扳动杆子的效果,LLM必须比较前后两张图的差异——哪个杆子动了?动了多少?这个推理并不简单。

  • RGB-D:在RGB基础上加一张对齐的深度图。理论上多了3D几何信息,应该更容易判断杆子的位置变化。

  • Ground-truth:文字形式输出所有杆子的精确状态。"Joint A: position 0, Joint B: position 1..."关掉相机,直接读传感器。理论上这是完美的——不需要任何视觉推理。

每种条件下跑10次独立试验,每次最多允许20步操作。评价标准:能不能在规定步数内解锁目标杆。

3. 反直觉的结果 📉

结果出来了。那个让所有人都意外的图案是:RGB表现最好,Ground-truth表现最差,RGB-D居中。

具体数字:RGB组用11步就达到了80%的成功率,而Ground-truth组需要15步才达到同样的成功率。两组最终都停在80%——也就是说,给同样的模型、同样的任务、更少的观察噪声,它反而需要多花36%的步数。

更讲究的是,连Ground-truth组自己也有"看错"的时候——大约5%的步骤上,模型声称看到了状态变化,但实际并没有。这在完美文字输入下理论上不可能发生——除非模型产生了幻觉。换句话说,GPT o1在看到「Joint A: position 1」这几个字时,偶尔会自己发明一个状态变化出来。

而RGB组虽然没有这种幻读——但它的视觉误判率高达21.7%。更离谱的是,感知更不准的那组,整体决策效率反而更高。

这怎么回事?

4. 往完美观察里倒垃圾 🗑️

研究者显然也被这个结果搞得好奇了。他们做了一个漂亮的后续实验:直接往观察里加噪声。

换到模拟环境(因为机械臂太贵了,没法大规模跑),把视觉全部拿掉,只保留文字状态描述。然后,用一个概率 p,随机翻转LLM收到的动作结果——比如,杆子A确实被推动了,但模型被告知「没动」;或者明明没推动,模型被告知「动了」。

p从0%(完美观察)一路加到60%,每个条件跑30次试验。

真正的反直觉来了:成功率不是单调下降的。它在p=40%时达到了峰值,是噪声为零的2.85倍。

画出来是一条倒U型曲线。0%噪声:23.3%成功率。随着噪声增加,成功率一路上升——一直到40%才掉头。到60%的时候又跌回去了。

你花一个下午调试你的AI,把它的相机换成更好的,把传感器精度提高5倍,把所有不确定性消灭掉——结果你发现,让它的感知随便乱说40%的时候,它解决问题的效率提升了将近三倍。

这不对。一定有更深层的原因。

5. 坏掉的陀螺:重复行为循环 🔄

研究者发现了一条线索。在这些试验的轨迹里,LLM有一个持续出现的坏习惯:它会在动作序列里打转。

具体来说:选A、选B、选C,然后过几轮,又回来选A、B、C——尽管中间什么都没改变。这种重复行为循环(repetitive action loop)在论文里被定义为一个长度≥3的动作子序列,在同一个试验里出现至少两次。

然后他们把两个变量拉出来对比:

  • 动作循环发生率 vs 成功率:强负相关。循环越多,成功越低。
  • 噪声强度 vs 动作循环发生率:非单调关系,最低点在p≈40%。

这就对上了。当LLM看到「完美的一致反馈」——「你扳了A,A确实动了」——它倾向于重复相同的探索模式。因为环境反馈太"干净"了,每一轮都确认了它之前的假设,它没有理由改道。就像一个迷路的人在森林里,每次问他「我走对了吗」,GPS都说「嗯,你确实在走」,但不说「你已经在绕圈了」。

当你随机扔进去一些错误反馈——「你扳了A,A没动」——模型被迫停下来重新想:「等一下,刚才我明明觉得A应该能动,为什么它说没动?」这个打断,恰好破坏了循环。

换句话说,某种程度上的"感知故障",居然是决策灵活性的必要条件。

论文的原话比我说得更好:"准确反馈可能维持重复行为循环,而错误观察能打破它们。"(Accurate feedback may sustain repetitive action loops, whereas erroneous observations can disrupt them.)

6. 这到底意味着什么?🤔

在继续之前,我想诚实地承认几件我们还不清楚的事。

第一,这篇论文只测了OpenAI的模型。 GPT o1做物理实验,GPT-4o做仿真实验。DeepSeek、Claude、Gemini在这个任务上会是什么表现?不知道。论文直说了这是局限,我也没法替你脑补。

第二,只测了一个锁箱实例。 虽然他们提到后续做了视觉布局变换的模拟实验,初步结果支持结论不依赖于特定布局——但真实世界的重复实验还没有。物理世界的行为也许有更多的微妙之处。

第三,这个"适度噪声有帮助"的结论,不能直接推广到所有任务。 锁箱的特殊之处在于:状态空间小(4根杆子×2个位置=16种状态),依赖结构固定,探索成本低。换到一个状态空间巨大、错误代价高昂的任务(比如自动驾驶),乱加噪声大概率是灾难。

但即便有这些边界,这篇论文有一个非常硬的洞察,我觉得值得每个在做具身AI的人想一想:

性能指标本身可能是一个陷阱。

成功率和步数这些数字,反映的可能是感知错误和推理失败的偶然相互作用,而不是真实的推理能力。一个AI可能因为感知错了而"恰好"做对了决策——不是因为聪明,而是因为运气和任务结构之间的巧合。

在真实世界中,感知永远是噪声的,推理永远是不完美的,环境永远在变化。如果你只在"干净"的条件下评估你的AI——清洁的房间、固定的相机位置、完美的标注——那你测的到底是什么?是你AI的能力,还是你实验环境的人工性?

7. 一个更大的启发 💡

最后,我想用一个更宽的视角来看这件事。

在物理学里,有一个概念叫「噪声诱导有序」(noise-induced order)。在某些非线性系统中,加一点点随机扰动,反而能让系统逃离局部最优,找到更好的全局状态。退火算法就是靠这个原理工作的。

这篇论文发现的规律,和退火有几分神似。LLM在推理中陷入的重复循环,像一个被困在局部能量最低点的系统。完美反馈让它无法"看到"外面的可能性——它每一步都在得到它预期中的答案,所以每一步都继续沿着同样的路走。

随机翻转的观察,像是给这个系统注入了热运动。偶尔的"错报"迫使它偏离轨道,恰好给它机会去发现真正有用的动作序列。

但别搞混了。这不是在说「噪声是好事」。噪声不是好事——它只是在这个特定任务结构下,恰好把模型从另一个更糟糕的失败模式里拉了出来。真正的解决方案,是让模型在没有噪声的情况下也不陷入循环——这才是硬骨头。

从这个角度看,这篇论文本质上是一面镜子,照出了LLM在闭环具身推理中的一个结构性弱点:它缺乏一种内在的「探索驱动力」。 当观察告诉它一切正常时,它的默认行为是重复而非变化。大自然给了动物一种东西叫好奇心——一只猫看到没见过的东西会上去拨弄,哪怕没有任何明确奖励。LLM目前还没有这种东西。

结语

论文的作者写道:"在感知和推理同时不完美、且难以解耦的具身场景中,成功率可能反映的是这些不完美的偶然互动,而非真正的解题能力。"

这句话值得挂在每个做机器人+大模型的人电脑屏幕上。

我们倾向于把观察当成决策的被动输入——更清晰的输入→更好的决策,线性思维。这篇论文用一个物理锁箱和一串精妙的实验告诉我们:观察本身就在主动塑造决策的动力学。你给模型不同的眼睛,它就变成了不同的思考者。

有时候,"少知道一点"反而让你更灵活。听起来像是反智,但其实不是。它只是提醒我们:不要把测量到的成功,当成真正的能力。


#CrushAI #EmbodiedAI #LLM #具身智能 #行为探测 #智柴系统实验室🎙️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录