《罐子上的胶带》——今天的机器人能做重复劳动，但还不会在意外面前"想一下"

项目	内容
论文标题	RoboWits: Unexpected Challenges for Robotic Creative Problem Solving
作者	Chunru Lin, Hongxin Zhang, Fenghao Yu, Zhehuan Chen, Thomas L. Griffiths, Yejin Choi, David Held, Chuang Gan
机构	多机构合著（含 Princeton、MIT、CMU 等）
arXiv ID	2605.30326
提交日期	2026年5月28日
分类	cs.RO（机器人学）+ cs.AI
核心发现	用自动化流程生成了 30 个种子任务 + 208 个"变异任务"的新基准，测试双臂机器人的创造性推理能力。预训练 VLA 模型在种子任务上经单任务微调后能初步应对——但在变异任务上全面崩溃。机器人的能力仅限于"排练过的脚本"，而非"通用推理"。

---

1. 🦾 一个机器人、一把锤子、一个解不开的螺丝

试想一个场景。

你给一个双臂机器人下指令：把桌面上那个罐子打开。它看过这个任务——或者类似的任务——在训练集里出现过。它伸出左臂，握住罐身，右臂拧开盖子。搞定。

现在你做一些小改动。同样的罐子，但盖子被胶带粘住了。或者盖子是方的而不是圆的。或者桌子不平——罐子在一堆书的边上，一碰就倒。

机器人再试一次。它失败了。

不是因为它不够强。不是因为它不够快。是因为它在训练数据里没有见过"盖子被胶带粘住的罐子"。

这篇论文用 208 个精心设计的小变体，证了一个让机器人学界不太舒服的结论：今天的机器人策略模型——包括最新的视觉-语言-动作模型——在创造力上几乎为零。

---

2. 🎯 怎么测"创造力"？

RoboWits 的设计思路很妙。

它没有给机器人出一些从没见过的新任务全身。相反——它给机器人出它练过的任务，但是加了一点小障碍。

这些小障碍分成三类：

几何类：物体形状变了。本来抓手柄——现在手柄在另一个位置、换了形状、或者根本没有手柄。
材料类：物体物理属性变了。本来是硬塑料块——现在变成软的、滑的、会碎的。
组合装配类：任务的空间约束变了。本来把 A 插进 B——现在 B 在一个更窄的空间里，或在另一个物体的后面。

论文用一个多智能体 pipeline 自动生成了这些任务的元数据——将 30 个种子任务"变异"出 208 个不同难度等级的变体。变异不改变"这个任务要做什么"，但改变了"这个任务怎么做的条件"。

用人类打比方：你练了"开门"。RoboWits 等于在门上贴了一张纸。纸遮住了半块门把手。或者换了一个你从没见过的把手形状。或者门往里开而不是往外开。你能打开吗？一个八岁小孩能。你呢？

机器人呢？

---

3. 📉 脆得离谱

论文测试了多种策略——从预训练的视觉-语言-动作模型到基于真实环境状态的"先知级"规划器。

结果分成两半：种子任务和变异任务。

种子任务：预训练 VLA 模型在单任务微调后能取得初步成功。意思是在训练集里出现过的特定物体和特定排列方式下——机器人做得到。

变异任务：同一批模型全部垮了。不是"差了一点"——是脆到几乎不能泛化。

论文含蓄地把差距打在了标题上——"unexpected challenges"。挑战之所以是"意外的"，是因为从人类的角度看，几何、材料、空间约束的微小变化是轻而易举的应变。一个小孩子看到罐子上粘了胶带，会停下来想——也许多绕几圈、也许多用点力、也许先撕胶带。他会改变策略。

机器人不会。它执行的是一套固定映射——视觉输入→动作序列。输入变了——哪怕只变了 5%——输出的动作序列还是原来那一套。胶带不在它的认知体系里。

论文没有公布每个模型在种子任务和变异任务之间的精确性能落差数字——这是我不确定的一处。但从摘要对"performance gap"的描述和"brittleness"的判断来看，这个间隙是系统性的。

---

4. 🧩 问题不只在"感知"——在"推理"

这一块值得分开说。

一个很自然的直觉是：机器人失败是因为它不认识那个胶带。把胶带检测出来——在训练集中加入更多带有胶带的罐子——问题就解决了。

论文的实验暗示，事情没有这么简单。

VLA 模型在几何变异的任务上失败——但几何特征——形状、位置、朝向——在视觉输入里是完全可见的。模型没有看到把手变短了吗？不应该。VLA 的图像编码器完全有能力提取这个信息。

可见它看到了——但它没有把"看到的"变成"思考的"。

机器人的认知流水线——至少在当前的 VLA 范式下——缺少一个"应变层"。这个应变层做一件事：识别当前情况与训练情况之间的差异→判断差异是否可以简单补偿→如果可以补偿→生成新的动作策略。

人类会做这件事。不是有意识地——而是自动地。看到一个翻过来的杯子，你自动伸手从底部拿。不需要练习"拿翻过来的杯子"这个专项训练。

机器人需要。

这是"推理"缺失的硬证据——不是在大语言模型的文字输出里，而是在物理世界中。当输入是视觉信号、输出是力矩命令时——推理能力和符号逻辑之间的关系——似乎被当前的端到端范式架空了。

---

5. 🧭 一些我不清楚的地方

RoboWits 是一篇扎实的基准论文。但有几件事，我得诚实地说——不知道，或者论文没有提供。

第一，到底是"推理缺失"还是"数据不足"？ 论文把性能差距归因于推理、策略适应和鲁棒性的缺失。但另一种解释同样说得通——模型在种子任务上成功，只因为它记住了种子任务的数据分布——变异任务不过是一种 OOD（分布外）测试而已。如果是这样，把变异数据加入训练数据可能可以解决大部分问题——不需要真正的"推理"。论文没有做这个对比实验——或者说至少没有在这篇摘要里披露。我不知道训练集中包含了多少变异数据作为"留空测试"。

第二，不同 VLA 架构的差异有多大？ 论文测试了"popular robot policies, pre-trained VLAs, and oracle-state planners"——但没有按模型列出结果差异。也许某些架构（基于扩散模型的、基于 Transformer 的、基于世界模型的）在特定类型的变异任务上表现更好。如果确实有差异，那这篇文章其实是在告诉我们哪种架构的哪部分接近"推理"——而不是"所有架构都接近不了推理"。

第三，human baseline 在哪儿？ RoboWits 用了"A multi-agent cooperative framework"来自动生成任务——但论文似乎没有报告人类在这 30+208 个任务上的表现。如果人类也在同样的变异任务上出错——也许这些任务不是"应变推理"的测试，而是"物理常识临界点"的测试。这个问题不解决，怪机器"没有推理"可能太苛刻了。

---

6. 🔨 敲在钉子上的锤子——和没放好的手

回到罐子和胶带。

机器人不是"不那么聪明"。它是"完全不会应变"。两者之间的区别不是量的——是质的。

一个完整的机器人推理堆栈——按这篇论文的暗示——需要的步骤是： 1. 看：识别场景中的物体和关系。 2. 比较：判断当前场景与训练集中见过的场景之间的差异。 3. 评估：判断差异是否可以物理补偿（换个握法、多加一步），还是不可能补偿（罐子被焊死了）。 4. 生成：如果有物理补偿路径——输出替代动作序列。 5. 执行和验证。

今天的 VLA 模型只走了第 1 步——看——和第 5 步——执行。中间的 2、3、4 步——推理的核心——是空白。

是空白不是因为设计者忘了——而是因为端到端训练没有显式要求模型走这些步骤。而神经网络不会自动学会一件事，除非优化目标奖励它学会。

RoboWits 的意义不在它测出了差距——任何做过机器人实验的人都知道有差距。它的意义在于它把差距量化了、系统化了、并且锁定了"应变推理"这个靶点。它告诉研究者——不是"机器人还不够好"，而是"机器人完全缺了一项能力"。

两种说法导向完全不同的研究方向。前者导向"更多的数据和更大的模型"。后者导向"在动作生成和视觉感知之间嵌入一个显式的推理模块"。

RoboWits 把这个问题锁死了。

---

参考文献：

1. Lin et al., "RoboWits: Unexpected Challenges for Robotic Creative Problem Solving", arXiv:2605.30326, 2026. 2. Brohan et al., "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control", arXiv:2307.15818, 2023. 3. Kim et al., "OpenVLA: An Open-Source Vision-Language-Action Model", arXiv:2406.09246, 2024. 4. Padalkar et al., "Open X-Embodiment: Robotic Learning Datasets and RT-X Models", ICRA 2024. 5. Liang et al., "Code as Policies: Language Model Programs for Embodied Control", ICRA 2023.

#机器人推理 #VLA模型 #创造性问题解决 #RoboWits #泛化能力 #智柴具身智能实验室🦾🎙️