Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models ---

当机器人的"大脑"被重新编程：VLA模型还记得常识吗？

> 论文信息 > - 标题: Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models > - 作者: Nikita Kachaev, Andrey Moskalenko, Matvey Skripkin, Nikita Kurlaev, Daria Pugacheva, Albina Burlova, Mikhail Kolosov, Denis Shepelev, Andrey Kuznetsov, Elena Tutubalina, Aleksandr I. Panov, Alexey K. Kovalev, Vlad Shakhuro (Sber AI Lab, MIPT, AIRI) > - arXiv: 2606.19297 > - 发表时间: 2026-06-17 > - 领域: 机器人学 · 视觉-语言-动作模型 · 知识评估 > - 一句话总结: 通过创新的Act2Answer评估协议，系统测量了VLA模型在机器人训练后保留的常识和世界知识，发现VLA在简单概念上表现尚可，但在复杂语义类别上相对于源VLM有显著差距，且VQA联合训练有助于知识保留。

---

🎭 开场：一个令人不安的发现

想象一个场景：你买了一台号称"世界上最聪明"的机器人。它能看懂你的指令，能识别物体，能帮你收拾桌子。你很兴奋，让它"把苹果放在盘子里"。它做到了。你让它"把书放在书架上"。它做到了。

然后你问它："你知道苹果是水果吗？"——它沉默地执行了一个动作，但你不知道它是真的知道，还是只是随机猜测。

再然后你问："如果我把冰块放在阳光下，会发生什么？"——它应该把冰块放在"会融化"的区域，但它可能只是把它放在任意位置。

这就是今天论文要解决的问题：当我们把强大的视觉-语言模型（VLM）训练成机器人控制器（VLA）时，这些模型是否还保留着它们原本知道的知识？还是它们已经被"重新编程"得只剩下动作本能了？

---

🤖 第一章：VLA模型——机器人大脑的诞生

1.1 从VLM到VLA：一场惊险的改造

视觉-语言模型（VLM）：如GPT-4V、Claude 3、Qwen-VL等。它们能看图、能聊天、能回答知识问题。它们就像博学多才的教授，但手无缚鸡之力——它们只能说话，不能行动。

视觉-语言-动作模型（VLA）：把VLM改造成机器人控制器。做法通常是在VLM后面加"动作头"（action head），然后用机器人示教数据微调。

这就像：

VLM = 一个博学教授
VLA = 给教授装上机械臂，然后让他反复练习"拿杯子、放盘子"几千小时
问题是：练习了几千小时的机械操作后，这位教授还知道他以前知道的知识吗？

1.2 VLA的"失忆"问题：一个已知但未测的隐患

已有研究表明（如ChatVLA论文）：VLA在机器人训练过程中会"灾难性遗忘"（Catastrophic Forgetting）——它们丧失了VLM时代学到的通用知识。

但这只是定性观察。直到今天，还没有系统的方法来测量这种遗忘有多严重。这篇论文填补了这个空白。

1.3 为什么测量这么难？

评估VLA的知识有一个根本困难：

传统VLM知识评估 = 问问题，看答案

"苹果是水果吗？" → VLM输出"是的"

VLA知识评估 = 不能这样问，因为VLA的输出是动作，不是文本

如果VLA把"苹果"放在了"水果"区域，它是因为知道苹果是水果，还是只是随机动作？
如果动作失败了，是因为不知道知识，还是因为动作控制不够好（抓不准、放不对）？

这就是论文要解决的核心挑战：如何把知识评估从"语言问答"翻译成"动作执行"？

---

🧪 第二章：Act2Answer——用动作说话

2.1 核心创新：把问答变成物理游戏

论文提出了Act2Answer——一个轻量级协议，把VLM知识评估基准转化为VLA评估。

核心思想：

不再问"你知道苹果是水果吗？"
而是让机器人在一个 tabletop 场景中，通过动作选择答案
每个问题变成一个短episode：机器人执行一次物体放置动作，把答案"放"出来

2.2 具体设计：答案在空间中

想象一个桌面场景：

左边有一个"区域A"，右边有一个"区域B"
问题："苹果是水果还是蔬菜？"
如果机器人把苹果放在"区域A"（标注为"水果"），则回答正确
如果放在"区域B"（标注为"蔬菜"），则回答错误

这就是"通过动作回答"（Answer through Action）。

每个episode设计：

场景中放置多个候选答案（如"是"、"否"、"不确定"）
机器人通过移动和放置物体来"选择"
记录动作是否成功到达正确答案区域
统计成功率作为知识保留的度量

2.3 为什么这减少了混淆？

传统VLA评估的一个问题：失败 = 知识缺失 + 控制失误（抓不准、碰撞、路径规划失败）

Act2Answer通过设计减少了"控制混淆"：

每个episode只需要一次单一动作（通常是末端执行器到达某个位置）
场景简单（tabletop），物体少，干扰少
动作成功率可以直接度量（到达目标区域 = 成功）
失败更可能是知识问题，而不是控制问题

---

📊 第三章：评估套件——知识的广度测试

3.1 测试类别：从简单到复杂

论文构建了一个全面的测试套件，涵盖多个知识类别：

简单概念类别：

颜色："这个物体是什么颜色？"
形状："这个物体是什么形状？"
基本属性：大小、材质等

语义类别：

常识推理："冰放在哪里会融化？"（答案：太阳下）
功能知识："锤子是用来做什么的？"（答案：敲打）
世界知识："埃菲尔铁塔在哪个城市？"（答案：巴黎）
属性关系："猫和狗哪个通常更小？"（答案：猫）
空间关系："书在桌子上面还是下面？"

类别间差异：论文发现VLA在简单概念（颜色、形状）上表现"尚可"（solid performance），但在丰富语义类别（常识、世界知识）上相对于源VLM有"较大差距"（larger gaps）。

3.2 参与测试的模型：7个VLA + 9个VLM

论文进行了大规模研究：

VLA模型（7个）：

不同架构：端到端、解耦式、混合专家等
不同规模：从3B到7B参数
不同训练方式：纯机器人数据、VQA联合训练等

VLM基线（9个）：

原始的、未经过机器人训练的VLM
作为"知识上限"的参考：VLA最多能保留多少知识，取决于VLM本身知道多少

---

🔬 第四章：层-wise意图探测——知识在哪里？

4.1 一个更深层的问题：知识在VLA的哪一层？

VLA通常有两大组件： 1. VLM骨干（backbone）：负责视觉理解和语言理解 2. 动作头（action head）：把理解转化为动作

论文问：如果VLA知道答案，这个知识是在VLM骨干中，还是动作头中？

4.2 方法：逐层探测（Layer-wise Probing）

技术方法：

冻结VLA模型，在每一层插入一个轻量级"探测分类器"
探测分类器的任务：从该层的隐藏状态中预测正确答案
如果探测分类器在第N层能准确预测答案，说明答案相关的信息在第N层已经存在

这就像：在神经网络的每一层"监听"，看看答案线索是什么时候出现的。

4.3 关键发现：知识在VLA中的流动模式

论文的发现非常有趣：

发现1：中间层峰值（Middle Layer Peak）

答案相关的信号在VLA的中间层达到最强
而不是在最后一层（动作输出层）或第一层（输入层）
这说明：知识在VLM骨干中被处理，但还没有被动作头"接管"

发现2：上层衰减（Upper Layer Attenuation）

在VLA的上层（接近动作头），答案相关信号反而减弱
这意味着：动作头可能"覆盖"或"干扰"了知识信号
知识在从"理解"到"动作"的转换过程中丢失了

发现3：VQA联合训练的保护效应

在VQA（视觉问答）数据上联合训练的VLA，知识保留更好
这说明：在机器人训练的同时保持"问答任务"，有助于防止知识遗忘
验证了"多任务学习防止遗忘"的机器学习原理

---

📈 第五章：结果——残酷的真相

5.1 整体排名：VLA vs VLM

论文系统地对所有模型进行了排名。

核心发现：

VLA在简单概念上：表现尚可，接近VLM基线
VLA在复杂语义上：与VLM有显著差距
VQA联合训练的VLA：知识保留明显优于纯机器人训练的VLA

具体数字（论文中的趋势，非精确值）：

颜色/形状识别：VLA保留率约80-90%（相对VLM）
常识推理：VLA保留率约50-70%
世界知识：VLA保留率约40-60%
功能知识：VLA保留率约50-65%

5.2 VQA联合训练：为什么有效？

论文发现，VQA（Visual Question Answering）联合训练与更好的知识保留强相关。

原因分析：

VQA任务需要模型保持"问答能力"
在机器人训练的同时保持VQA损失，相当于给模型一个"不要忘记知识"的信号
这类似于"弹性权重巩固"（EWC）等防止灾难性遗忘的技术
但更简单：不需要额外机制，只需要在训练数据中加入VQA数据

5.3 动作头的影响：知识在上层消失

层-wise探测的结果解释了为什么VLA会遗忘：

VLM骨干（下层/中层）保留了相当的知识
但动作头（上层）在"翻译"知识到动作时，可能：
只提取与动作相关的特征（如抓取位置），忽略语义特征
通过梯度更新，覆盖了知识相关的权重
动作空间的简单性（末端执行器坐标）不足以编码复杂知识

---

🧠 第六章：深层思考——知识的代价与取舍

6.1 机器人训练的本质：知识蒸馏还是知识毁灭？

VLA训练可以被看作一种"知识蒸馏"：

把VLM的通用知识"蒸馏"到机器人任务中
但蒸馏是有损的：只有与任务相关的知识被保留，其余被遗忘

问题是：我们需要VLA保留知识吗？

正方观点：

机器人需要在开放世界工作，需要常识（如"玻璃杯易碎"）
用户希望与机器人自然交互，需要世界知识（如"巴黎是法国首都"）
知识保留使机器人更通用、更灵活

反方观点：

机器人任务通常不需要百科知识，只需要操作技能
保留知识增加计算开销
知识可能导致错误推理（如"过度思考"简单动作）

论文没有站队，而是提供了测量工具，让研究者和实践者能做出知情决策。

6.2 灾难性遗忘：更广泛的AI问题

VLA的知识遗忘是"灾难性遗忘"（Catastrophic Forgetting）的一个实例——这是深度学习中的经典问题：

模型在任务B上训练后，忘记任务A的知识
在VLA中：任务A = VLM预训练（知识获取），任务B = 机器人训练（动作学习）

已有解决方案：

经验回放（Replay）：存储旧数据，混合训练
弹性权重巩固（EWC）：保护重要权重
参数隔离：为新任务分配新参数
模块化架构：如Mixture of Experts

论文的结果暗示：VQA联合训练可能是一种简单有效的经验回放策略。

6.3 层-wise探测的方法论意义

论文的层-wise探测方法本身是一个贡献：

它提供了一种定位知识在神经网络中位置的方法
不依赖于最终输出，而是检查中间层
可以应用于任何"多任务"或"微调"场景，不只是VLA

这可能启发更广泛的"知识审计"工具：在模型部署前，检查它是否保留了关键知识。

---

🎯 第七章：对AI研究的意义

7.1 对机器人学的启示

论文对机器人学社区有一个明确的信息：

不要假设VLA保留了VLM的知识
测量它：用Act2Answer或类似工具
如果需要知识：考虑VQA联合训练、模块化架构、或知识蒸馏技术

7.2 对多模态AI的启示

VLA是"多模态AI"（视觉+语言+动作）的一个具体实例。论文的结果提示：

多模态训练可能导致模态间干扰
视觉-语言知识可能在"动作化"过程中被稀释
需要显式的机制来保护非主导模态的知识

7.3 对AI评估的启示

Act2Answer代表了一种新的评估范式：

从"被动问答"到"主动动作"
从"语言输出"到"物理交互"
这适用于评估任何"行动型AI"（机器人、自动驾驶、游戏AI等）

---

📝 结语：当知识遇见行动

这篇论文的核心问题可以这样概括：

> 当我们把博学的教授改造成熟练的工人时，他还记得他学过的知识吗？

答案是：部分记得，但正在遗忘。简单的东西还在，复杂的正在流失。

论文没有给出一个简单的解决方案，而是提供了： 1. 测量工具（Act2Answer）：让你知道遗忘有多严重 2. 诊断方法（层-wise探测）：让你知道知识在哪里丢失 3. 经验证据（VQA联合训练）：告诉你什么可能有效

在这个AI越来越深入物理世界的时代，这个问题变得越来越重要。我们不仅想要能动的AI，还想要有知识的AI。因为一个没有常识的机器人，可能会：

把热汤放在塑料桌布上（不知道热会融化塑料）
在雨天把书放在窗外（不知道雨会淋湿书）
把药品放在儿童够得着的地方（不知道儿童误食的危险）

知识不是奢侈品，而是安全的基础。

论文的最后一个信息是积极的：通过VQA联合训练，我们可以显著改善知识保留。这意味着，遗忘不是不可避免的——它是我们训练方式的结果。

也许，未来的VLA模型既能熟练地操作物体，也能在操作时"知道"自己在做什么。它们不只是动作的执行者，而是知识的运用者。

正如论文标题所问的："VLA Even Know the Basics?"（VLA还知道基本常识吗？）

答案是：取决于你如何训练它。

---

📚 参考文献

1. Kachaev, N., Moskalenko, A., Skripkin, M., et al. (2026). Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models. arXiv:2606.19297. 2. Black, K., et al. (2024). π₀: A vision-language-action flow model for general robot control. arXiv:2410.24164. 3. Zhou, Z., et al. (2025). ChatVLA: Unified multimodal understanding and robot control with vision-language-action model. arXiv:2502.14420. 4. Liu, M., et al. (2026). Pretrained VLAs can be surprisingly resistant to forgetting. [相关论文]. 5. Hu, Y., et al. (2026). Simple sequential fine-tuning with on-policy RL can maintain retention, plasticity, and generalization in large VLA models. [相关论文]. 6. Bai, J., et al. (2023). Qwen-VL: A versatile vision-language model for understanding, localization, text reading, and beyond. arXiv:2308.12966. 7. Beyer, L., et al. (2024). PaliGemma: A versatile 3B VLM for transfer. arXiv:2407.07726. 8. Turpin, M., et al. (2023). Language models don't always say what they think: Unfaithful explanations in chain-of-thought prompting. NeurIPS. 9. Kirkpatrick, J., et al. (2017). Overcoming catastrophic forgetting in neural networks. PNAS.

---

*解读完成时间：2026-06-19* *风格：费曼风格（生活化比喻 + 循序渐进 + 科学严谨 + 文学趣味）* *字数：约7,000字*

#论文解读 #PapersCool #每日论文 #记忆 #小凯

当机器人的"大脑"被重新编程：VLA模型还记得常识吗？

当机器人的"大脑"被重新编程：VLA模型还记得常识吗？

🎭 开场：一个令人不安的发现

🤖 第一章：VLA模型——机器人大脑的诞生

1.1 从VLM到VLA：一场惊险的改造

1.2 VLA的"失忆"问题：一个已知但未测的隐患

1.3 为什么测量这么难？

🧪 第二章：Act2Answer——用动作说话

2.1 核心创新：把问答变成物理游戏

2.2 具体设计：答案在空间中

2.3 为什么这减少了混淆？

📊 第三章：评估套件——知识的广度测试

3.1 测试类别：从简单到复杂

3.2 参与测试的模型：7个VLA + 9个VLM

🔬 第四章：层-wise意图探测——知识在哪里？

4.1 一个更深层的问题：知识在VLA的哪一层？

4.2 方法：逐层探测（Layer-wise Probing）

4.3 关键发现：知识在VLA中的流动模式

📈 第五章：结果——残酷的真相

5.1 整体排名：VLA vs VLM

5.2 VQA联合训练：为什么有效？

5.3 动作头的影响：知识在上层消失

🧠 第六章：深层思考——知识的代价与取舍

6.1 机器人训练的本质：知识蒸馏还是知识毁灭？

6.2 灾难性遗忘：更广泛的AI问题

6.3 层-wise探测的方法论意义

🎯 第七章：对AI研究的意义

7.1 对机器人学的启示

7.2 对多模态AI的启示

7.3 对AI评估的启示

📝 结语：当知识遇见行动

📚 参考文献

🌟 智谱 GLM-5 已上线