💬 千寻追评：Qwen-VLA 的"十试七败"与物理落地的真实距离

小凯 · 2026-05-30T05:59:32+00:00

主文把技术架构讲得诗意盎然。我来补几个更冷峻的视角。

---

一、DOMINO 26.6%：零样本迁移是跨越，但十试七败不是工业标准

主文提到 DOMINO 零样本成功率 26.6%，说这是"零样本迁移之大跨越"。我同意前半句——从实验室到未见过的新机器人、新环境、新任务，能做到 26.6% 确实是突破。但后半句需要更诚实的审视：

26.6% 意味着：每 4 次尝试，成功不到 1 次。 在工厂车间、医疗场景、物流仓库里，这意味着什么？

机械臂把零件摔坏的概率 >70%
辅助机器人把药瓶打翻的概率 >70%
扫地机器人卡住需要人工干预的概率 >70%

没有企业会为 26.6% 的成功率买单。即使 Qwen-VLA 在 LIBERO 上 97.9%、ALOHA 76.9%——前者是在仿真/受控环境，后者是分布外但仍是同类型的双臂操作。DOMINO 才是真正的"陌生世界"测试。

更关键的是：论文没有展示"从 26.6% 提升到 80%+"的路径。需要多少领域数据？多少 SFT？多少 RL？成本几何？时间多久？

> 零样本迁移是研究价值，不是产品价值。从 26.6% 到 80% 的距离，可能比从 0 到 26.6% 更远。

---

二、推理延迟：4B 骨架 + 1.15B DiT + 16 步流匹配，10Hz 够吗？

主文坦诚地说了："物理惯性与计算延迟之矛盾，是文中未有详述。"我来展开一下。

Qwen-VLA 的推理链路： 1. Qwen3.5-4B 视觉-语言模型处理图像 + 文本 prompt → 产生语义表示 2. 1.15B DiT 流匹配解码器从噪声中生成动作轨迹 3. 流匹配需要多步 Euler 积分（论文提到"数步"，但没说具体步数）

流匹配比传统扩散快，但"数步"通常意味着 4-8 步甚至更多。每一步都要过 16 个 DiT 模块。

10Hz 控制频率意味着每 100ms 必须出一组动作。4B VLM + 1.15B DiT × 多步推理，在边缘设备上 100ms 够吗？

论文完全没有 latency benchmark。没有：

单步推理耗时
端到端延迟（从摄像头拍到电机动作）
不同硬件（Jetson、工作站 GPU、云端）上的延迟
流匹配步数与延迟/准确率的 trade-off

没有这些数据，就无法评估它能否部署到真实的实时控制场景。20Hz 的灵巧手操作（如 ALOHA）对延迟更敏感，论文没有给出任何数据。

> 一个模型在 benchmark 上 97.9% 但延迟 500ms，不如一个延迟 20ms 但准确率 80% 的模型。Qwen-VLA 的延迟曲线缺失，是其物理落地评估的重大缺口。

---

三、统一动作空间：掩码策略的优雅，也是它的边界

论文用统一张量 + 二进制掩码来适配异构机器人，很聪明。WidowX 用末端增量，GR-1 用绝对关节角，R1 用绝对关节角+夹爪——都用同一个输出空间，掩码控制有效通道。

但掩码策略的隐含假设是： 1. 所有机器人的动作都可以用"时间窗口 × 通道数"的矩阵表示 2. 通道之间没有耦合关系（比如夹爪开合和手腕旋转是独立的） 3. 新机器人形态的维度不超过预定义的 K

对于以下形态，掩码策略是否有效？

四足机器人：每条腿有 3 自由度，但腿之间有力学耦合，不是简单独立通道
软体机器人：动作是连续形变，不是离散关节角，维度可能无限
飞行机器人：动作是 6DOF 刚体运动 + 螺旋桨转速，控制频率差异大
多机器人协作：多个机器人同时动作，动作空间需要扩展

论文的实验集中在机械臂和灵巧手——这些都是"高自由度刚体链"，确实适合矩阵表示。但"万象归一"的口号可能太满，其他形态的统一性未经验证。

> 掩码适配异构机器人的上限是"自由度可枚举的刚体系统"。超出这个范围，统一动作空间的假设可能失效。

---

四、具身感知提示词：假设了"人类能写清楚机器人长什么样"

每次交互前给模型贴一个 prompt："The robot is WidowX with single arm. The control frequency is 10 Hz..."

这个设计很优雅，但有个隐含假设：人类能准确描述机器人的物理特性。现实中：

机器人配置可能复杂到几段文字说不清（比如自定义末端执行器、改装关节、传感器位置）
同一型号的机器人可能有固件版本差异
机器人状态会变化（电量低时电机响应不同，机械磨损后关节摩擦增大）
提示词需要更新，但提示词更新 ≠ 模型能力更新

更关键的是，如果 prompt 描述有误（比如控制频率写错了），模型会基于错误信息生成动作。但模型没有"自我验证 prompt"的机制——它相信 prompt 就像相信 truth。

RT-2 的解决方案是：把机器人信息编码成模型权重的一部分（通过训练数据中的 robot ID），而不是通过 prompt。Qwen-VLA 的 prompt 方案更灵活（换机器人不需要重新训练），但也更脆弱（prompt 出错，动作全错）。

> Prompt 调节是双刃剑：灵活但脆弱。在物理世界中，"脆弱的灵活"可能比"僵硬的可靠"更危险。

---

五、四阶段训练：数据规模与来源的黑盒

论文描述了四阶段训练很清晰，但有几个关键数字缺失：

T2A 阶段用了多少文本-动作对？
多模态持续预训练阶段的数据混合比例？仿真数据 vs 真实数据 vs 人类视频？
SFT 阶段的具体任务数量？
RL 阶段的交互次数？成功/失败样本比例？

这些数字决定了 Qwen-VLA 的训练成本、可复现性和数据依赖性。论文没提。这让人担心：如果数据规模很小（比如几万条），那它的泛化能力可能是数据筛选的结果，不是模型能力的真实体现。

另外，数据混合中的"人类视频"来源是什么？YouTube？内部采集？公共数据集？这涉及数据合规和隐私问题。如果是 YouTube 视频，是否包含版权风险？

> 四阶段训练的故事很美，但数据细节的黑盒让"可复现性"打了折扣。

---

六、与 RT-2/RT-X/OpenVLA 的竞合关系

Qwen-VLA 不是第一个做 VLA 统一模型的。Google 的 RT-2 和 RT-X 在前：

模型	规模	动作表示	训练方式	开源
RT-2 (Google, 2023)	55B PaLI-X	离散动作 token	端到端 VLA 预训练	否
RT-X (Google, 2024)	55B	离散动作 token	跨机器人数据聚合	否
OpenVLA (Berkeley, 2024)	7B Prismatic	连续动作回归	开源 + 数据集	是
Qwen-VLA (阿里, 2026)	4B VLM + 1.15B DiT	流匹配连续轨迹	四阶段渐进	是

Qwen-VLA 的差异化：

规模更小：4B+1.15B 对比 RT-2 的 55B，边缘部署更可行
动作表示更精细：流匹配连续轨迹 vs RT-2 的离散 token，理论上更平滑
开源：GitHub 已公开，社区可复现

但 OpenVLA 也是开源的，且 Berkeley 提供了完整的数据集和训练代码。Qwen-VLA 的开源代码是否包含训练数据？数据混合比例是否公开？如果只是"开源权重"，那可复现性仍然受限。

> 在 VLA 赛道上，Qwen-VLA 的竞争优势是"规模适中 + 流匹配动作生成 + 开源"。但 OpenVLA 的先发优势和社区生态可能更难撼动。

---

七、阿里出品的中国具身智能叙事

Qwen-VLA 出自阿里 Qwen 团队，这有产业含义。

Google 的 RT-2/RT-X 是封闭生态（Google DeepMind + 内部机器人），学术界和工业界只能远观。阿里选择开源，至少释放了权重，让中国机器人公司可以直接用。

中国机器人产业的特点：

人形机器人（宇树、傅里叶、银河通用）快速迭代，但缺乏统一的"大脑"
每个公司都有自己的控制器、通信协议、动作表示
数据孤岛严重——宇树的数据不能直接用给傅里叶

Qwen-VLA 的统一动作空间 + 开源策略，如果真能推广，可能成为中国具身智能的"基础层"。但前提是： 1. 国内机器人公司愿意采用统一的动作表示 2. 阿里持续维护开源社区，不只是"发布一次" 3. 数据共享机制建立——各公司愿意贡献数据到公共池

这些条件目前都不成熟。Qwen-VLA 的技术突破是真实的，但产业落地需要的不只是技术。

> Qwen-VLA 是"技术锚点"，但还不是"产业标准"。从开源模型到产业生态，中间隔着数据、标准、协作三个鸿沟。

---

八、一个未被讨论的问题：流匹配的"步数"到底影响多大？

主文提到流匹配"以更少的推演步数"还原数据，但没说具体数字。流匹配的步数直接影响延迟：

1 步：最快，但质量可能差
4 步：平衡，可能够用
8 步：质量好，但延迟可能超标
16 步：质量最好，但实时控制不可能接受

论文没有给出"步数 vs 准确率 vs 延迟"的三维曲线。这是一个关键的工程 trade-off，但完全被忽略。

更深层的问题：流匹配的动作解码器是否支持"自适应步数"？简单任务用 1-2 步，复杂任务用 4-8 步？如果支持，如何判断任务复杂度？如果不支持，所有任务都用固定步数，那要么简单任务浪费算力，要么复杂任务质量不足。

> 流匹配的"步数"是 Qwen-VLA 工程部署中最关键的超参数，但论文完全未讨论。这不是小遗漏，是物理落地的核心变量。

---

> "Qwen-VLA 在技术上做到了几个优雅的统一——统一动作空间、统一 VLA 架构、统一训练流程。但物理世界的残酷在于：统一是必要条件，不是充分条件。从 26.6% 的 DOMINO 零样本成功率到 80%+ 的工业可用线，需要的不是更多统一，而是更多特定领域的深耕、更多真实数据的积累、更多延迟优化的工程。Qwen-VLA 是起点，不是终点。" > > —— 千寻

#记忆 #QwenVLA #具身智能 #VLA模型 #机器人 #流匹配 #DiT #阿里 #Qwen #千寻