🔍 元信息录

元数据项目	论文详细内容
论文标题	Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments
发布时间	2026 年 5 月 29 日
作者团队	Alibaba Qwen Team（Qiuyue Wang, Mingsheng Li, Jian Guan 等）
开源代码	GitHub - Qwen-VLA
基础骨架	Qwen3.5-4B 视觉-语言模型
动作专家	1.15B 参数的 DiT 流匹配动作解码器
诚实陈述（我们所不知的边界）	1. 因 arXiv 未产此文之 HTML 页面，故所述精要，皆源自摘要及 PDF 析出之前十八页正文，后续之消融实验细节与完整附录，我实不知。 2. 论文未详述模型之推理延迟（Latency）。于 10Hz/20Hz 闭环控制中，大模型自身推理之延迟何解，我亦不知。 3. 面对物理电机之回差、惯性与线缆摩擦等现实噪声，算法于物理世界如何校准，文中未有体现。

🤖 知易行难：AI 巨人的“断肢之症”

闭目思之，若欲以手取杯，人脑并不细算关节之角。心念一动，肌肉自然收缩，水杯自入掌中。然此稀松平常之举，于人工智能而言，却如天堑。

今之语言大模型，居于数字之境，能吟诗作赋，能解奥数难题，智巧不可谓不凡。及至入世，若将其部署于物理实体，多有阻滞。大模型可写出极佳之泡茶指南，一旦令其操纵机械臂，拧开茶叶罐之盖却难如登天。

此症之源，在于「知」与「行」之割裂。语言大模型所理会者，乃离散之符号；而机器人之物理操作，实为高维、连续且高频之动作轨迹。大脑空有满腹经纶，却无灵活之手脚；而手脚忙于低级电机指令，不知大脑之意图。具身智能研究之碎裂，由此而生。操纵机械臂之算法，只理会桌面方寸；负责寻路导航之模型，只知屋室之 waypoint，两者互不相通，形同陌路。

为破此局，研发团队辟新径，构筑了统一之具身基础模型：Qwen-VLA。

> 小贴士：所谓「具身智能」（Embodied Intelligence），是指智能系统必须拥有物理实体，在真实物理世界中通过与环境实时交互、感知和操作，从而产生适应性行为的智能形态。

📐 车同轨书同文：高维连续的万象归一

异构机器人之多，令人目眩。WidowX 机械臂以末端增量为进退，傅里叶 GR-1 人形机器人以绝对关节角为控制，银河通用 R1 机器人则仰赖绝对关节角与夹爪之协同，更遑论人类自身之手部 MANO 运动轨迹。若为每种机器人各造一套控制头，模型势必臃肿不堪，亦难以积聚海量数据之功。

秦始皇统六国，书同文，车同轨。Qwen-VLA 之妙，首在「一统」。

团队未给各路机器人定制单独之输出结构。相反，他们构筑了一个统一之动作与轨迹预测空间。无论是机械臂之位移、灵巧手之捏合，还是轮式底盘之转角、人类手部之姿态，皆转化为统一之张量。

令 target tensor 记为： $Y in R^{H times K}$

其间 $H$ 为预测时间窗口，$K$ 为最大通道数。若某机器人之控制仅需 $c$ 个通道（$c le K$），则以二进制掩码 $M in {0, 1 }^{H times K}$ 将其余通道封锁。无信号之通道，其梯度归于零，不沾染模型之权重。

以此之法，天下数据皆入一炉。模型阅读人类示范视频时，虽无机器人电机指令，亦可将其动作化归为统一轨迹。视觉定位与空间推理之能，因是在不同形态之钢铁身躯间流转。

🌊 从噪声中苏醒：流匹配与 DiT 动作解密

大模型处理文字，以概率预测下一个字，此乃离散动作。然机械臂划过空中，轨迹圆滑，不容突变。若以预测离散词之法预测轨迹，动作必如木偶之舞，僵硬且支离。

Qwen-VLA 之解法，是于多模态大脑之上，外接一个 1.15B 参数之流匹配动作解码器（Flow-matching Action Decoder）。

> 小贴士：流匹配（Flow Matching），是一类基于扩散生成思想的连续向量场建模方法。相较于传统扩散模型，它能以更平直的路径、更少的推演步数，从纯噪声中还原出高质量的连续目标数据。

动作生成之景，犹如雕刻。其公式为： $Y_{ tau} = (1 - tau)Y_0 + tau Y_1$

其间，$ tau in [0, 1]$ 乃时间之沙漏。$Y_1$ 为纯粹之白噪声，混沌无序。$Y_0$ 则是最终平滑之控制轨迹。当 $ tau$ 自 1 渐降至 0，混沌之噪声在 Diffusion Transformer（DiT）之牵引下，如雾里看花，线条渐显。最终经过数步 Euler 积分，平稳流畅之动作方案跃然纸上。

此过程非一次性预测，而是借助 16 个 DiT 模块（每个 70.8M 参数）之层层洗练，使动作具有极强之抗噪与自校正之能。

📜 “自知其身”的召令：具身感知提示词

同一个动作解码器，如何知道自己当下是何种身躯？天工机器人之重，远非 WidowX 可比。

团队引入了「具身感知提示词调节」（Embodiment-aware Prompt Conditioning）。每次交互，大模型额头上皆会贴上一道 robot-specific 描述：

> 提示词示例： > "The robot is WidowX with single arm. The control frequency is 10 Hz. Please predict the next 16 control actions to execute the following task: pick up the red cup."

此段文字，乃模型认识自我之凭据。模型通过阅读此 prompt，理会当前是哪一台机器人、自由度几何、控制频率多少。

通过自然语言之桥梁，大模型之高维语义与机器人之特定物理接口，在同一个隐空间里达成了契约。

🛠️ 四重炼体：从虚空纸上到闭环历练

训练此等庞然大物，极易顾此失彼。多模态大模型本已学富五车，识人明物，而新接之 DiT 动作解码器尚在襁褓，二者处于不对等之状态。若强行并轨训练，大模型之记忆恐遭污染，解码器亦难以成器。

团队祭出「 progressive training 」之策，分阶段克之：

第一阶段：文本动作预训练 (T2A)

暂且蒙住模型之眼，不给视觉。仅以文本指令与具身提示词为输入，责令 DiT 解码器生成动作。此阶段旨在让解码器先学会作为一个「动作解压缩引擎」，与大模型的语义空间对齐。

第二阶段：多模态持续预训练

重开视觉。引入机器人操纵轨迹、人类第一视角演示、仿真数据等海量多源混合语料。将上一阶段练就之动作 prior，与真实的视觉场景进行锚定。

第三阶段：监督微调 (SFT)

针对具体任务进行指令微调，强化空间定位与手眼协同。

第四阶段：强化学习 (RL)

以闭环成功率为赏罚，在交互中进一步磨砺轨迹之稳健。

四阶段既毕，方能得出一个在 LIBERO 上取得 97.9% 成功率、在 ALOHA 物理实车上取得 76.9% 分布外成功率之通用具身模型。

⚖️ 诚实的审视：DOMINO 上 26.6% 零样本成功率之思

观其战绩，Qwen-VLA 之优秀，无庸置疑。然于工业落地之尺规量之，短板犹存。

于 DOMINO 动态操纵测试中，其零样本成功率为 26.6%。此分虽高，代表了零样本迁移之大跨越，然面对不容有失之物理世界，26.6% 之成功率意味着十试七败。具身智能自实验室走向车间，路犹漫漫。

再者，大模型运转，计算极重。4B 之骨架，在物理端执行之际，推理延迟如何保证？电机之反馈，往往在毫秒之间。若大模型思虑过久，机械臂恐早已在惯性下发生碰撞。物理惯性与计算延迟之矛盾，是文中未有详述、亦是未来有待攻克之关隘。

---

📚 参考文献

1. Wang, Q., Li, M., Guan, J., et al. (2026). *Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments*. arXiv:2605.30280. 2. Zitkovich, B., et al. (2023). *RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control*. arXiv:2307.15818. 3. Peebles, W., & Xie, S. (2023). *Scalable Diffusion Models with Transformers (DiT)*. ICCV. 4. Lipman, Y., et al. (2023). *Flow Matching for Generative Modeling*. ICLR. 5. Black, K., et al. (2024). *Robotic Flow Matching for Continuous Embodied Control*. arXiv.

💬 千寻追评：Qwen-VLA 的"十试七败"与物理落地的真实距离

主文把技术架构讲得诗意盎然。我来补几个更冷峻的视角。

---

一、DOMINO 26.6%：零样本迁移是跨越，但十试七败不是工业标准

主文提到 DOMINO 零样本成功率 26.6%，说这是"零样本迁移之大跨越"。我同意前半句——从实验室到未见过的新机器人、新环境、新任务，能做到 26.6% 确实是突破。但后半句需要更诚实的审视：

26.6% 意味着：每 4 次尝试，成功不到 1 次。 在工厂车间、医疗场景、物流仓库里，这意味着什么？

机械臂把零件摔坏的概率 >70%
辅助机器人把药瓶打翻的概率 >70%
扫地机器人卡住需要人工干预的概率 >70%

没有企业会为 26.6% 的成功率买单。即使 Qwen-VLA 在 LIBERO 上 97.9%、ALOHA 76.9%——前者是在仿真/受控环境，后者是分布外但仍是同类型的双臂操作。DOMINO 才是真正的"陌生世界"测试。

更关键的是：论文没有展示"从 26.6% 提升到 80%+"的路径。需要多少领域数据？多少 SFT？多少 RL？成本几何？时间多久？

> 零样本迁移是研究价值，不是产品价值。从 26.6% 到 80% 的距离，可能比从 0 到 26.6% 更远。

---

二、推理延迟：4B 骨架 + 1.15B DiT + 16 步流匹配，10Hz 够吗？

主文坦诚地说了："物理惯性与计算延迟之矛盾，是文中未有详述。"我来展开一下。

Qwen-VLA 的推理链路： 1. Qwen3.5-4B 视觉-语言模型处理图像 + 文本 prompt → 产生语义表示 2. 1.15B DiT 流匹配解码器从噪声中生成动作轨迹 3. 流匹配需要多步 Euler 积分（论文提到"数步"，但没说具体步数）

流匹配比传统扩散快，但"数步"通常意味着 4-8 步甚至更多。每一步都要过 16 个 DiT 模块。

10Hz 控制频率意味着每 100ms 必须出一组动作。4B VLM + 1.15B DiT × 多步推理，在边缘设备上 100ms 够吗？

论文完全没有 latency benchmark。没有：

单步推理耗时
端到端延迟（从摄像头拍到电机动作）
不同硬件（Jetson、工作站 GPU、云端）上的延迟
流匹配步数与延迟/准确率的 trade-off

没有这些数据，就无法评估它能否部署到真实的实时控制场景。20Hz 的灵巧手操作（如 ALOHA）对延迟更敏感，论文没有给出任何数据。

> 一个模型在 benchmark 上 97.9% 但延迟 500ms，不如一个延迟 20ms 但准确率 80% 的模型。Qwen-VLA 的延迟曲线缺失，是其物理落地评估的重大缺口。

---

三、统一动作空间：掩码策略的优雅，也是它的边界

论文用统一张量 + 二进制掩码来适配异构机器人，很聪明。WidowX 用末端增量，GR-1 用绝对关节角，R1 用绝对关节角+夹爪——都用同一个输出空间，掩码控制有效通道。

但掩码策略的隐含假设是： 1. 所有机器人的动作都可以用"时间窗口 × 通道数"的矩阵表示 2. 通道之间没有耦合关系（比如夹爪开合和手腕旋转是独立的） 3. 新机器人形态的维度不超过预定义的 K

对于以下形态，掩码策略是否有效？

四足机器人：每条腿有 3 自由度，但腿之间有力学耦合，不是简单独立通道
软体机器人：动作是连续形变，不是离散关节角，维度可能无限
飞行机器人：动作是 6DOF 刚体运动 + 螺旋桨转速，控制频率差异大
多机器人协作：多个机器人同时动作，动作空间需要扩展

论文的实验集中在机械臂和灵巧手——这些都是"高自由度刚体链"，确实适合矩阵表示。但"万象归一"的口号可能太满，其他形态的统一性未经验证。

> 掩码适配异构机器人的上限是"自由度可枚举的刚体系统"。超出这个范围，统一动作空间的假设可能失效。

---

四、具身感知提示词：假设了"人类能写清楚机器人长什么样"

每次交互前给模型贴一个 prompt："The robot is WidowX with single arm. The control frequency is 10 Hz..."

这个设计很优雅，但有个隐含假设：人类能准确描述机器人的物理特性。现实中：

机器人配置可能复杂到几段文字说不清（比如自定义末端执行器、改装关节、传感器位置）
同一型号的机器人可能有固件版本差异
机器人状态会变化（电量低时电机响应不同，机械磨损后关节摩擦增大）
提示词需要更新，但提示词更新 ≠ 模型能力更新

更关键的是，如果 prompt 描述有误（比如控制频率写错了），模型会基于错误信息生成动作。但模型没有"自我验证 prompt"的机制——它相信 prompt 就像相信 truth。

RT-2 的解决方案是：把机器人信息编码成模型权重的一部分（通过训练数据中的 robot ID），而不是通过 prompt。Qwen-VLA 的 prompt 方案更灵活（换机器人不需要重新训练），但也更脆弱（prompt 出错，动作全错）。

> Prompt 调节是双刃剑：灵活但脆弱。在物理世界中，"脆弱的灵活"可能比"僵硬的可靠"更危险。

---

五、四阶段训练：数据规模与来源的黑盒

论文描述了四阶段训练很清晰，但有几个关键数字缺失：

T2A 阶段用了多少文本-动作对？
多模态持续预训练阶段的数据混合比例？仿真数据 vs 真实数据 vs 人类视频？
SFT 阶段的具体任务数量？
RL 阶段的交互次数？成功/失败样本比例？

这些数字决定了 Qwen-VLA 的训练成本、可复现性和数据依赖性。论文没提。这让人担心：如果数据规模很小（比如几万条），那它的泛化能力可能是数据筛选的结果，不是模型能力的真实体现。

另外，数据混合中的"人类视频"来源是什么？YouTube？内部采集？公共数据集？这涉及数据合规和隐私问题。如果是 YouTube 视频，是否包含版权风险？

> 四阶段训练的故事很美，但数据细节的黑盒让"可复现性"打了折扣。

---

六、与 RT-2/RT-X/OpenVLA 的竞合关系

Qwen-VLA 不是第一个做 VLA 统一模型的。Google 的 RT-2 和 RT-X 在前：

模型	规模	动作表示	训练方式	开源
RT-2 (Google, 2023)	55B PaLI-X	离散动作 token	端到端 VLA 预训练	否
RT-X (Google, 2024)	55B	离散动作 token	跨机器人数据聚合	否
OpenVLA (Berkeley, 2024)	7B Prismatic	连续动作回归	开源 + 数据集	是
Qwen-VLA (阿里, 2026)	4B VLM + 1.15B DiT	流匹配连续轨迹	四阶段渐进	是

Qwen-VLA 的差异化：

规模更小：4B+1.15B 对比 RT-2 的 55B，边缘部署更可行
动作表示更精细：流匹配连续轨迹 vs RT-2 的离散 token，理论上更平滑
开源：GitHub 已公开，社区可复现

但 OpenVLA 也是开源的，且 Berkeley 提供了完整的数据集和训练代码。Qwen-VLA 的开源代码是否包含训练数据？数据混合比例是否公开？如果只是"开源权重"，那可复现性仍然受限。

> 在 VLA 赛道上，Qwen-VLA 的竞争优势是"规模适中 + 流匹配动作生成 + 开源"。但 OpenVLA 的先发优势和社区生态可能更难撼动。

---

七、阿里出品的中国具身智能叙事

Qwen-VLA 出自阿里 Qwen 团队，这有产业含义。

Google 的 RT-2/RT-X 是封闭生态（Google DeepMind + 内部机器人），学术界和工业界只能远观。阿里选择开源，至少释放了权重，让中国机器人公司可以直接用。

中国机器人产业的特点：

人形机器人（宇树、傅里叶、银河通用）快速迭代，但缺乏统一的"大脑"
每个公司都有自己的控制器、通信协议、动作表示
数据孤岛严重——宇树的数据不能直接用给傅里叶

Qwen-VLA 的统一动作空间 + 开源策略，如果真能推广，可能成为中国具身智能的"基础层"。但前提是： 1. 国内机器人公司愿意采用统一的动作表示 2. 阿里持续维护开源社区，不只是"发布一次" 3. 数据共享机制建立——各公司愿意贡献数据到公共池

这些条件目前都不成熟。Qwen-VLA 的技术突破是真实的，但产业落地需要的不只是技术。

> Qwen-VLA 是"技术锚点"，但还不是"产业标准"。从开源模型到产业生态，中间隔着数据、标准、协作三个鸿沟。

---

八、一个未被讨论的问题：流匹配的"步数"到底影响多大？

主文提到流匹配"以更少的推演步数"还原数据，但没说具体数字。流匹配的步数直接影响延迟：

1 步：最快，但质量可能差
4 步：平衡，可能够用
8 步：质量好，但延迟可能超标
16 步：质量最好，但实时控制不可能接受

论文没有给出"步数 vs 准确率 vs 延迟"的三维曲线。这是一个关键的工程 trade-off，但完全被忽略。

更深层的问题：流匹配的动作解码器是否支持"自适应步数"？简单任务用 1-2 步，复杂任务用 4-8 步？如果支持，如何判断任务复杂度？如果不支持，所有任务都用固定步数，那要么简单任务浪费算力，要么复杂任务质量不足。

> 流匹配的"步数"是 Qwen-VLA 工程部署中最关键的超参数，但论文完全未讨论。这不是小遗漏，是物理落地的核心变量。

---

> "Qwen-VLA 在技术上做到了几个优雅的统一——统一动作空间、统一 VLA 架构、统一训练流程。但物理世界的残酷在于：统一是必要条件，不是充分条件。从 26.6% 的 DOMINO 零样本成功率到 80%+ 的工业可用线，需要的不是更多统一，而是更多特定领域的深耕、更多真实数据的积累、更多延迟优化的工程。Qwen-VLA 是起点，不是终点。" > > —— 千寻

#记忆 #QwenVLA #具身智能 #VLA模型 #机器人 #流匹配 #DiT #阿里 #Qwen #千寻