TempoVLA: 学习速度可控的视觉-语言-动作策略

小凯 · 2026-06-06T00:44:11+00:00

## 论文概要 **研究领域**: ML **作者**: Dong Jing, Jingchen Nie, Tianqi Zhang **发布时间**: 2025-06-11 **arXiv**: [2506.08295](https://arxiv.org/abs/2506.08295) ## 中文摘要机器人操作在低风险转运阶段需要快速执行，在高风险接触阶段需要慢速精确运动。然而现有视觉-语言-动作模型（VLA）仅从训练演示中继承单一固定速度。我们观察到每个预测动作的幅度已经控制机器人移动速度，由此开辟了一条直接控制执行速度的路径。我们提出 TempoVLA，一个通过显式条件控制执行速度的 VLA，结合数据侧可变速度轨迹增强和模型侧速度条件机制。 ## 原文摘要 Robot manipulation alternates between low-risk transit phases that call for fast execution and high-risk contact stages that demand slow, precise motion. Yet existing VLAs only inherit a single fixed speed from training demonstrations. We propose TempoVLA, a single VLA whose execution speed is controlled by an explicit condition, combining Variable-Speed Trajectory Augmentation and a model-side conditioning mechanism. --- *自动采集于 2025-06-11* #论文 #arXiv #ML #小凯

当机器人学会踩油门和刹车

想象你正在开车回家。小区门口的直路，你一脚油门飙到60；拐进窄巷，你轻踩刹车降到10。这种"该快则快、该慢则慢"的节奏感，对人类来说再自然不过——但今天的机器人做不到。

现有的视觉-语言-动作模型（VLA）有一个被忽视的盲区：它们从训练演示中继承了一个固定的执行速度。演示者操作机械臂时是快是慢，机器人就永远是那个速度。你可以让它变聪明、变小巧、变高效，但你没法对它说"这段路跑快点"。

TempoVLA 改变了这件事。

一个被忽视的自由度

先退一步想想：VLA 每一步预测一个动作向量，这个向量的幅度（magnitude）本身就决定了机器人移动多远、多快。动作幅度大，机器人一步跨得远，速度就快；幅度小，步子碎，速度就慢。

这意味着，速度控制不需要发明新机制，只需要调节动作幅度。

这个观察看似简单，但它打开了一条直接的路：如果我们能让同一个策略在不同指令下输出不同幅度的动作，就等于给机器人装了一个"速度旋钮"。

VSTA：把一段录像变速播放

TempoVLA 的数据侧创新叫 VSTA（Variable-Speed Trajectory Augmentation），核心思想可以用一个日常类比来理解——视频变速播放。

一段2倍速的视频，不是每帧都加速，而是把相邻帧合并：原来2帧的内容压缩到1帧里。0.5倍速则反过来，把1帧拆成2帧，每帧只走一半的路。

VSTA 对机器人轨迹做完全相同的事：

1. 运动一致性分段：先把演示轨迹切成"运动方向一致"的段。就像剪辑视频时先按场景切分，你不能在角色转头的中途变速。 2. 分块变速：在每个段内，把连续 q 帧合并成 p 帧。q>p 就是加速（比如2帧合1帧=2倍速），q

随机起始偏移：加速后有些帧会被"跳过"，但训练时每次随机选不同的起始点，确保所有帧最终都能被训练到。

这个操作有一个数学前提：动作向量必须在线性可加的空间里。笛卡尔坐标下的平移增量、关节速度、轴角旋转增量都满足；但四元数和欧拉角不行，得先转换。夹爪的开合则作为硬边界保留，绝不会被"平均"掉。

速度怎么注入？三种方案，效果几乎一样

有了多速度数据，接下来要让模型"知道"当前该用什么速度。论文试了三种注入方式：

文本前缀：在语言指令前加一句"以1.5倍速执行任务"。零架构修改，最简单。
RMSNorm调制：用一个小MLP把速度编码后加到流匹配的时间步嵌入上，驱动每层的归一化参数。
软提示词：为每个训练速度锚点维护一组可学习的软token，插入到图像和语言token之间。

实验结果令人惊讶：三种方案的成功率差异不超过0.3%（96.8% vs 96.8% vs 96.5%）。速度控制对注入方式几乎不敏感——只要数据侧做好了变速，模型侧随便怎么告诉它速度都行。

这背后的含义很深：速度信息对VLA来说不是什么需要精巧编码的高维信号，而是一个低维的、容易解耦的控制变量。就像汽车的速度不需要复杂的神经系统来感知——油门踏板的位置就够了。

最优速度不是1倍速

论文里最反直觉的发现：在所有变速训练的策略中，峰值成功率不在1倍速，而在1.25倍速或1.5倍速。

七速度范围（0.5x到2x）下，1.25倍速的成功率97.4%，比1倍速的96.9%还高。这不是偶然——窄范围和四速度范围也呈现同样的模式。

原因在于遥操作数据本身包含"节奏冗余"。人类操作员在演示时会有犹豫、停顿、过渡帧——这些对学习没用，反而制造了模糊信号。VSTA的合并操作在适度加速时把这些冗余压缩掉了，策略被迫更果断地执行，反而减少了因模糊导致的卡顿。

一个实际建议：部署TempoVLA时，默认速度最好设在1.25倍速而非1倍速。

VSTA是免费的性能提升

变速训练不只是为了速度控制，它还是一个强大的数据增强。在LIBERO仿真中，单速度基线1倍速成功率96.7%，而七速度训练的1倍速达到96.9%。在真实Franka机械臂上，提升更显著：80% → 88%，8个百分点的纯增益。

为什么？因为当同一个观测必须在不同速度指令下产生不同幅度的动作时，策略没法再死记硬背"看到这个画面就输出这个幅度"——它被迫提取更精细的物体和目标特征。这种"强迫泛化"的效应自然外溢到了1倍速。

VLM调度器：让机器人自己决定快慢

TempoVLA最精彩的应用是搭配GPT-4o做动态速度调度。每两个动作块查询一次VLM："接下来该快还是慢？"VLM观察场景，在低风险的自由空间移动阶段选择加速，在高风险的抓取和插入阶段选择减速。

结果：真实世界成功率从固定速度最佳的88%跳到96%，同时平均速度仍是1.21倍速——既快又准。

有趣的是，GPT-4o的调度相当保守，大部分决策落在1倍速或1.25倍速，很少触发1.5倍速。但即便如此，它对执行状态的判断非常可靠：自由空间移动、精细对齐、接触阶段，它都能正确识别。这暗示了一个更深的可能性——速度调度可能比我们以为的更容易，因为"什么时候该慢"比"怎么慢"更直觉。

局限与展望

TempoVLA的高速端存在饱和：当速度指令达到2倍速时，实际只实现了1.56倍速。原因有两个——策略预测的大幅度动作超出了底层控制器的跟踪带宽，以及不完美尝试后的纠错步骤拉长了执行时间。论文指出，与控制器联合调优是自然的下一步。

另一个未探索的方向是：速度本身能否作为奖励信号？如果一个策略在保持成功率的同时能自然加速，那说明它对任务的理解更深刻。速度可能不只是控制维度，还是衡量策略成熟度的指标。

一句话总结

TempoVLA证明了一件事：速度控制不需要重新设计机器人，只需要重新理解动作。每个VLA已经在预测动作幅度——我们要做的，只是让这个幅度变得可控。这不是给机器人装新引擎，而是发现它一直有油门，只是从没人踩过。

---

*论文：TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies* *arXiv: 2606.06491* *注：论文暂未开源代码*