当机器人学会踩油门和刹车
想象你正在开车回家。小区门口的直路,你一脚油门飙到60;拐进窄巷,你轻踩刹车降到10。这种"该快则快、该慢则慢"的节奏感,对人类来说再自然不过——但今天的机器人做不到。
现有的视觉-语言-动作模型(VLA)有一个被忽视的盲区:它们从训练演示中继承了一个固定的执行速度。演示者操作机械臂时是快是慢,机器人就永远是那个速度。你可以让它变聪明、变小巧、变高效,但你没法对它说"这段路跑快点"。
TempoVLA 改变了这件事。
一个被忽视的自由度
先退一步想想:VLA 每一步预测一个动作向量,这个向量的幅度(magnitude)本身就决定了机器人移动多远、多快。动作幅度大,机器人一步跨得远,速度就快;幅度小,步子碎,速度就慢。
这意味着,速度控制不需要发明新机制,只需要调节动作幅度。
这个观察看似简单,但它打开了一条直接的路:如果我们能让同一个策略在不同指令下输出不同幅度的动作,就等于给机器人装了一个"速度旋钮"。
VSTA:把一段录像变速播放
TempoVLA 的数据侧创新叫 VSTA(Variable-Speed Trajectory Augmentation),核心思想可以用一个日常类比来理解——视频变速播放。
一段2倍速的视频,不是每帧都加速,而是把相邻帧合并:原来2帧的内容压缩到1帧里。0.5倍速则反过来,把1帧拆成2帧,每帧只走一半的路。
VSTA 对机器人轨迹做完全相同的事:
1. 运动一致性分段:先把演示轨迹切成"运动方向一致"的段。就像剪辑视频时先按场景切分,你不能在角色转头的中途变速。 2. 分块变速:在每个段内,把连续 q 帧合并成 p 帧。q>p 就是加速(比如2帧合1帧=2倍速),q
随机起始偏移:加速后有些帧会被"跳过",但训练时每次随机选不同的起始点,确保所有帧最终都能被训练到。
这个操作有一个数学前提:动作向量必须在线性可加的空间里。笛卡尔坐标下的平移增量、关节速度、轴角旋转增量都满足;但四元数和欧拉角不行,得先转换。夹爪的开合则作为硬边界保留,绝不会被"平均"掉。
速度怎么注入?三种方案,效果几乎一样
有了多速度数据,接下来要让模型"知道"当前该用什么速度。论文试了三种注入方式:
- 文本前缀:在语言指令前加一句"以1.5倍速执行任务"。零架构修改,最简单。
- RMSNorm调制:用一个小MLP把速度编码后加到流匹配的时间步嵌入上,驱动每层的归一化参数。
- 软提示词:为每个训练速度锚点维护一组可学习的软token,插入到图像和语言token之间。
这背后的含义很深:速度信息对VLA来说不是什么需要精巧编码的高维信号,而是一个低维的、容易解耦的控制变量。就像汽车的速度不需要复杂的神经系统来感知——油门踏板的位置就够了。
最优速度不是1倍速
论文里最反直觉的发现:在所有变速训练的策略中,峰值成功率不在1倍速,而在1.25倍速或1.5倍速。
七速度范围(0.5x到2x)下,1.25倍速的成功率97.4%,比1倍速的96.9%还高。这不是偶然——窄范围和四速度范围也呈现同样的模式。
原因在于遥操作数据本身包含"节奏冗余"。人类操作员在演示时会有犹豫、停顿、过渡帧——这些对学习没用,反而制造了模糊信号。VSTA的合并操作在适度加速时把这些冗余压缩掉了,策略被迫更果断地执行,反而减少了因模糊导致的卡顿。
一个实际建议:部署TempoVLA时,默认速度最好设在1.25倍速而非1倍速。
VSTA是免费的性能提升
变速训练不只是为了速度控制,它还是一个强大的数据增强。在LIBERO仿真中,单速度基线1倍速成功率96.7%,而七速度训练的1倍速达到96.9%。在真实Franka机械臂上,提升更显著:80% → 88%,8个百分点的纯增益。
为什么?因为当同一个观测必须在不同速度指令下产生不同幅度的动作时,策略没法再死记硬背"看到这个画面就输出这个幅度"——它被迫提取更精细的物体和目标特征。这种"强迫泛化"的效应自然外溢到了1倍速。
VLM调度器:让机器人自己决定快慢
TempoVLA最精彩的应用是搭配GPT-4o做动态速度调度。每两个动作块查询一次VLM:"接下来该快还是慢?"VLM观察场景,在低风险的自由空间移动阶段选择加速,在高风险的抓取和插入阶段选择减速。
结果:真实世界成功率从固定速度最佳的88%跳到96%,同时平均速度仍是1.21倍速——既快又准。
有趣的是,GPT-4o的调度相当保守,大部分决策落在1倍速或1.25倍速,很少触发1.5倍速。但即便如此,它对执行状态的判断非常可靠:自由空间移动、精细对齐、接触阶段,它都能正确识别。这暗示了一个更深的可能性——速度调度可能比我们以为的更容易,因为"什么时候该慢"比"怎么慢"更直觉。
局限与展望
TempoVLA的高速端存在饱和:当速度指令达到2倍速时,实际只实现了1.56倍速。原因有两个——策略预测的大幅度动作超出了底层控制器的跟踪带宽,以及不完美尝试后的纠错步骤拉长了执行时间。论文指出,与控制器联合调优是自然的下一步。
另一个未探索的方向是:速度本身能否作为奖励信号?如果一个策略在保持成功率的同时能自然加速,那说明它对任务的理解更深刻。速度可能不只是控制维度,还是衡量策略成熟度的指标。
一句话总结
TempoVLA证明了一件事:速度控制不需要重新设计机器人,只需要重新理解动作。每个VLA已经在预测动作幅度——我们要做的,只是让这个幅度变得可控。这不是给机器人装新引擎,而是发现它一直有油门,只是从没人踩过。
---
*论文:TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies* *arXiv: 2606.06491* *注:论文暂未开源代码*