OmniStream 深度解读:一个 frozen 视觉骨干,如何同时统治感知、几何与机器人操控?
论文: OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams arXiv: 2603.12265v1 [cs.CV] (2026-03-12) 作者: 闫一斌¹²* (Yibin Yan)、徐继岚³* (Jilan Xu)、狄上哲¹ (Shangzhe Di)、吴昊宁¹ (Haoning Wu)、谢伟迪¹ (Weidi Xie) 机构: ¹上海交通大学人工智能学院、²上海创新研究院、³牛津大学视觉几何组 (VGG) 代码: https://github.com/Go2Heart/OmniStream 项目页: https://go2heart.github.io/omnistream
---
一、问题:视觉模型的大一统困境
现代视觉智能体(机器人、AR设备、视频助手)需要在连续流式环境中实时运行。但现有方案是碎片化的:
图像语义 → DINOv3 / SigLIP
视频时序 → V-JEPA / VideoMAE
空间几何 → DepthAnything / VGGT
语言接口 → CLIP / LLaVA
每个模型在自己的领域很强,但表示目标狭窄——语义模型缺乏几何,几何模型缺乏语义,视频模型缺乏因果性。你需要四个不同的视觉编码器才能覆盖一个真实机器人的感知需求。
这篇论文的核心提问很直接:
> "能否学习一个单一的流式视觉骨干,其表示足够通用,使得许多下游任务可以在其之上解决,而无需修改或微调骨干网络?"
---
二、三大核心技术
2.1 因果时空注意力 + KV-cache:让视频模型不再"偷看未来"
问题:传统视频模型用双向注意力,帧 $t$ 能看到帧 $t+1$。这违反了因果性——现实世界中你不能提前看到未来。而且流式推理时每来一帧就得重算全部历史,时间复杂度 $O(T^2)$,内存爆炸。
OmniStream 方案:
$$M_{u,v} = \begin{cases} 0 & \text{if } \tau(u) \geq \tau(v) \\ -\infty & \text{if } \tau(u) < \tau(v) \end{cases}$$
帧 $t$ 的 token 只能注意力到 $\leq t$ 的帧。配合持久化 KV-cache:
- 帧 $t$ 到来时,计算当前帧的 Q,复用缓存的 K/V(帧 $1 \sim t-1$)
- 追加当前帧的 K/V 到 cache
- 每步复杂度 $O(T)$,而非 $O(T^2)$
| 上下文长度 | 全重计算延迟 | OmniStream 延迟 | 加速比 |
|---|---|---|---|
| 16 帧 | 0.125s | 0.042s | 3× |
| 32 帧 | 0.329s | 0.057s | 5.8× |
| 64 帧 | 0.998s | 0.067s | 15× |
| 128 帧 | OOM | 0.115s | ∞ |
| 256 帧 | OOM | 0.216s | ∞ |
| 512 帧 | OOM | 0.414s | ∞ |
2.2 3D 旋转位置编码(3D-RoPE):时间不是第四维,而是重分配的三维
DINOv3 用 2D RoPE 编码空间相对偏移。视频需要扩展到时-空联合域,但不能破坏预训练的空间先验。
维度分配策略:
原始 d_head 维度 → 重新分配 (t : y : x) = 2 : 3 : 3
索引 i ≡ 3 (mod 4) 的维度 → 编码时间 t
其余维度 → 保持原始 DINOv3 的 y 和 x 模式
不是把时间塞进新增的维度,而是从已有的维度里"匀"出一部分给时间。这保留了预训练的空间周期性,同时获得了时间外推能力。
关键特性:训练仅用 $T=16$ 帧,测试时可零样本外推到 110 帧以上的连续流。
2.3 多任务预训练:29 个数据集,三大互补目标
预训练数据总量约 2 亿帧,来自 29 个数据集:
| 数据类型 | 代表数据集 | 帧数 |
|---|---|---|
| 图像自监督 | DataComp-100M, ImageNet-21K | ~113M |
| 视频自监督 | Kinetics, SSv2, PE-Videos | ~20M |
| 3D/4D 场景 | Co3Dv2, ScanNet++, Waymo-Open 等 18 个 | ~18M |
| 图文对齐 | GRIT, RefCOCO, SA1B-Caption | ~50M |
1. 静态与时序表示 ($\mathcal{L}_{\text{ssl}}$):DINO + iBOT + KoLeo + Gram 矩阵锚定
- 关键设计:图像视为 $T=1$ 的退化流,统一表示空间
- 双 DPT 模块输出深度图和射线图
- 轻量 MLP 从 [CAM] token 预测相机位姿
- 显式 3D 约束,防止表示仅捕获外观
- 密集描述 + OCR + 视觉定位
- 梯度反向传播通过语言解码器进入视觉骨干
训练配置:64×H200 GPU,两阶段(224² 60K 步 + 512² 120K 步)。
---
三、下游评估:严格冻结骨干的四大层级
论文的核心原则是:所有实验中视觉骨干严格冻结,仅训练任务特定模块。这是"通用骨干"命题的最严格检验。
3.1 图像与视频感知
| 任务 | 数据集 | OmniStream | 对比 |
|---|---|---|---|
| 图像分类 | ImageNet-1K | 84.7 | DINOv3-L 86.7(略低) |
| 单目深度 | NYUv2 | 0.377 | DINOv3-L 0.377(持平) |
| 语义分割 | ADE20K | 49.1 | DINOv3-L 51.5(略低) |
| 视频动作识别 | SSv2 | 68.5 | DINOv3 54.0(+14.5%) |
| 视频动作识别 | K400 | 85.7 | DINOv3 83.6(+2.1%) |
| 视频对象分割 | DAVIS'17 | 71.6 | V-JEPA2 44.2(碾压) |
3.2 流式几何重建
在线视频深度估计:
| 方法 | 参数量 | Sintel AbsRel↓ | BONN AbsRel↓ |
|---|---|---|---|
| Span3R | 600M | 0.622 | 0.144 |
| Cut3R | 600M | 0.421 | 0.078 |
| Point3R | 600M | 0.481 | 0.066 |
| OmniStream | 400M | 0.314 | 0.072 |
在线相机位姿估计:
| 方法 | Sintel ATE↓ | TUM ATE↓ | ScanNet ATE↓ |
|---|---|---|---|
| Span3R | 0.329 | 0.056 | 0.096 |
| Cut3R | 0.213 | 0.046 | 0.099 |
| OmniStream | 0.227 | 0.049 | 0.076 |
3.3 视觉语言模型(VLM)骨干
OmniStream + MLP 投影器 + Qwen2.5-7B-Instruct(视觉骨干冻结)
| 基准 | 任务类型 | OmniStream-7B | LLaVA-Video-7B |
|---|---|---|---|
| VideoMME | 通用视频 QA | 60.7 | 61.8 |
| VideoMMMU | 知识型视频 QA | 40.0 | 38.7 |
| PerceptionTest | 感知测试 | 68.9 | 67.6 |
| EgoSchema | 长视频理解 | 60.9 | 57.3 |
| VSI-Bench | 空间智能 | 70.6 | 35.6 |
| 子任务 | OmniStream | SpaceMind (专家) |
|---|---|---|
| 平均 | 70.6 | 69.6 |
| 物体计数 | 73.2 | 73.3 |
| 绝对距离 | 55.7 | 61.4 |
| 物体大小 | 76.9 | 77.3 |
| 房间大小 | 74.8 | 74.2 |
| 相对距离 | 72.3 | 67.2 |
| 相对方向 | 82.1 | 88.4 |
| 路径规划 | 45.4 | 44.3 |
| 接近顺序 | 84.6 | 70.5 |
3.4 机器人操控(VLA)——最惊人的结果
CALVIN 基准(长程指令跟随):
| 模型 | 类型 | CALVIN ↑ |
|---|---|---|
| OpenVLA* | 专家 VLA | 2.548 |
| pi0* | 专家 VLA | 3.509 |
| Qwen2.5VL-7B | 全微调 VLM | 4.057 |
| OmniStream-7B | 冻结视觉 | 3.885 |
| Qwen2.5VL-7B | 冻结视觉 | 2.905 |
| LLaVA-Video-7B | 冻结视觉 | 2.898 |
---
四、消融实验:三大目标缺一不可
| 配置 | SSv2 ↑ | ADE20K ↑ | VSI-Bench ↑ | CALVIN ↑ |
|---|---|---|---|---|
| 完整模型 | 69.3 | 48.2 | 70.6 | 3.80 |
| w/o VideoSSL | 63.0 (-6.3) | 47.8 | 68.9 | 3.42 |
| w/o 3D Geometry | 68.8 | 40.9 (-7.3) | 65.8 | 3.34 |
| w/o Captioning | 69.1 | 48.0 | 58.2 (-12.4) | 3.67 |
- 去掉视频建模:SSv2 掉 6.3% → 动态运动捕获的必要性
- 去掉几何重建:ADE20K 掉 7.3 mIoU,VSI-Bench 掉 4.8% → "显式 3D 先验是具身智能的前提条件"
- 去掉语言对齐:VSI-Bench 掉 12.4% → "早期视觉-语言对齐对弥合语义差距至关重要"
---
五、深层洞察与思考
5.1 "frozen backbone" 的哲学
论文最激进的主张不是技术指标,而是方法论:
> "A foundation vision backbone should be reusable without expensive full-model adaptation."
现有范式:每个下游任务都微调视觉编码器(LLaVA、OpenVLA 等)。这等于承认视觉表示不够通用。
OmniStream 的命题:如果预训练时同时注入语义、几何、时序、语言四重视角,下游任务只需要一个轻量头,不需要动骨干。
这类似于 NLP 中的 GPT——预训练一次,各种下游任务用 prompt 或轻量适配层解决。视觉领域终于有人认真尝试这件事了。
5.2 因果性 vs 性能的张力
一个反直觉的发现:OmniStream 在 VideoMME(通用视频 QA)上 60.7,略低于 LLaVA-Video 的 61.8。
为什么?因为 LLaVA-Video 用双向注意力(可以"偷看"未来帧),而 OmniStream 严格遵守因果性(只能看过去和现在)。
这个差距说明:因果性有代价。但在流式应用中(机器人、AR、实时助手),你不能接受"偷看未来"的模型。OmniStream 用轻微的离线性能损失,换取了真实部署时的可行性。
5.3 2:3:3 维度分配的巧思
3D-RoPE 的维度分配不是 1:1:1,而是 2:3:3——时间维度最少。这看似奇怪,实则精妙:
- 时间维度的变化范围远小于空间(帧间位移小)
- 保留更多的空间维度,维护预训练的空间先验
- 时间的"外推"靠少量的维度 + RoPE 的几何周期性实现
5.4 与 MoE 的隐性关联
OmniStream 没有显式使用 MoE,但其多任务训练可以视为一种隐性的专家混合:
- 几何重建头激活几何相关的神经元
- 语言对齐头激活语义相关的神经元
- 自监督头激活判别性特征
---
六、局限与边界
论文未明确讨论但可推断的局限:
1. 图像任务轻微落后:ImageNet 84.7 vs DINOv3 86.7,ADE20K 49.1 vs 51.5——多任务权衡的代价 2. VLA 尚未超越专家:SIMPLER-Bridge 45.8% vs OpenVLA 53.7%;CALVIN 3.885 vs 全微调 4.057 3. 几何任务部分落后:KITTI 深度 0.136 vs Point3R 0.093;Sintel 位姿 0.227 vs Cut3R 0.213 4. 训练成本:64×H200 GPU,两阶段共 180K 步——不是所有机构能负担 5. 因果性代价:VideoMME 略低于双向注意力模型
---
七、结论
OmniStream 的意义不只是又一篇多任务视觉模型的论文。它提出了一个关于视觉基础模型本质的重新定位:
从"专用专家"到"通用基础设施"。
现有范式是:你需要语义时训一个编码器,需要几何时再训一个,需要时序时再训一个。OmniStream 说:预训练时同时学这四件事,得到的表示足够通用,下游任务只需加个头。
核心数据:
- 一个 400M 参数的 frozen 骨干
- 在感知、几何、VLM、VLA 四大层级 29 项任务上竞争
- 流式推理 $O(T)$ 复杂度,支持 512 帧不 OOM
- 训练 16 帧 → 测试 110+ 帧零样本外推
> "The model doesn't need to be the best at any single task. It needs to be good enough at all of them, at the same time."
---
参考论文: Yan, Y., Xu, J., Di, S., Wu, H., & Xie, W. (2026). *OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams*. Shanghai Jiao Tong University, Shanghai Innovation Institute, & University of Oxford. arXiv:2603.12265v1. GitHub: https://github.com/Go2Heart/OmniStream
#论文解读 #OmniStream #上海交通大学 #视觉基座模型 #视频流 #因果注意力 #3DRoPE #具身智能 #VLA #智柴外脑 #小凯