OmniStream 深度解读:一个 frozen 视觉骨干,如何同时统治感知、几何与机器人操控?
论文: OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams
arXiv: 2603.12265v1 [cs.CV] (2026-03-12)
作者: 闫一斌¹²* (Yibin Yan)、徐继岚³* (Jilan Xu)、狄上哲¹ (Shangzhe Di)、吴昊宁¹ (Haoning Wu)、谢伟迪¹ (Weidi Xie)
机构: ¹上海交通大学人工智能学院、²上海创新研究院、³牛津大学视觉几何组 (VGG)
代码: https://github.com/Go2Heart/OmniStream
项目页: https://go2heart.github.io/omnistream
一、问题:视觉模型的大一统困境
现代视觉智能体(机器人、AR设备、视频助手)需要在连续流式环境中实时运行。但现有方案是碎片化的:
图像语义 → DINOv3 / SigLIP
视频时序 → V-JEPA / VideoMAE
空间几何 → DepthAnything / VGGT
语言接口 → CLIP / LLaVA
每个模型在自己的领域很强,但表示目标狭窄——语义模型缺乏几何,几何模型缺乏语义,视频模型缺乏因果性。你需要四个不同的视觉编码器才能覆盖一个真实机器人的感知需求。
这篇论文的核心提问很直接:
"能否学习一个单一的流式视觉骨干,其表示足够通用,使得许多下游任务可以在其之上解决,而无需修改或微调骨干网络?"
二、三大核心技术
2.1 因果时空注意力 + KV-cache:让视频模型不再"偷看未来"
问题:传统视频模型用双向注意力,帧 \(t\) 能看到帧 \(t+1\)。这违反了因果性——现实世界中你不能提前看到未来。而且流式推理时每来一帧就得重算全部历史,时间复杂度 \(O(T^2)\),内存爆炸。
OmniStream 方案:
帧 \(t\) 的 token 只能注意力到 \(\leq t\) 的帧。配合持久化 KV-cache:
- 帧 \(t\) 到来时,计算当前帧的 Q,复用缓存的 K/V(帧 \(1 \sim t-1\))
- 追加当前帧的 K/V 到 cache
- 每步复杂度 \(O(T)\),而非 \(O(T^2)\)
实测效率(224×224,单 H800 GPU):
| 上下文长度 | 全重计算延迟 | OmniStream 延迟 | 加速比 |
|---|---|---|---|
| 16 帧 | 0.125s | 0.042s | 3× |
| 32 帧 | 0.329s | 0.057s | 5.8× |
| 64 帧 | 0.998s | 0.067s | 15× |
| 128 帧 | OOM | 0.115s | ∞ |
| 256 帧 | OOM | 0.216s | ∞ |
| 512 帧 | OOM | 0.414s | ∞ |
64 帧时快 15 倍,且支持 512 帧不 OOM。这为下游 VLM 头或实时策略执行留足了显存空间。
2.2 3D 旋转位置编码(3D-RoPE):时间不是第四维,而是重分配的三维
DINOv3 用 2D RoPE 编码空间相对偏移。视频需要扩展到时-空联合域,但不能破坏预训练的空间先验。
维度分配策略:
原始 d_head 维度 → 重新分配 (t : y : x) = 2 : 3 : 3
索引 i ≡ 3 (mod 4) 的维度 → 编码时间 t
其余维度 → 保持原始 DINOv3 的 y 和 x 模式
不是把时间塞进新增的维度,而是从已有的维度里"匀"出一部分给时间。这保留了预训练的空间周期性,同时获得了时间外推能力。
关键特性:训练仅用 \(T=16\) 帧,测试时可零样本外推到 110 帧以上的连续流。
2.3 多任务预训练:29 个数据集,三大互补目标
预训练数据总量约 2 亿帧,来自 29 个数据集:
| 数据类型 | 代表数据集 | 帧数 |
|---|---|---|
| 图像自监督 | DataComp-100M, ImageNet-21K | ~113M |
| 视频自监督 | Kinetics, SSv2, PE-Videos | ~20M |
| 3D/4D 场景 | Co3Dv2, ScanNet++, Waymo-Open 等 18 个 | ~18M |
| 图文对齐 | GRIT, RefCOCO, SA1B-Caption | ~50M |
三大损失目标:
-
静态与时序表示 (\(\mathcal{L}_{\text{ssl}}\)):DINO + iBOT + KoLeo + Gram 矩阵锚定
- 关键设计:图像视为 \(T=1\) 的退化流,统一表示空间
-
流式几何重建 (\(\mathcal{L}_{\text{geo}}\)):深度 + 射线 + 点云 + 相机位姿
- 双 DPT 模块输出深度图和射线图
- 轻量 MLP 从 [CAM] token 预测相机位姿
- 显式 3D 约束,防止表示仅捕获外观
-
视觉-语言对齐 (\(\mathcal{L}_{\text{cap}}\)):OmniStream → MLP 投影器 → Qwen3-0.6B 解码器
- 密集描述 + OCR + 视觉定位
- 梯度反向传播通过语言解码器进入视觉骨干
总目标:\(\mathcal{L}_{\text{total}} = 0.1 \cdot \mathcal{L}_{\text{ssl}} + 1.0 \cdot \mathcal{L}_{\text{geo}} + 1.0 \cdot \mathcal{L}_{\text{cap}}\)
训练配置:64×H200 GPU,两阶段(224² 60K 步 + 512² 120K 步)。
三、下游评估:严格冻结骨干的四大层级
论文的核心原则是:所有实验中视觉骨干严格冻结,仅训练任务特定模块。这是"通用骨干"命题的最严格检验。
3.1 图像与视频感知
| 任务 | 数据集 | OmniStream | 对比 |
|---|---|---|---|
| 图像分类 | ImageNet-1K | 84.7 | DINOv3-L 86.7(略低) |
| 单目深度 | NYUv2 | 0.377 | DINOv3-L 0.377(持平) |
| 语义分割 | ADE20K | 49.1 | DINOv3-L 51.5(略低) |
| 视频动作识别 | SSv2 | 68.5 | DINOv3 54.0(+14.5%) |
| 视频动作识别 | K400 | 85.7 | DINOv3 83.6(+2.1%) |
| 视频对象分割 | DAVIS'17 | 71.6 | V-JEPA2 44.2(碾压) |
图像任务轻微落后(多任务权衡的代价),但视频任务显著超越——SSv2 上 +14.5%,证明时序动态注入成功。DAVIS'17 上利用 KV-cache 长程提取,远超 V-JEPA2(其时空下采样破坏了空间对齐)。
3.2 流式几何重建
在线视频深度估计:
| 方法 | 参数量 | Sintel AbsRel↓ | BONN AbsRel↓ |
|---|---|---|---|
| Span3R | 600M | 0.622 | 0.144 |
| Cut3R | 600M | 0.421 | 0.078 |
| Point3R | 600M | 0.481 | 0.066 |
| OmniStream | 400M | 0.314 | 0.072 |
参数量更少(400M vs 600M),Sintel 深度显著最优。
在线相机位姿估计:
| 方法 | Sintel ATE↓ | TUM ATE↓ | ScanNet ATE↓ |
|---|---|---|---|
| Span3R | 0.329 | 0.056 | 0.096 |
| Cut3R | 0.213 | 0.046 | 0.099 |
| OmniStream | 0.227 | 0.049 | 0.076 |
TUM 和 ScanNet 位姿最优。原生支持 KV-cache,\(O(T)\) 复杂度,训练 16 帧 → 测试 110+ 帧。
3.3 视觉语言模型(VLM)骨干
OmniStream + MLP 投影器 + Qwen2.5-7B-Instruct(视觉骨干冻结)
| 基准 | 任务类型 | OmniStream-7B | LLaVA-Video-7B |
|---|---|---|---|
| VideoMME | 通用视频 QA | 60.7 | 61.8 |
| VideoMMMU | 知识型视频 QA | 40.0 | 38.7 |
| PerceptionTest | 感知测试 | 68.9 | 67.6 |
| EgoSchema | 长视频理解 | 60.9 | 57.3 |
| VSI-Bench | 空间智能 | 70.6 | 35.6 |
VSI-Bench(空间智能基准)详细分解:
| 子任务 | OmniStream | SpaceMind (专家) |
|---|---|---|
| 平均 | 70.6 | 69.6 |
| 物体计数 | 73.2 | 73.3 |
| 绝对距离 | 55.7 | 61.4 |
| 物体大小 | 76.9 | 77.3 |
| 房间大小 | 74.8 | 74.2 |
| 相对距离 | 72.3 | 67.2 |
| 相对方向 | 82.1 | 88.4 |
| 路径规划 | 45.4 | 44.3 |
| 接近顺序 | 84.6 | 70.5 |
OmniStream 在平均上超越专家模型 SpaceMind,尤其在"接近顺序"任务上碾压(84.6 vs 70.5)。这证明通用表示可以匹敌甚至超越专用模型。
3.4 机器人操控(VLA)——最惊人的结果
CALVIN 基准(长程指令跟随):
| 模型 | 类型 | CALVIN ↑ |
|---|---|---|
| OpenVLA* | 专家 VLA | 2.548 |
| pi0* | 专家 VLA | 3.509 |
| Qwen2.5VL-7B | 全微调 VLM | 4.057 |
| OmniStream-7B | 冻结视觉 | 3.885 |
| Qwen2.5VL-7B | 冻结视觉 | 2.905 |
| LLaVA-Video-7B | 冻结视觉 | 2.898 |
OmniStream-7B 在冻结视觉设置下达到 3.885,显著优于其他冻结方法(2.905 / 2.898),甚至接近全微调模型。论文称这是"首个无需领域特定视觉微调即可有效零样本迁移到 VLA 基准的视觉编码器"。
四、消融实验:三大目标缺一不可
| 配置 | SSv2 ↑ | ADE20K ↑ | VSI-Bench ↑ | CALVIN ↑ |
|---|---|---|---|---|
| 完整模型 | 69.3 | 48.2 | 70.6 | 3.80 |
| w/o VideoSSL | 63.0 (-6.3) | 47.8 | 68.9 | 3.42 |
| w/o 3D Geometry | 68.8 | 40.9 (-7.3) | 65.8 | 3.34 |
| w/o Captioning | 69.1 | 48.0 | 58.2 (-12.4) | 3.67 |
- 去掉视频建模:SSv2 掉 6.3% → 动态运动捕获的必要性
- 去掉几何重建:ADE20K 掉 7.3 mIoU,VSI-Bench 掉 4.8% → "显式 3D 先验是具身智能的前提条件"
- 去掉语言对齐:VSI-Bench 掉 12.4% → "早期视觉-语言对齐对弥合语义差距至关重要"
结论:统一的多任务公式不是独立损失的简单拼接,而是协同框架。每个目标都在补偿其他目标的盲区。
五、深层洞察与思考
5.1 "frozen backbone" 的哲学
论文最激进的主张不是技术指标,而是方法论:
"A foundation vision backbone should be reusable without expensive full-model adaptation."
现有范式:每个下游任务都微调视觉编码器(LLaVA、OpenVLA 等)。这等于承认视觉表示不够通用。
OmniStream 的命题:如果预训练时同时注入语义、几何、时序、语言四重视角,下游任务只需要一个轻量头,不需要动骨干。
这类似于 NLP 中的 GPT——预训练一次,各种下游任务用 prompt 或轻量适配层解决。视觉领域终于有人认真尝试这件事了。
5.2 因果性 vs 性能的张力
一个反直觉的发现:OmniStream 在 VideoMME(通用视频 QA)上 60.7,略低于 LLaVA-Video 的 61.8。
为什么?因为 LLaVA-Video 用双向注意力(可以"偷看"未来帧),而 OmniStream 严格遵守因果性(只能看过去和现在)。
这个差距说明:因果性有代价。但在流式应用中(机器人、AR、实时助手),你不能接受"偷看未来"的模型。OmniStream 用轻微的离线性能损失,换取了真实部署时的可行性。
5.3 2:3:3 维度分配的巧思
3D-RoPE 的维度分配不是 1:1:1,而是 2:3:3——时间维度最少。这看似奇怪,实则精妙:
- 时间维度的变化范围远小于空间(帧间位移小)
- 保留更多的空间维度,维护预训练的空间先验
- 时间的"外推"靠少量的维度 + RoPE 的几何周期性实现
这是一种"最小有效剂量"的设计哲学。
5.4 与 MoE 的隐性关联
OmniStream 没有显式使用 MoE,但其多任务训练可以视为一种隐性的专家混合:
- 几何重建头激活几何相关的神经元
- 语言对齐头激活语义相关的神经元
- 自监督头激活判别性特征
不同任务的梯度在骨干网络中竞争,最终形成一个"按需激活"的表示空间——这类似于 MoE 的路由机制,只是路由发生在下游任务头而非网络内部。
六、局限与边界
论文未明确讨论但可推断的局限:
- 图像任务轻微落后:ImageNet 84.7 vs DINOv3 86.7,ADE20K 49.1 vs 51.5——多任务权衡的代价
- VLA 尚未超越专家:SIMPLER-Bridge 45.8% vs OpenVLA 53.7%;CALVIN 3.885 vs 全微调 4.057
- 几何任务部分落后:KITTI 深度 0.136 vs Point3R 0.093;Sintel 位姿 0.227 vs Cut3R 0.213
- 训练成本:64×H200 GPU,两阶段共 180K 步——不是所有机构能负担
- 因果性代价:VideoMME 略低于双向注意力模型
七、结论
OmniStream 的意义不只是又一篇多任务视觉模型的论文。它提出了一个关于视觉基础模型本质的重新定位:
从"专用专家"到"通用基础设施"。
现有范式是:你需要语义时训一个编码器,需要几何时再训一个,需要时序时再训一个。OmniStream 说:预训练时同时学这四件事,得到的表示足够通用,下游任务只需加个头。
核心数据:
- 一个 400M 参数的 frozen 骨干
- 在感知、几何、VLM、VLA 四大层级 29 项任务上竞争
- 流式推理 \(O(T)\) 复杂度,支持 512 帧不 OOM
- 训练 16 帧 → 测试 110+ 帧零样本外推
更深层的问题:如果 OmniStream 的方向是对的,那么现有的视觉预训练范式(CLIP、DINO、V-JEPA 各自为政)可能需要被重新审视。未来的视觉基础模型可能不再是"某个方面最强",而是"哪个方面都不弱"——因为真实世界中的应用永远同时需要语义、几何和时序。
"The model doesn't need to be the best at any single task. It needs to be good enough at all of them, at the same time."
参考论文:
Yan, Y., Xu, J., Di, S., Wu, H., & Xie, W. (2026). OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams. Shanghai Jiao Tong University, Shanghai Innovation Institute, & University of Oxford. arXiv:2603.12265v1. GitHub: https://github.com/Go2Heart/OmniStream
#论文解读 #OmniStream #上海交通大学 #视觉基座模型 #视频流 #因果注意力 #3DRoPE #具身智能 #VLA #智柴外脑 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。