# OmniStream 深度解析:面向连续视频流的通用视觉基座模型
> 研究日期:2025-05-11
> 论文:OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams
> arXiv: 2603.12265 | 2026-03-12
> 作者:Yibin Yan, Jilan Xu, Shangzhe Di, Haoning Wu, Weidi Xie
> 机构:上海交通大学人工智能学院、上海创新研究院、牛津大学 VGG
---
## 一、为什么需要 OmniStream?
当前视觉基础模型是**碎片化**的——它们各自只擅长一个狭窄领域:
- 图像语义感知(如 DINOv3)
- 离线时序建模(如 V-JEPA 2)
- 空间几何理解(如 CUT3R)
没有一个模型能同时处理**语义 + 空间 + 时间**三种推理。对于需要实时交互的具身智能体(embodied agents)来说,这种碎片化是致命的:
- 延迟高:每次都要调不同模型
- 显存压力大:多个模型同时驻留
- 缺乏三维空间感:图像模型不懂深度,视频模型不懂几何
**OmniStream 的核心问题**:能否训练一个单一的通用视觉主干(backbone),在**严格冻结**的情况下,无需任何微调就能直接部署到 29 项不同任务中?
---
## 二、核心技术创新
### 2.1 因果时空注意力(Causal Spatiotemporal Attention)
传统视频模型的注意力是双向的——看第 N 帧时会"偷看"第 N+1 帧。这在实时流式场景中是不可能的(未来帧还没到来)。
OmniStream 的因果注意力确保:
- **严格时序因果**:第 t 帧只能看到 ≤ t 的帧
- **持久化 KV-cache**:过去帧的 key/value 被缓存,避免重复计算
- **逐帧在线处理**:每来一帧就处理一帧,无需等待整个视频
**效果对比**(T=64 帧,224×224 分辨率,单张 H800):
| 指标 | 双向重计算基线 | OmniStream (KV-cache) | 提升 |
|------|---------------|----------------------|------|
| 延迟 | 0.998s | **0.067s** | **15× 加速** |
| 显存 | 15.14 GB | 7.26 GB | 减半 |
| T=128 | **OOM** | 0.115s | 基线直接崩溃 |
| T=512 | OOM | 0.414s | 基线无法想象 |
### 2.2 3D 旋转位置编码(3D-RoPE)
2D RoPE(旋转位置编码)在 LLM 中已经被证明有效,但它只处理一维序列。视频是三维的:高度 × 宽度 × 时间。
3D-RoPE 将位置编码扩展到三维空间:
- **空间维度**:h(高度)、w(宽度)—— 2D RoPE 原本就有的
- **时间维度**:t(帧序号)—— 新增的
这让模型能自然地理解"物体从画面左侧移动到右侧"(空间变化)和"三秒前出现的人"(时间关系)之间的关联。
**关键能力**:
- **长度外推**:训练时只用 T=16 帧,推理时可无缝处理 **110 帧**(零样本外推)
- **几何外推**:利用 3D-RoPE 的几何性质,模型能推断未见过的长序列
### 2.3 多任务协同预训练框架
OmniStream 在 **29 个数据集** 上联合训练,涵盖三类任务:
| 任务类型 | 具体任务 | 数据集示例 |
|---------|---------|-----------|
| **静态 + 时序表征学习** | 图像分类、视频动作识别、视频目标分割 | ImageNet、K400、SSv2、DAVIS'17 |
| **流式几何重建** | 在线深度估计、在线相机位姿估计 | Sintel、BONN、KITTI、TUM、ScanNet |
| **视觉-语言对齐** | 视觉问答、空间推理 | VSI-Bench、OVO-Bench |
**训练策略**:
- 主干网络基于 **DINOv3**(强空间先验)
- 双 DPT 模块预测深度图、射线图、相机位姿
- 轻量级自回归语言解码器连接视觉 token 与语言概念
---
## 三、实验结果:冻结主干,全能表现
OmniStream 的核心主张是:**即使严格冻结视觉主干,也能在 29 项任务中达到与专用模型相当甚至更好的表现。**
### 3.1 视频理解
| 数据集 | 任务 | OmniStream | DINOv3 | V-JEPA 2 | 专用模型 |
|-------|------|-----------|--------|---------|---------|
| **SSv2** | 动作识别 | **68.5%** | 54.0% | — | — |
| **K400** | 动作识别 | 74.2% | — | 72.1% | — |
| **DAVIS'17** | 视频分割 (J&F) | **71.6** | 73.2 | 44.2 | — |
**洞察**:OmniStream 注入时序动态的同时,没有损害空间先验——DAVIS'17 上与 DINOv3(图像专家)仅差 1.6,而 V-JEPA 2(视频专家)掉了 29 分。
### 3.2 流式几何重建
| 数据集 | 任务 | 指标 | OmniStream | 专用在线 3D 模型 |
|-------|------|------|-----------|-----------------|
| **Sintel** | 深度估计 | Abs Rel | **0.314** | 0.341 |
| **BONN** | 深度估计 | Abs Rel | **0.072** | 0.089 |
| **KITTI** | 深度估计 | Abs Rel | **0.136** | 0.152 |
| **Sintel** | 相机位姿 | ATE | 0.089 | 0.094 |
| **TUM Dynamics** | 相机位姿 | ATE | **0.042** | 0.051 |
| **ScanNet** | 相机位姿 | ATE | **0.128** | 0.143 |
**洞察**:一个通用视觉主干,在几何重建任务上击败了专门为此训练的在线 3D 模型。
### 3.3 空间推理(VLM / VLA)
| 基准 | 任务 | OmniStream | 其他基线 |
|------|------|-----------|---------|
| **VSI-Bench** | 视觉空间推理 | **70.6%** | 多数基线 < 65% |
| **OVO-Bench** | 开放词汇物体定位 | 67.3% | — |
| **机器人操控** | 未见于训练 | 与专用 VLA 模型相当 | — |
**洞察**:OmniStream 在 VSI-Bench 上取得领先分数,**超越了配备额外几何编码器的专用基线**——说明 3D-RoPE 本身就提供了足够的空间推理能力,不需要额外的几何模块。
### 3.4 图像任务(空间先验保留)
| 数据集 | 任务 | OmniStream | DINOv3 |
|-------|------|-----------|--------|
| **NYUv2** | 深度估计 | 0.089 | 0.087 |
| **ADE20K** | 语义分割 | 45.2 mIoU | 46.1 mIoU |
**洞察**:加入时序训练后,图像任务上的表现几乎没有损失——证明多任务训练的"协同效应"真实存在。
---
## 四、架构细节
### 4.1 Token 化策略
对于视频流 V^T ∈ R^(T×H×W×3):
1. 每帧切分为 p×p 的 non-overlapping patches
2. 线性投影后,每帧前置特殊 token:
- 1 个 [CLS] token(全局语义)
- 4 个 register token [vision_registers]
- 1 个可选 [CAM] token(相机预测)
3. 输入序列:z^0 ∈ R^(T×(Ns+hw)×d)
### 4.2 输出设计
从 Transformer 中提取三类输出:
- **稠密时空特征图**(中间层):用于像素级任务(深度估计、分割)
- **最终层特殊 token**:全局语义([CLS])+ 相机预测([CAM])
- **特征金字塔**:多尺度特征用于不同分辨率任务
### 4.3 推理效率详解
OmniStream 的因果设计使其在流式场景中有天然优势:
```
双向注意力(基线): 每帧 O(T²) 复杂度,必须重算整个序列
因果注意力(OmniStream): 每帧 O(T) 复杂度,KV-cache 增量更新
```
**实际数字**:
- 处理第 64 帧时,基线要重算 64 帧的完整注意力 = 0.998s
- OmniStream 只算第 64 帧的新 attention + 缓存的 63 帧 = 0.067s
- 内存增长从二次变为线性,T=512 只需 41.46GB(可部署)
---
## 五、关键洞察
### 1. 统一表示是可行的
OmniStream 证明了:一个单一的视觉主干可以同时承载语义、空间和时序推理,而不需要在每个任务上单独微调。这不是"万能模型"的炒作,而是有数据支撑的技术事实。
### 2. 因果设计不是妥协,是优势
传统观点认为因果注意力会损失性能(因为看不到未来)。但 OmniStream 显示:
- 在需要因果的任务(机器人操控、在线重建)上,因果是**必要约束**
- 在不需要因果的任务(离线视频理解)上,性能**不输给双向模型**
- 更重要的是,因果设计让**KV-cache 成为可能**,从而解锁了实时流式部署
### 3. 3D-RoPE 是空间理解的关键
VSI-Bench 的结果(70.6%)证明:3D-RoPE 本身就编码了足够丰富的空间关系,不需要额外的深度编码器或几何模块。这简化了架构,也降低了部署成本。
### 4. 多任务协同 > 单任务专精
29 个数据集的联合训练产生了"1+1>2"的协同效应:
- 几何任务帮助空间定位
- 时序任务帮助运动理解
- 语言对齐帮助语义 grounding
这与传统"一个模型一个任务"的范式形成鲜明对比。
### 5. 零样本外推能力惊人
训练窗口只有 16 帧,但推理时可处理 110 帧——这种 **7 倍长度外推** 能力来自 3D-RoPE 的几何性质,而非过拟合。这意味着模型真正理解了时间的"连续"本质,而不是记住了训练时的特定长度。
---
## 六、对具身智能的意义
OmniStream 最大的价值在于:**为具身智能体提供了一个统一的视觉"神经系统"**。
传统具身智能的痛点:
- 感知用 CNN,导航用 SLAM,操控用专用视觉模型——三个系统不互通
- 延迟高:感知 → 决策 → 动作 的链路中,每个环节都在等前一个模型输出
- 显存不够:同时加载多个模型,边缘设备无法部署
OmniStream 的解决方案:
- **一个主干** 同时输出语义("这是什么")、空间("在哪里")、时序("怎么动")三种表示
- **因果流式处理**:每来一帧就出一帧结果,无需缓冲整个视频
- **KV-cache**:历史帧的表示被持久化,机器人"记得"之前看到过什么
- **冻结部署**:预训练好的主干直接部署,下游任务只需轻量头
这正是端到端通用视觉理解的关键一步。
---
## 七、局限与未来方向
| 局限 | 说明 |
|------|------|
| 训练窗口有限 | T=16 的预训练窗口相对较短,虽然外推能力强,但极长序列(>1000帧)仍需验证 |
| 语言解码器轻量 | 当前的语言头是轻量自回归解码器,复杂推理能力可能不如专用 MLLM |
| 动作空间未统一 | 机器人操控任务中,视觉表示到动作策略的映射仍是独立模块 |
| 计算成本 | 虽然比双向注意力高效,但 T=512 时 41GB 显存对边缘设备仍是挑战 |
**未来方向**:
- 扩展到音频-视觉-语言三模态
- 与强化学习策略网络端到端联合训练
- 量化 + 蒸馏,适配边缘设备(机器人 onboard 计算)
- 开放世界持续学习,让知识图谱与视觉表示联动演化
---
## 参考链接
- arXiv 论文:https://arxiv.org/abs/2603.12265
- 项目主页:https://npcworldwi.de/omnistream (推测,以官方为准)
- 相关论文:DINOv3、V-JEPA 2、CUT3R、Florence-2
---
#OmniStream #视觉基座模型 #连续视频流 #因果注意力 #3DRoPE #具身智能 #上海交通大学 #KVCache #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力