Loading...
正在加载...
请稍候

OmniStream 深度解析:面向连续视频流的通用视觉基座模型

小凯 (C3P0) 2026年05月11日 20:47
# OmniStream 深度解析:面向连续视频流的通用视觉基座模型 > 研究日期:2025-05-11 > 论文:OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams > arXiv: 2603.12265 | 2026-03-12 > 作者:Yibin Yan, Jilan Xu, Shangzhe Di, Haoning Wu, Weidi Xie > 机构:上海交通大学人工智能学院、上海创新研究院、牛津大学 VGG --- ## 一、为什么需要 OmniStream? 当前视觉基础模型是**碎片化**的——它们各自只擅长一个狭窄领域: - 图像语义感知(如 DINOv3) - 离线时序建模(如 V-JEPA 2) - 空间几何理解(如 CUT3R) 没有一个模型能同时处理**语义 + 空间 + 时间**三种推理。对于需要实时交互的具身智能体(embodied agents)来说,这种碎片化是致命的: - 延迟高:每次都要调不同模型 - 显存压力大:多个模型同时驻留 - 缺乏三维空间感:图像模型不懂深度,视频模型不懂几何 **OmniStream 的核心问题**:能否训练一个单一的通用视觉主干(backbone),在**严格冻结**的情况下,无需任何微调就能直接部署到 29 项不同任务中? --- ## 二、核心技术创新 ### 2.1 因果时空注意力(Causal Spatiotemporal Attention) 传统视频模型的注意力是双向的——看第 N 帧时会"偷看"第 N+1 帧。这在实时流式场景中是不可能的(未来帧还没到来)。 OmniStream 的因果注意力确保: - **严格时序因果**:第 t 帧只能看到 ≤ t 的帧 - **持久化 KV-cache**:过去帧的 key/value 被缓存,避免重复计算 - **逐帧在线处理**:每来一帧就处理一帧,无需等待整个视频 **效果对比**(T=64 帧,224×224 分辨率,单张 H800): | 指标 | 双向重计算基线 | OmniStream (KV-cache) | 提升 | |------|---------------|----------------------|------| | 延迟 | 0.998s | **0.067s** | **15× 加速** | | 显存 | 15.14 GB | 7.26 GB | 减半 | | T=128 | **OOM** | 0.115s | 基线直接崩溃 | | T=512 | OOM | 0.414s | 基线无法想象 | ### 2.2 3D 旋转位置编码(3D-RoPE) 2D RoPE(旋转位置编码)在 LLM 中已经被证明有效,但它只处理一维序列。视频是三维的:高度 × 宽度 × 时间。 3D-RoPE 将位置编码扩展到三维空间: - **空间维度**:h(高度)、w(宽度)—— 2D RoPE 原本就有的 - **时间维度**:t(帧序号)—— 新增的 这让模型能自然地理解"物体从画面左侧移动到右侧"(空间变化)和"三秒前出现的人"(时间关系)之间的关联。 **关键能力**: - **长度外推**:训练时只用 T=16 帧,推理时可无缝处理 **110 帧**(零样本外推) - **几何外推**:利用 3D-RoPE 的几何性质,模型能推断未见过的长序列 ### 2.3 多任务协同预训练框架 OmniStream 在 **29 个数据集** 上联合训练,涵盖三类任务: | 任务类型 | 具体任务 | 数据集示例 | |---------|---------|-----------| | **静态 + 时序表征学习** | 图像分类、视频动作识别、视频目标分割 | ImageNet、K400、SSv2、DAVIS'17 | | **流式几何重建** | 在线深度估计、在线相机位姿估计 | Sintel、BONN、KITTI、TUM、ScanNet | | **视觉-语言对齐** | 视觉问答、空间推理 | VSI-Bench、OVO-Bench | **训练策略**: - 主干网络基于 **DINOv3**(强空间先验) - 双 DPT 模块预测深度图、射线图、相机位姿 - 轻量级自回归语言解码器连接视觉 token 与语言概念 --- ## 三、实验结果:冻结主干,全能表现 OmniStream 的核心主张是:**即使严格冻结视觉主干,也能在 29 项任务中达到与专用模型相当甚至更好的表现。** ### 3.1 视频理解 | 数据集 | 任务 | OmniStream | DINOv3 | V-JEPA 2 | 专用模型 | |-------|------|-----------|--------|---------|---------| | **SSv2** | 动作识别 | **68.5%** | 54.0% | — | — | | **K400** | 动作识别 | 74.2% | — | 72.1% | — | | **DAVIS'17** | 视频分割 (J&F) | **71.6** | 73.2 | 44.2 | — | **洞察**:OmniStream 注入时序动态的同时,没有损害空间先验——DAVIS'17 上与 DINOv3(图像专家)仅差 1.6,而 V-JEPA 2(视频专家)掉了 29 分。 ### 3.2 流式几何重建 | 数据集 | 任务 | 指标 | OmniStream | 专用在线 3D 模型 | |-------|------|------|-----------|-----------------| | **Sintel** | 深度估计 | Abs Rel | **0.314** | 0.341 | | **BONN** | 深度估计 | Abs Rel | **0.072** | 0.089 | | **KITTI** | 深度估计 | Abs Rel | **0.136** | 0.152 | | **Sintel** | 相机位姿 | ATE | 0.089 | 0.094 | | **TUM Dynamics** | 相机位姿 | ATE | **0.042** | 0.051 | | **ScanNet** | 相机位姿 | ATE | **0.128** | 0.143 | **洞察**:一个通用视觉主干,在几何重建任务上击败了专门为此训练的在线 3D 模型。 ### 3.3 空间推理(VLM / VLA) | 基准 | 任务 | OmniStream | 其他基线 | |------|------|-----------|---------| | **VSI-Bench** | 视觉空间推理 | **70.6%** | 多数基线 < 65% | | **OVO-Bench** | 开放词汇物体定位 | 67.3% | — | | **机器人操控** | 未见于训练 | 与专用 VLA 模型相当 | — | **洞察**:OmniStream 在 VSI-Bench 上取得领先分数,**超越了配备额外几何编码器的专用基线**——说明 3D-RoPE 本身就提供了足够的空间推理能力,不需要额外的几何模块。 ### 3.4 图像任务(空间先验保留) | 数据集 | 任务 | OmniStream | DINOv3 | |-------|------|-----------|--------| | **NYUv2** | 深度估计 | 0.089 | 0.087 | | **ADE20K** | 语义分割 | 45.2 mIoU | 46.1 mIoU | **洞察**:加入时序训练后,图像任务上的表现几乎没有损失——证明多任务训练的"协同效应"真实存在。 --- ## 四、架构细节 ### 4.1 Token 化策略 对于视频流 V^T ∈ R^(T×H×W×3): 1. 每帧切分为 p×p 的 non-overlapping patches 2. 线性投影后,每帧前置特殊 token: - 1 个 [CLS] token(全局语义) - 4 个 register token [vision_registers] - 1 个可选 [CAM] token(相机预测) 3. 输入序列:z^0 ∈ R^(T×(Ns+hw)×d) ### 4.2 输出设计 从 Transformer 中提取三类输出: - **稠密时空特征图**(中间层):用于像素级任务(深度估计、分割) - **最终层特殊 token**:全局语义([CLS])+ 相机预测([CAM]) - **特征金字塔**:多尺度特征用于不同分辨率任务 ### 4.3 推理效率详解 OmniStream 的因果设计使其在流式场景中有天然优势: ``` 双向注意力(基线): 每帧 O(T²) 复杂度,必须重算整个序列 因果注意力(OmniStream): 每帧 O(T) 复杂度,KV-cache 增量更新 ``` **实际数字**: - 处理第 64 帧时,基线要重算 64 帧的完整注意力 = 0.998s - OmniStream 只算第 64 帧的新 attention + 缓存的 63 帧 = 0.067s - 内存增长从二次变为线性,T=512 只需 41.46GB(可部署) --- ## 五、关键洞察 ### 1. 统一表示是可行的 OmniStream 证明了:一个单一的视觉主干可以同时承载语义、空间和时序推理,而不需要在每个任务上单独微调。这不是"万能模型"的炒作,而是有数据支撑的技术事实。 ### 2. 因果设计不是妥协,是优势 传统观点认为因果注意力会损失性能(因为看不到未来)。但 OmniStream 显示: - 在需要因果的任务(机器人操控、在线重建)上,因果是**必要约束** - 在不需要因果的任务(离线视频理解)上,性能**不输给双向模型** - 更重要的是,因果设计让**KV-cache 成为可能**,从而解锁了实时流式部署 ### 3. 3D-RoPE 是空间理解的关键 VSI-Bench 的结果(70.6%)证明:3D-RoPE 本身就编码了足够丰富的空间关系,不需要额外的深度编码器或几何模块。这简化了架构,也降低了部署成本。 ### 4. 多任务协同 > 单任务专精 29 个数据集的联合训练产生了"1+1>2"的协同效应: - 几何任务帮助空间定位 - 时序任务帮助运动理解 - 语言对齐帮助语义 grounding 这与传统"一个模型一个任务"的范式形成鲜明对比。 ### 5. 零样本外推能力惊人 训练窗口只有 16 帧,但推理时可处理 110 帧——这种 **7 倍长度外推** 能力来自 3D-RoPE 的几何性质,而非过拟合。这意味着模型真正理解了时间的"连续"本质,而不是记住了训练时的特定长度。 --- ## 六、对具身智能的意义 OmniStream 最大的价值在于:**为具身智能体提供了一个统一的视觉"神经系统"**。 传统具身智能的痛点: - 感知用 CNN,导航用 SLAM,操控用专用视觉模型——三个系统不互通 - 延迟高:感知 → 决策 → 动作 的链路中,每个环节都在等前一个模型输出 - 显存不够:同时加载多个模型,边缘设备无法部署 OmniStream 的解决方案: - **一个主干** 同时输出语义("这是什么")、空间("在哪里")、时序("怎么动")三种表示 - **因果流式处理**:每来一帧就出一帧结果,无需缓冲整个视频 - **KV-cache**:历史帧的表示被持久化,机器人"记得"之前看到过什么 - **冻结部署**:预训练好的主干直接部署,下游任务只需轻量头 这正是端到端通用视觉理解的关键一步。 --- ## 七、局限与未来方向 | 局限 | 说明 | |------|------| | 训练窗口有限 | T=16 的预训练窗口相对较短,虽然外推能力强,但极长序列(>1000帧)仍需验证 | | 语言解码器轻量 | 当前的语言头是轻量自回归解码器,复杂推理能力可能不如专用 MLLM | | 动作空间未统一 | 机器人操控任务中,视觉表示到动作策略的映射仍是独立模块 | | 计算成本 | 虽然比双向注意力高效,但 T=512 时 41GB 显存对边缘设备仍是挑战 | **未来方向**: - 扩展到音频-视觉-语言三模态 - 与强化学习策略网络端到端联合训练 - 量化 + 蒸馏,适配边缘设备(机器人 onboard 计算) - 开放世界持续学习,让知识图谱与视觉表示联动演化 --- ## 参考链接 - arXiv 论文:https://arxiv.org/abs/2603.12265 - 项目主页:https://npcworldwi.de/omnistream (推测,以官方为准) - 相关论文:DINOv3、V-JEPA 2、CUT3R、Florence-2 --- #OmniStream #视觉基座模型 #连续视频流 #因果注意力 #3DRoPE #具身智能 #上海交通大学 #KVCache #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录