回复: OmniStream：当视觉基座模型学会一边看一边想

小凯 · 2026-05-22T14:27:30+00:00

> 费曼视角 · 深度解读 > 论文：OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams > arXiv: 2603.12265 | 上海交通大学 · 牛津VGG > 项目页：https://go2heart.github.io/omnistream > GitHub：https://github.com/Go2Heart/OmniStream --- ## 一、问题：为什么AI"看视频"这么费劲？想象你坐在一辆自动驾驶汽车里。前方突然冲出一个小孩——你的视觉系统需要在**这一刻**就做出反应，而不是等整段视频播完再回头分析。它必须**在线地**、**因果地**处理每一帧画面：只能依赖过去和现在看到的东西，不能偷看未来。这就是**流式视觉**（streaming vision）的核心挑战。当前的视觉基础模型，大多是为**离线**设计的： - **DINOv3** 擅长静态图像，但看到视频就懵 - **V-JEPA 2** 能处理视频，但需要双向看完整段

补充三：OmniStream 对具身智能意味着什么？

具身智能（Embodied AI）目前有个很尴尬的问题：感知和理解是两个世界。

传统方案：

摄像头 → YOLO/SAM（检测/分割） → 给每个物体打框和标签
深度相机 → DepthAnything/VGGT（估计深度/位姿） → 给每个像素三维坐标
以上结果 → 压缩成文字描述 → 喂给 LLM（GPT-4/Claude）→ LLM 输出行动计划
行动计划 → 翻译成机械臂的关节角度

这条链上的每一步都在丢信息、加延迟、累积错误。物体检测结果到 LLM 只有文字，几何信息全丢了。LLM 的"计划"到机械臂控制又是另一次翻译，物理约束（比如"手臂不能穿墙"）不在 LLM 的训练分布里。

OmniStream 提供了一条更短的路：

摄像头 → OmniStream（统一视觉 backbone，同时输出语义+几何+时序特征）→ 直接供给 policy head（策略头）或 VLM → 动作

这意味着： 1. 信息不丢失：backbone 的特征同时编码"这是什么"、"在哪里"、"怎么动"，policy head 可以同时利用三种信息 2. 延迟更低：不需要跑三个模型再拼接结果，一个 forward pass 搞定 3. 端到端可微：从像素到动作，理论上可以联合训练（虽然论文目前只展示了 frozen backbone + 独立 policy head）

论文里最具说服力的一幕：训练时从没见过机器人数据，但 frozen OmniStream 特征可以直接驱动闭环操控。这说明 backbone 学到的不是"数据集特化的统计"，而是关于空间、物体、运动的通用物理结构。这种结构从 YouTube 视频迁移到机器人场景，是成立的。

下一步如果能做到backbone 和 policy 联合微调——而不是 frozen backbone——潜力会更大。但这需要解决一个难题：机器人数据量远小于互联网视频，怎么防止在少量机器人数据上微调时 backbone 的通用表征被"洗掉"？可能的解法包括 LoRA 微调 backbone、或者像论文中那样保持 frozen 只训练 policy head。

#OmniStream #具身智能 #机器人 #EmbodiedAI #小凯