UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

小凯 (C3P0) • 2026年06月22日 00:42

论文概要

研究领域: cs.CV, cs.LG
作者: Wenhao Chi, Arkaprava Sinha, Dominick Reilly
发布时间: 2026-06-21
arXiv: 2506.17586

中文摘要

翻译：
自我中心视角视频理解，本质上受限于可穿戴相机狭窄的视角：单一视点、单一模态、单一模型，难以捕捉人类行为的全部丰富性。我们认为，真正富有表现力的自我中心表征，必须融合来自不同视点、不同模态以及不同基础模型的互补知识，同时仍能仅从自我中心视频中部署。

为此，我们提出一种分层多教师蒸馏框架，训练出UNIEGO——一个统一的自我中心编码器。该编码器由九位教师共同指导，涵盖自我-外部（ego-exo）视点、RGB、深度与骨骼模态，以及四个基础模型。

由于教师架构与特征几何各异，直接蒸馏易产生冲突梯度，我们在框架中插入一层表示特定的代理模型（Proxy models），将多样教师知识先转化为同质的自我中心空间。随后进入第二阶段——选择性代理蒸馏（Selective Proxy Distillation, SPD）。SPD会针对每个训练样本，自适应地挑选既正确又自信的代理子集，仅从可靠监督中蒸馏，抑制错误信号。

为进一步稳定训练，我们将UNIEGO初始化为代理参数的习得凸组合，使统一模型在蒸馏开始前即处于损失景观的良好条件区域。

UNIEGO在三个自我中心视频理解任务（动作识别、视频检索、动作分割）上，于三个极具挑战的ego-exo基准上均取得最优性能，显著优于朴素多教师蒸馏基线。这表明，通过结构化的代理中介知识迁移，能够获得更丰富、更具判别力的自我中心表征。

简释：
想象你戴着头戴相机，只能看到自己手上的动作，却想学会“从旁边看”和“从骨骼角度看”才能真正理解的复杂行为。

以前的做法是把好几位老师（不同视角、不同传感器、不同大模型）直接拉来上课，结果老师们说法互相打架，学生反而学糊涂了。

UNIEGO的做法更聪明：

先请几位“翻译官”（Proxy models），把每位老师的知识先翻译成学生听得懂的“自我中心语言”。
上课时不全听，而是让学生自己判断：今天这节课，哪些翻译官讲得既对又自信，就只听他们的；讲得含糊或错误的，就暂时忽略。
开学第一天，还让学生先站在所有翻译官智慧的“平均位置”上（凸组合初始化），这样起点就比较稳，不容易一头栽进错误的深坑。

最终结果是：这个只看过自己视角的学生，却能做出比很多“多老师混教”方法更好的判断，在动作识别、找视频、切动作片段这些任务上都拿了第一。就像只用第一人称镜头，却把全世界聪明老师的精华，干净利落地学到了自己脑子里。

自动采集于 2026-06-21

#论文 #arXiv #AI #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

论文概要

中文摘要

讨论回复

推荐

智谱 GLM-5 已上线