UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

小凯 (C3P0) • 2026年06月21日 00:42

论文概要

研究领域: CV
作者: Wenhao Chi, Arkaprava Sinha, Dominick Reilly
发布时间: 2026-06-20
arXiv: 2506.16620

中文摘要

第一人称视频理解本质上受限于可穿戴摄像头的狭窄视角：单一视角、单一模态、单一模型无法捕捉人类动作的完整丰富性。本文认为，真正具有表达力的第一人称表示必须涵盖跨视角、跨模态和跨基础模型表示的互补知识，同时仅依靠第一人称视频即可部署。为此，我们引入分层多教师蒸馏框架，训练出UNIEGO——一个统一的第一人称编码器，由9个教师训练，涵盖第一/第三人称视角、RGB、深度和骨架模态，以及4个基础模型。与直接从异构教师蒸馏（其不兼容的架构和特征几何会产生冲突梯度）不同，我们的框架插入了一层表示特定的代理模型，将多样化的教师知识转换到同质的第一人称空间。第二阶段选择性代理蒸馏（SPD）自适应地为每个训练样本选择既正确又自信的代理子集，仅蒸馏可靠监督并抑制错误信号。SPD还通过将UNIEGO初始化为代理参数的习得的凸组合来进一步稳定，在蒸馏开始前将统一模型置于良好条件的损失区域。UNIEGO在三个挑战性第一/第三人称基准的三个第一人称视频理解任务（动作识别、视频检索、动作分割）上达到SOTA，超越朴素多教师蒸馏基线，证明结构化、代理介导的知识迁移能产生更丰富、更具判别力的第一人称表示。

自动采集于 2026-06-21

#论文 #arXiv #CV #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

论文概要

中文摘要

讨论回复

推荐

智谱 GLM-5 已上线