LiteFrame:把视频编码器压缩71%参数,让AI看懂8倍长视频
当前Video LLM的效率优化有一个致命盲区:所有人都在想办法压缩LLM端的视觉token,却没人管视觉编码器本身。结果是——LLM变快了,但ViT逐帧提取特征的速度成了新瓶颈,处理长视频时延迟反而爆炸。Google DeepMind和首尔国立大学的团队提出了LiteFrame:一个87M参数的轻量视频编码器(比教师模型小71%),通过把token压缩直接内化到视觉骨干网络中,同时解决了LLM和编码器的效率问题。关键创新是CTD(压缩令牌蒸馏):让学生编码器不再学习教师的原始密集输出,而是直接对齐教师经过时空压缩后的信息密集表征。结果:8倍输入帧、35%端到端延迟降低、64帧下LLM预填充快12.7倍、ViT编码快5.3倍。论文arXiv:2605.17260。
一、盲区:为什么Video LLM越优化越慢?
现代Video LLM的标准架构是三段式:
- ViT编码器逐帧提取视觉特征(每帧256个token)
- 对齐投影器把视觉特征映射到LLM空间
- LLM对交错视觉+文本token进行推理
双重成本陷阱:每增加一帧,视觉编码器和LLM的计算成本同时增加。LLM的自注意力是二次复杂度,所以业界的主流优化思路是:
- 提取密集特征 → 后验压缩(ToMe、PruMerge、FastVID等)→ 减少LLM的token负担
但这里有一个盲区:后验压缩只解决了LLM的问题,视觉编码器仍然要逐帧运行一个304M参数的ViT-Large。当LLM因为token减少而变快时,ViT的延迟反而成了主导瓶颈。
具体数据(论文图1):
- 标准Video LLM:受限于LLM二次复杂度,实际只能处理~64帧
- 后验压缩后:LLM能处理更多帧了,但ViT延迟爆炸性增长
- 结果:端到端延迟没有显著改善,瓶颈只是从LLM转移到了ViT
二、LiteFrame:一句话定位
"LiteFrame是一个轻量高效的视频编码器,将时空token压缩直接集成到视觉骨干网络中,通过CTD压缩令牌蒸馏从预训练教师高效迁移知识,仅87M参数即可处理8倍更多帧,同时降低35%端到端延迟。"
论文信息:
- 标题:LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs
- 作者:Jihwan Kim, Nikhil Parthasarathy, Danfeng Qin, Junhwa Hur, Deqing Sun, Bohyung Han, Ming-Hsuan Yang, Boqing Gong
- 机构:Google DeepMind, Seoul National University
- arXiv: 2605.17260
- 项目页:https://jjihwan.github.io/projects/LiteFrame
- 代码:暂未开源(论文承诺开放)
三、架构设计:把压缩"内化"到编码器
3.1 核心思想:不是"提取-减少",而是"直接压缩提取"
现有范式:
视频帧 → ViT-Large (304M) → 密集特征 (每帧256 token) → 后验压缩 (16×) → LLM
↑ 瓶颈在这里
LiteFrame范式:
视频帧 → LiteFrame (87M) → 直接输出压缩特征 (每帧16 token) → LLM
↑ 压缩内化为网络能力
3.2 轻量学生编码器:ViT-Base-12L + 深度可分离时序卷积
| 组件 | 教师模型 | LiteFrame学生 |
|---|---|---|
| 架构 | ViT-Large-24L | ViT-Base-12L |
| 参数量 | 304M | 87M(-71%) |
| 隐藏维度 | 1024 | 768 |
| 层数 | 24 | 12 |
关键创新:DWTempConv(深度可分离时序卷积)
- 标准空间注意力层与轻量DW 1D时序卷积层交错
- 策略性插入步幅卷积层(第4层后:时序stride=2;第8层后:时序stride=2)
- 渐进式降低token数量,深层计算成本显著低于逐帧编码
效率对比(256帧,表2):
| 架构 | 延迟(ms) | TFLOPs | 参数量(M) |
|---|---|---|---|
| ViT-Large-24L (教师) | 1043.33 | 158.80 | 304.01 |
| ViT-Base-12L (无压缩) | 338.01 | 44.81 | 86.31 |
| TempAttn | 348.29 | 32.77 | 143.83 |
| SpatioTempAttn | 204.35 | 17.92 | 87.15 |
| TempConv | 202.08 | 22.44 | 109.54 |
| DWTempConv (Ours) | 174.84 | 17.92 | 87.15 |
DWTempConv以最低延迟和FLOPs取胜,参数开销仅<1M。
3.3 WAP:加权平均池化——比SOTA后验方法更好的压缩基元
公式:
Y[u,v,s] = Σ softmax(x_cls^T · x[i,j] / √C) · x[i,j]
- 输入特征张量 X ∈ R^{T×H×W×C}
- 非重叠时空块 Ω,目标压缩分辨率 (t,h,w)
- 压缩比 r = THW / thw
- 注意力权重由每帧的class token与空间token计算
性能对比(16×压缩,64帧,表1):
| 方法 | Video-MME(无字幕) | Video-MME(有字幕) | MLVU | LongVideoBench | 平均 |
|---|---|---|---|---|---|
| InternVL3-8B (无压缩) | 66.0 | 68.7 | 73.1 | 59.6 | 66.9 |
| Average Pooling | 59.7 | 64.1 | 62.3 | 54.7 | 60.2 |
| Max Pooling | 59.7 | 63.9 | 62.0 | 54.2 | 60.0 |
| Subsampling | 60.4 | 64.6 | 65.1 | 54.5 | 61.2 |
| ToMe | 58.7 | 62.3 | 64.7 | 54.2 | 60.0 |
| PruMerge | 60.3 | 63.2 | 64.6 | 50.6 | 59.7 |
| FastVID | 59.3 | 63.4 | 65.1 | 54.4 | 60.6 |
| WAP (Ours) | 61.0 | 65.7 | 67.4 | 54.0 | 62.0 |
WAP不仅是压缩算子,更是CTD的监督目标生成器。
3.4 CTD:压缩令牌蒸馏——不是学原始特征,而是学压缩后的信息密集表征
核心洞察:传统知识蒸馏让学生对齐教师的原始密集输出,但这包含了大量冗余。LiteFrame让学生直接对齐教师经过WAP压缩后的紧凑表征。
公式:
L_CTD(θ) = ||S_θ(x) - P(T(x))||²
- T(x) = Z_T ∈ R^{N×D}:教师密集特征
- S_θ(x) = Z_S ∈ R^{(N/r)×D}:学生输出(压缩比r,如16×)
- P(·):基于WAP的投影算子
训练流程:
教师ViT (300M, 冻结) → WAP 16× → 紧凑信息丰富潜空间目标
↓
学生LiteFrame (80M, 可训练) ← 蒸馏损失 (MSE)
关键优势:将WAP的注意力加权机制"固化"到学生网络参数中,运行时无需计算冗余patch的注意力。
3.5 LMA:语言模型适配
- 使用LoRA(r=4, α=8, dropout=0.05)微调LLM和编码器
- 标准文本生成交叉熵损失
- 帧数采样:{128, 256, 512},FPS 1-4
- 额外收益:长上下文适应,使LLM能处理最多512帧
四、核心实验结果
4.1 与InternVL3-8B基线对比(表3)
| 配置 | 方法 | 帧数 | Tokens/帧 | 视觉参数量 | 视觉延迟 | LLM延迟 | 总延迟 | 平均准确率 |
|---|---|---|---|---|---|---|---|---|
| 8帧基线 | InternVL3-8B | 8 | 256 | 304M | 40.0 | 167.3 | 208.4 | 59.0% |
| +FastVID | 32 (4×) | 16 | 304M | 161.7 | 63.0 | 224.8 (+7.9%) | 59.5% (+0.5) | |
| +LiteFrame | 64 (8×) | 16 | 87M | 54.8 | 94.9 | 150.1 (-28.0%) | 61.1% (+2.1) | |
| 16帧基线 | InternVL3-8B | 16 | 256 | 304M | 74.0 | 329.3 | 403.6 | 62.2% |
| +FastVID | 64 (4×) | 16 | 304M | 310.6 | 95.4 | 406.2 (+0.6%) | 59.5% (-2.7) | |
| +LiteFrame | 128 (8×) | 16 | 87M | 105.3 | 166.6 | 272.6 (-32.5%) | 63.7% (+1.5) | |
| 32帧基线 | InternVL3-8B | 32 | 256 | 304M | 144.5 | 669.8 | 814.5 | 65.3% |
| +FastVID | 128 (4×) | 16 | 304M | 625.8 | 168.9 | 794.9 (-2.4%) | 62.9% (-2.4) | |
| +LiteFrame | 256 (8×) | 16 | 87M | 204.0 | 327.4 | 532.3 (-34.6%) | 65.7% (+0.4) |
关键成就:
- ✅ 8倍更多帧(64 vs 8, 128 vs 16, 256 vs 32)
- ✅ 延迟降低28%-35%
- ✅ 准确率提升0.4%-2.1%
- ✅ 视觉参数量减少71%(304M → 87M)
4.2 帕累托前沿重新定义(图2)
LiteFrame(红星)在延迟-准确率坐标系中显著优于:
- 教师模型InternVL3(黑色虚线)
- 后验方法ToMe16×、FastVID16×、PruMerge16×(彩色虚线)
- 甚至优于本文提出的后验基线WAP16×(红三角)
4.3 与AutoGaze详细对比(图7)
| 指标 | AutoGaze | LiteFrame |
|---|---|---|
| 基线模型 | NVILA-8B-Video | InternVL3-8B |
| 帧数扩展 | 32→256 (8×) | 32→256 (8×) |
| 视觉延迟变化 | +2961.4ms (+477.8%) | +41.2% |
| LLM延迟变化 | +63.5% | -51.1% |
| 总延迟变化 | +682.1% (6106.5ms) | -34.6% (532.3ms) |
| 准确率变化 | 0.00 (63.1%→63.1%) | +0.4% (65.3%→65.7%) |
AutoGaze的瓶颈:预减少辅助模块占近一半推理时间(3.0s/6.1s)。
4.4 零样本空间分辨率缩放(图6,HLVid基准)
| 方法 | 分辨率 | 帧数 | 准确率 |
|---|---|---|---|
| InternVL3-8B | 448px | 64f | 42.9% |
| 896px | 16f | 45.9% | |
| 1792px | 4f | 45.5% | |
| 3584px | 2f | 38.8% | |
| 7168px | 1f | 29.9% | |
| AutoGaze | 3584px | 1024f | 52.6% |
| LiteFrame | 2688px | 48f | 54.1% ⭐ |
突破:无需高分辨率训练,在更低分辨率和更少帧数下超越AutoGaze。
4.5 与其他高效视觉编码器对比(表4)
| 方法 | 视觉参数量 | Tokens/帧 | 帧数 | 总Tokens | 视觉延迟 | LLM延迟 | 总延迟 | 准确率 |
|---|---|---|---|---|---|---|---|---|
| FastVLM | 125M | 49 | 32 | 1568 | 98.3 | 132.9 | 231.5 | 47.6% |
| VideoPanda | 45M | 272 | 32 | 8704 | 36.5 | 345.7 | 382.4 | 49.2% |
| LiteFrame | 87M | 16 | 32 | 512 | 30.1 | 61.5 | 91.9 | 58.0% |
LiteFrame:1.2×快于VideoPanda,3.3×快于FastVLM,准确率显著更高。
五、为什么CTD比传统蒸馏更有效?
传统知识蒸馏:
学生 → 对齐教师的原始密集输出(包含冗余patch)
问题:学生学习了很多无用信息,运行时还要自己压缩
CTD压缩令牌蒸馏:
学生 → 对齐教师经过WAP压缩后的信息密集表征
优势:学生直接学习"什么信息重要",运行时无需冗余计算
这不是简单的蒸馏目标替换,而是压缩策略的内化:WAP的注意力加权机制被固化到学生网络的参数中,运行时天然输出紧凑表征。
六、部署意义
- 固定计算预算下的长视频理解:用时空冗余换取丰富时序上下文
- 边缘设备可行性:87M参数编码器,30ms级视觉延迟
- 实时应用潜力:91.9ms总延迟处理32帧(表4)
- 分辨率-帧数灵活权衡:token效率支持空间-时间联合优化
- 即插即用兼容性:可集成到现有Video LLM架构中
七、局限与未来方向
- 训练数据范围:主要使用InternVL2.5的训练数据子集,未探索更大规模或更多样化数据
- 教师模型依赖:CTD需要强大的预训练教师模型,教师质量直接影响学生上限
- 压缩比固定:主要验证16×压缩,未探索动态自适应压缩比
- 任务范围:聚焦视频理解QA/推理,未涉及视频生成或多模态交互
八、一句话总结
LiteFrame的核心洞察是:Video LLM的效率优化不能只盯着LLM,视觉编码器才是长视频处理时被忽视的瓶颈。当前所有后验token压缩方法都在做同一件事——先让304M的ViT-Large逐帧跑完,再把输出压缩。这就像先让卡车满载货物开到目的地,再倒掉80%的货。LiteFrame的解法是:换一辆小卡车(87M参数),直接装20%的货出发。CTD压缩令牌蒸馏让这辆小卡车学会了"什么货值得装"——不是通过运行时筛选,而是通过训练时内化教师经过WAP压缩后的选择标准。结果是8倍帧数、35%延迟降低、准确率还提升了。对于Video LLM的部署者来说,这意味着长视频理解不再是"算力换帧数"的线性游戏,而是可以通过架构重设计实现非线性突破。
参考信息
- 论文:LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs
- 作者:Jihwan Kim, Nikhil Parthasarathy, Danfeng Qin, Junhwa Hur, Deqing Sun, Bohyung Han, Ming-Hsuan Yang, Boqing Gong
- 机构:Google DeepMind, Seoul National University
- arXiv: 2605.17260
- 项目页:https://jjihwan.github.io/projects/LiteFrame
- 核心创新:瓶颈转移识别、CTD压缩令牌蒸馏、DWTempConv深度可分离时序卷积、WAP加权平均池化、LMA语言模型适配
- 关键结果:87M参数(-71%)、8倍帧数、28-35%延迟降低、64帧LLM预填充快12.7倍、ViT编码快5.3倍
- 对比基线:InternVL3-8B、FastVID、ToMe、PruMerge、AutoGaze、FastVLM、VideoPanda
- 评估基准:Video-MME、MLVU、LongVideoBench、HLVid
- 训练:CTD(MSE蒸馏)+ LMA(LoRA r=4, α=8)
- 局限:教师依赖、固定压缩比、数据范围有限
步子哥,LiteFrame让我想到一个更深层的问题:在AI系统优化中,我们太容易陷入"局部最优陷阱"——只优化最明显的瓶颈(LLM的二次注意力),而忽视了瓶颈转移后的新瓶颈(ViT编码器)。这不仅是Video LLM的问题,也是所有复杂系统的通病。LiteFrame的价值在于它重新校准了优化方向:不是"让LLM更快",而是"让端到端系统更快"。CTD的"压缩内化"思路也很值得推广——不是运行时做减法,而是训练时做选择。这本质上是一种"前置优化":把后处理的成本转移到预训练阶段,运行时享受零开销。对于Video LLM的落地部署来说,这可能比任何后验压缩方法都更有价值,因为边缘设备最缺的不是存储,而是运行时算力。
#LiteFrame #VideoLLM #视觉编码器 #多模态 #帧缩放 #压缩令牌蒸馏 #CTD #WAP #DeepMind #视频理解 #模型优化
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。