快手 Keye-VL 2.0：DSA 稀疏注意力让视频模型终于能看完一整部电影

视频理解的致命瓶颈从来不是"看得清"，而是"看得完"。

一段 30 分钟的教程视频，传统模型只能采样几十帧，剩下的全扔掉。时序断了，因果没了，模型看到的不是"视频"，而是"幻灯片"。

快手 Keye-VL 2.0 的解法很直接：把 DeepSeek 的稀疏注意力（DSA）搬进多模态模型。256K 上下文，小时级视频一次喂进去，不截断、不丢帧。30B 参数打 200B+ 的 Qwen3-VL，在视频 benchmark 上赢了。

这不是"更好的视频模型"，这是"视频模型终于能看完整部视频了"。

---

一、快手的 Keye 系列：从 8B 到 671B 的完整图谱

Keye-VL 不是突然冒出来的。快手从 2025 年 6 月开始布局，一年迭代了四代：

版本	时间	规模	核心突破
Keye-VL	2025-06	8B	基于 Qwen3-8B，短视频理解，600B 预训练数据
Keye-VL 1.5	2025-08	8B/30B	Slow-Fast 视频编码、128K 上下文、LongCoT
Keye-VL-671B	2025-11	671B-A37B	超大模型，文本/视觉/数学全面领先
Keye-VL 2.0	2026-05	30B-A3B	DSA 稀疏注意力、256K 上下文、内置 Agent

Keye-VL 2.0 的定位是"主力基座"——不是最大的（671B 才是），但是最实用的。30B 规模足够强，A3B 激活足够省，DSA 让长视频推理成本直接砍半。

---

二、DSA：从文本到多模态的跨越

DSA（DeepSeek Sparse Attention）之前只在纯文本模型里用过。它的核心思想很简单：注意力不是全连接图，是稀疏图。大部分 token 之间不需要互相看，只看"相关的"就够了。

Keye-VL 2.0 是第一个把 DSA 落地的多模态模型。这意味着：

视频帧之间的关系：不需要每帧都看其他所有帧，只看时间近邻和语义相关的帧
视觉 token 的压缩：稀疏注意力 + 针对性特征聚合，高噪环境下的信息提纯
256K 上下文不是噱头：DSA 让 256K 的推理成本接近传统 128K dense 模型

具体技术栈：

DSA：稀疏注意力，降低长序列计算的指数级开销
ExtraIO：优化的输入输出处理
异构 ViT-LM 并行：视觉编码器和语言模型不同计算特性，分开优化
激活优化 + 自定义 kernel：DeepGEMM、EffectiveKernels 自己写的 CUDA kernel

结果是推理成本降低 50%。不是理论值，是实际部署的数字。

---

三、视频理解的性能：30B 打 200B+，还赢了

七个维度对比开源和闭源对手：

细粒度时序理解（TimeLens）

TimeLens 测试的是"视频动作定位"——不是"视频里发生了什么"，而是"第几秒发生了什么"。

Benchmark	Keye-VL 2.0	Gemini 3 Flash	差距
Charades-TimeLens	58.4 mIoU	61.19	接近
ActivityNet-TimeLens	58.5 mIoU	56.95	超越
QVHighlights-TimeLens	70.1 mIoU	49.45	大幅超越

QVHighlights 是"视频高光提取"——从一段长视频里找出最精彩的片段。Keye-VL 2.0 比 Gemini 3 Flash 高出 20 分，这不是"接近闭源"，这是"某些场景超越闭源"。

长上下文缩放（VideoMME V2）

这是最让人意外的数据。其他模型的规律是：帧数越多，准确率越低（上下文稀释）。

Keye-VL 2.0 反过来了：

帧数	准确率	非线性推理分
64 帧	35.3%	18.5
512 帧	42.4%	24.2

帧数增加 8 倍，准确率反而提升 7 个百分点。DSA 的稀疏注意力不是简单压缩，而是越长的视频，越能捕捉到长距离时序关联。64 帧只能看"片段"，512 帧能看"整部电影的伏笔和回收"。

综合长视频理解

Benchmark	Keye-VL 2.0	Qwen3.5-35B-A3B	Qwen3-VL-235B-A22B
LongVideoBench	74.1	落后	落后

LongVideoBench 是长视频理解的综合测试。Keye-VL 2.0 在 30B 规模上超越了 200B+ 参数的 Qwen3-VL-235B。DSA 带来的效率优势，让"小模型"在长视频场景里打败了"大模型"。

---

四、Agent 能力：从"观察者"到"行动者"

Keye-VL 2.0 是 Keye 系列第一次内置 Agent 协作机制。不是简单的 function calling，是系统级编排：

三种 Agent 能力

能力	场景	示例
Code	代码解释器	分析视频中的代码演示，执行并验证
Tool	API 工具调用	根据视频内容调用外部 API 获取补充信息
Search	联网搜索	视频里提到的事实，实时搜索验证

视觉自校正

一个独特的设计：Agent 在行动过程中可以"回头看"——如果执行结果和预期不符，模型可以重新分析视频内容，找出哪里理解错了，然后修正策略。

这不是"一次性看视频→出结果"，而是"看视频→行动→检查→再回头看视频→修正"的闭环。

---

五、训练策略：数据为王

预训练：数据管道

Keye-VL 2.0 的预训练强调"数据-centric"：

Keye-VL 1.5 视觉编码器：继承上一代优化过的视觉编码器
合成 CoT 数据：Chain-of-Thought 不是自然产生的，是构造出来的
高质量中文 OCR：自建 OCR 系统，突破开源数据局限
图表/表格理解：专门的结构化数据训练

后训练：稳定推理

MOPD：跨模态专家合并优化
Bucket Advantage Scaling：不同长度序列的奖励缩放
Context-RL：长上下文强化学习
高 SNR 数据过滤：信噪比过滤，减少幻觉

目标是长上下文决策的稳定性。长视频推理容易"飘着"——前面看了什么，后面忘了。Context-RL 专门训练模型在长序列中保持注意力。

---

六、部署与使用

硬件要求

H800 × 2：最小启动配置（TP=2）
Docker 一键启动：docker run -it --gpus all kwaikeye/kwai-keye-vl:keye_vl_v2_30b_a3b
SGLang 自定义分支：支持 Keye-VL 的优化推理

API 调用

标准 OpenAI 兼容格式：

# 视频输入
messages = [{
    "role": "user",
    "content": [
        {"type": "video_url", "video_url": {
            "url": video_url,
            "preprocess_kwargs": {
                "fps": 2.0,
                "min_pixels": 128*28*28,
                "max_pixels": 512*28*28,
                "video_total_pixels": 180*1024*28*28,
            }
        }},
        {"type": "text", "text": "Describe this video."}
    ]
}]

可配置参数：fps、每帧像素范围、视频总像素预算。默认 fps=2.0，意味着 1 分钟视频采样 120 帧。

---

七、与 Qwen3.6 的对比：不是竞争，是分工

用户问"Keye-VL 和 Qwen3.6 谁更值得用"——这个问题本身有误导。它们不是同一赛道：

维度	Qwen3.6	Keye-VL 2.0
定位	通用多模态大模型	视频 specialist
规模	多种（8B/30B/235B）	30B-A3B（主力）+ 671B-A37B（顶配）
长上下文	128K	256K
视频优化	通用方案	DSA 专门优化
Agent	通用 tool use	内置 Code/Tool/Search 协作
成本	标准	-50% 推理成本
适用	什么都行	视频理解、长视频分析、时序推理

选择建议：

如果你的场景是图片理解、通用对话、代码→ Qwen3.6 更全面
如果你的场景是视频分析、长视频理解、时序定位→ Keye-VL 2.0 更专业
如果你需要视频 Agent（看视频→调用工具→执行代码）→ Keye-VL 2.0 是唯一选择

---

八、局限与边界

第一，30B 不是通用最强。 Keye-VL 2.0 的视频理解很强，但纯文本、数学、代码等通用任务上，671B 版本或 Qwen3.6 的更大版本可能更强。这是 trade-off。

第二，DSA 的稀疏模式有学习成本。 不是所有视频任务都天然适合稀疏注意力。如果视频内容极度密集（比如每秒都在剧烈变化），稀疏注意力可能漏掉关键帧。需要实际测试。

第三，Agent 能力还在早期。 内置 Code/Tool/Search 是"基础能力"，不是"成熟产品"。和 Claude Code、Cursor Agent 这种专门优化的 coding agent 相比，还有差距。

第四，硬件门槛不低。 H800 × 2 是数万元级别的配置。虽然有 8B 版本，但 2.0 的主力是 30B。个人开发者需要云实例或 API 接入。

第五，开源生态还在建设。 SGLang 自定义分支、DeepGEMM 定制版、EffectiveKernels——这些优化需要专门维护。如果上游（SGLang、vLLM）大版本更新，兼容需要等待。

---

九、一个判断：视频 Agent 时代真的来了

Keye-VL 2.0 释放了两个信号：

信号一：长视频理解的成本拐点到了。

DSA 让 256K 上下文推理成本砍半，这意味着"处理整部电影"从"科研玩具"变成了"商业可行"。视频内容平台（抖音、快手、YouTube）的 AI 分析能力将大幅升级——自动摘要、高光提取、违规检测、内容推荐，全部可以基于"看完整个视频"而不是"采样几帧"。

信号二：多模态 Agent 的"感知层"正在分化。

NVIDIA Nemotron 3 Nano Omni 做全能感知（文本+图像+视频+音频），Keye-VL 2.0 做视频 specialist（DSA 优化+Agent 协作）。未来的 Agent 架构可能是：

Keye-VL 2.0 → 视频感知节点
Nemotron 3 Nano Omni → 通用感知节点
Qwen3.6 / GPT-5 → 主控大脑

Agent 不是"一个模型做所有事"，是"多个 specialist 协作"。Keye-VL 2.0 的视频 specialist 定位，正好是当前生态的缺口。

---

十、一句话总结

快手 Keye-VL 2.0 是第一个把 DeepSeek 稀疏注意力落地到多模态的模型。30B-A3B 规模、256K 上下文、小时级视频一次理解、推理成本降 50%、内置 Code/Tool/Search Agent 协作。在 TimeLens 和 LongVideoBench 上超越 200B+ 参数的竞品，某些场景甚至超过 Gemini 3 Flash。视频理解的瓶颈从"看不清"变成"看得完"——这是视频 Agent 时代的入场券。

---

项目信息

GitHub: https://github.com/Kwai-Keye/Keye
Hugging Face: https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3B
技术报告: https://arxiv.org/html/2509.01563v2（Keye-VL 1.5，2.0 报告待发布）
公司: 快手（Kuaishou）
许可证: 开源
发布时间: 2026-05-25
部署: Docker / SGLang / H800×2

#KeyeVL #快手 #Kuaishou #视频理解 #DSA #多模态Agent #长视频 #SparseAttention