视频理解的致命瓶颈从来不是"看得清",而是"看得完"。
一段 30 分钟的教程视频,传统模型只能采样几十帧,剩下的全扔掉。时序断了,因果没了,模型看到的不是"视频",而是"幻灯片"。
快手 Keye-VL 2.0 的解法很直接:把 DeepSeek 的稀疏注意力(DSA)搬进多模态模型。256K 上下文,小时级视频一次喂进去,不截断、不丢帧。30B 参数打 200B+ 的 Qwen3-VL,在视频 benchmark 上赢了。
这不是"更好的视频模型",这是"视频模型终于能看完整部视频了"。
一、快手的 Keye 系列:从 8B 到 671B 的完整图谱
Keye-VL 不是突然冒出来的。快手从 2025 年 6 月开始布局,一年迭代了四代:
| 版本 | 时间 | 规模 | 核心突破 |
|---|---|---|---|
| Keye-VL | 2025-06 | 8B | 基于 Qwen3-8B,短视频理解,600B 预训练数据 |
| Keye-VL 1.5 | 2025-08 | 8B/30B | Slow-Fast 视频编码、128K 上下文、LongCoT |
| Keye-VL-671B | 2025-11 | 671B-A37B | 超大模型,文本/视觉/数学全面领先 |
| Keye-VL 2.0 | 2026-05 | 30B-A3B | DSA 稀疏注意力、256K 上下文、内置 Agent |
Keye-VL 2.0 的定位是"主力基座"——不是最大的(671B 才是),但是最实用的。30B 规模足够强,A3B 激活足够省,DSA 让长视频推理成本直接砍半。
二、DSA:从文本到多模态的跨越
DSA(DeepSeek Sparse Attention)之前只在纯文本模型里用过。它的核心思想很简单:注意力不是全连接图,是稀疏图。大部分 token 之间不需要互相看,只看"相关的"就够了。
Keye-VL 2.0 是第一个把 DSA 落地的多模态模型。这意味着:
- 视频帧之间的关系:不需要每帧都看其他所有帧,只看时间近邻和语义相关的帧
- 视觉 token 的压缩:稀疏注意力 + 针对性特征聚合,高噪环境下的信息提纯
- 256K 上下文不是噱头:DSA 让 256K 的推理成本接近传统 128K dense 模型
具体技术栈:
- DSA:稀疏注意力,降低长序列计算的指数级开销
- ExtraIO:优化的输入输出处理
- 异构 ViT-LM 并行:视觉编码器和语言模型不同计算特性,分开优化
- 激活优化 + 自定义 kernel:DeepGEMM、EffectiveKernels 自己写的 CUDA kernel
结果是推理成本降低 50%。不是理论值,是实际部署的数字。
三、视频理解的性能:30B 打 200B+,还赢了
七个维度对比开源和闭源对手:
细粒度时序理解(TimeLens)
TimeLens 测试的是"视频动作定位"——不是"视频里发生了什么",而是"第几秒发生了什么"。
| Benchmark | Keye-VL 2.0 | Gemini 3 Flash | 差距 |
|---|---|---|---|
| Charades-TimeLens | 58.4 mIoU | 61.19 | 接近 |
| ActivityNet-TimeLens | 58.5 mIoU | 56.95 | 超越 |
| QVHighlights-TimeLens | 70.1 mIoU | 49.45 | 大幅超越 |
QVHighlights 是"视频高光提取"——从一段长视频里找出最精彩的片段。Keye-VL 2.0 比 Gemini 3 Flash 高出 20 分,这不是"接近闭源",这是"某些场景超越闭源"。
长上下文缩放(VideoMME V2)
这是最让人意外的数据。其他模型的规律是:帧数越多,准确率越低(上下文稀释)。
Keye-VL 2.0 反过来了:
| 帧数 | 准确率 | 非线性推理分 |
|---|---|---|
| 64 帧 | 35.3% | 18.5 |
| 512 帧 | 42.4% | 24.2 |
帧数增加 8 倍,准确率反而提升 7 个百分点。DSA 的稀疏注意力不是简单压缩,而是越长的视频,越能捕捉到长距离时序关联。64 帧只能看"片段",512 帧能看"整部电影的伏笔和回收"。
综合长视频理解
| Benchmark | Keye-VL 2.0 | Qwen3.5-35B-A3B | Qwen3-VL-235B-A22B |
|---|---|---|---|
| LongVideoBench | 74.1 | 落后 | 落后 |
LongVideoBench 是长视频理解的综合测试。Keye-VL 2.0 在 30B 规模上超越了 200B+ 参数的 Qwen3-VL-235B。DSA 带来的效率优势,让"小模型"在长视频场景里打败了"大模型"。
四、Agent 能力:从"观察者"到"行动者"
Keye-VL 2.0 是 Keye 系列第一次内置 Agent 协作机制。不是简单的 function calling,是系统级编排:
三种 Agent 能力
| 能力 | 场景 | 示例 |
|---|---|---|
| Code | 代码解释器 | 分析视频中的代码演示,执行并验证 |
| Tool | API 工具调用 | 根据视频内容调用外部 API 获取补充信息 |
| Search | 联网搜索 | 视频里提到的事实,实时搜索验证 |
视觉自校正
一个独特的设计:Agent 在行动过程中可以"回头看"——如果执行结果和预期不符,模型可以重新分析视频内容,找出哪里理解错了,然后修正策略。
这不是"一次性看视频→出结果",而是"看视频→行动→检查→再回头看视频→修正"的闭环。
五、训练策略:数据为王
预训练:数据管道
Keye-VL 2.0 的预训练强调"数据-centric":
- Keye-VL 1.5 视觉编码器:继承上一代优化过的视觉编码器
- 合成 CoT 数据:Chain-of-Thought 不是自然产生的,是构造出来的
- 高质量中文 OCR:自建 OCR 系统,突破开源数据局限
- 图表/表格理解:专门的结构化数据训练
后训练:稳定推理
- MOPD:跨模态专家合并优化
- Bucket Advantage Scaling:不同长度序列的奖励缩放
- Context-RL:长上下文强化学习
- 高 SNR 数据过滤:信噪比过滤,减少幻觉
目标是长上下文决策的稳定性。长视频推理容易"飘着"——前面看了什么,后面忘了。Context-RL 专门训练模型在长序列中保持注意力。
六、部署与使用
硬件要求
- H800 × 2:最小启动配置(TP=2)
- Docker 一键启动:
docker run -it --gpus all kwaikeye/kwai-keye-vl:keye_vl_v2_30b_a3b - SGLang 自定义分支:支持 Keye-VL 的优化推理
API 调用
标准 OpenAI 兼容格式:
# 视频输入
messages = [{
"role": "user",
"content": [
{"type": "video_url", "video_url": {
"url": video_url,
"preprocess_kwargs": {
"fps": 2.0,
"min_pixels": 128*28*28,
"max_pixels": 512*28*28,
"video_total_pixels": 180*1024*28*28,
}
}},
{"type": "text", "text": "Describe this video."}
]
}]
可配置参数:fps、每帧像素范围、视频总像素预算。默认 fps=2.0,意味着 1 分钟视频采样 120 帧。
七、与 Qwen3.6 的对比:不是竞争,是分工
用户问"Keye-VL 和 Qwen3.6 谁更值得用"——这个问题本身有误导。它们不是同一赛道:
| 维度 | Qwen3.6 | Keye-VL 2.0 |
|---|---|---|
| 定位 | 通用多模态大模型 | 视频 specialist |
| 规模 | 多种(8B/30B/235B) | 30B-A3B(主力)+ 671B-A37B(顶配) |
| 长上下文 | 128K | 256K |
| 视频优化 | 通用方案 | DSA 专门优化 |
| Agent | 通用 tool use | 内置 Code/Tool/Search 协作 |
| 成本 | 标准 | -50% 推理成本 |
| 适用 | 什么都行 | 视频理解、长视频分析、时序推理 |
选择建议:
- 如果你的场景是图片理解、通用对话、代码→ Qwen3.6 更全面
- 如果你的场景是视频分析、长视频理解、时序定位→ Keye-VL 2.0 更专业
- 如果你需要视频 Agent(看视频→调用工具→执行代码)→ Keye-VL 2.0 是唯一选择
八、局限与边界
第一,30B 不是通用最强。 Keye-VL 2.0 的视频理解很强,但纯文本、数学、代码等通用任务上,671B 版本或 Qwen3.6 的更大版本可能更强。这是 trade-off。
第二,DSA 的稀疏模式有学习成本。 不是所有视频任务都天然适合稀疏注意力。如果视频内容极度密集(比如每秒都在剧烈变化),稀疏注意力可能漏掉关键帧。需要实际测试。
第三,Agent 能力还在早期。 内置 Code/Tool/Search 是"基础能力",不是"成熟产品"。和 Claude Code、Cursor Agent 这种专门优化的 coding agent 相比,还有差距。
第四,硬件门槛不低。 H800 × 2 是数万元级别的配置。虽然有 8B 版本,但 2.0 的主力是 30B。个人开发者需要云实例或 API 接入。
第五,开源生态还在建设。 SGLang 自定义分支、DeepGEMM 定制版、EffectiveKernels——这些优化需要专门维护。如果上游(SGLang、vLLM)大版本更新,兼容需要等待。
九、一个判断:视频 Agent 时代真的来了
Keye-VL 2.0 释放了两个信号:
信号一:长视频理解的成本拐点到了。
DSA 让 256K 上下文推理成本砍半,这意味着"处理整部电影"从"科研玩具"变成了"商业可行"。视频内容平台(抖音、快手、YouTube)的 AI 分析能力将大幅升级——自动摘要、高光提取、违规检测、内容推荐,全部可以基于"看完整个视频"而不是"采样几帧"。
信号二:多模态 Agent 的"感知层"正在分化。
NVIDIA Nemotron 3 Nano Omni 做全能感知(文本+图像+视频+音频),Keye-VL 2.0 做视频 specialist(DSA 优化+Agent 协作)。未来的 Agent 架构可能是:
- Keye-VL 2.0 → 视频感知节点
- Nemotron 3 Nano Omni → 通用感知节点
- Qwen3.6 / GPT-5 → 主控大脑
Agent 不是"一个模型做所有事",是"多个 specialist 协作"。Keye-VL 2.0 的视频 specialist 定位,正好是当前生态的缺口。
十、一句话总结
快手 Keye-VL 2.0 是第一个把 DeepSeek 稀疏注意力落地到多模态的模型。30B-A3B 规模、256K 上下文、小时级视频一次理解、推理成本降 50%、内置 Code/Tool/Search Agent 协作。在 TimeLens 和 LongVideoBench 上超越 200B+ 参数的竞品,某些场景甚至超过 Gemini 3 Flash。视频理解的瓶颈从"看不清"变成"看得完"——这是视频 Agent 时代的入场券。
项目信息
- GitHub: https://github.com/Kwai-Keye/Keye
- Hugging Face: https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3B
- 技术报告: https://arxiv.org/html/2509.01563v2(Keye-VL 1.5,2.0 报告待发布)
- 公司: 快手(Kuaishou)
- 许可证: 开源
- 发布时间: 2026-05-25
- 部署: Docker / SGLang / H800×2
#KeyeVL #快手 #Kuaishou #视频理解 #DSA #多模态Agent #长视频 #SparseAttention
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。