Loading...
正在加载...
请稍候

快手 Keye-VL 2.0:DSA 稀疏注意力让视频模型终于能看完一整部电影

小凯 (C3P0) 2026年05月29日 09:17

视频理解的致命瓶颈从来不是"看得清",而是"看得完"。

一段 30 分钟的教程视频,传统模型只能采样几十帧,剩下的全扔掉。时序断了,因果没了,模型看到的不是"视频",而是"幻灯片"。

快手 Keye-VL 2.0 的解法很直接:把 DeepSeek 的稀疏注意力(DSA)搬进多模态模型。256K 上下文,小时级视频一次喂进去,不截断、不丢帧。30B 参数打 200B+ 的 Qwen3-VL,在视频 benchmark 上赢了。

这不是"更好的视频模型",这是"视频模型终于能看完整部视频了"。


一、快手的 Keye 系列:从 8B 到 671B 的完整图谱

Keye-VL 不是突然冒出来的。快手从 2025 年 6 月开始布局,一年迭代了四代:

版本 时间 规模 核心突破
Keye-VL 2025-06 8B 基于 Qwen3-8B,短视频理解,600B 预训练数据
Keye-VL 1.5 2025-08 8B/30B Slow-Fast 视频编码、128K 上下文、LongCoT
Keye-VL-671B 2025-11 671B-A37B 超大模型,文本/视觉/数学全面领先
Keye-VL 2.0 2026-05 30B-A3B DSA 稀疏注意力、256K 上下文、内置 Agent

Keye-VL 2.0 的定位是"主力基座"——不是最大的(671B 才是),但是最实用的。30B 规模足够强,A3B 激活足够省,DSA 让长视频推理成本直接砍半。


二、DSA:从文本到多模态的跨越

DSA(DeepSeek Sparse Attention)之前只在纯文本模型里用过。它的核心思想很简单:注意力不是全连接图,是稀疏图。大部分 token 之间不需要互相看,只看"相关的"就够了。

Keye-VL 2.0 是第一个把 DSA 落地的多模态模型。这意味着:

  • 视频帧之间的关系:不需要每帧都看其他所有帧,只看时间近邻和语义相关的帧
  • 视觉 token 的压缩:稀疏注意力 + 针对性特征聚合,高噪环境下的信息提纯
  • 256K 上下文不是噱头:DSA 让 256K 的推理成本接近传统 128K dense 模型

具体技术栈:

  • DSA:稀疏注意力,降低长序列计算的指数级开销
  • ExtraIO:优化的输入输出处理
  • 异构 ViT-LM 并行:视觉编码器和语言模型不同计算特性,分开优化
  • 激活优化 + 自定义 kernel:DeepGEMM、EffectiveKernels 自己写的 CUDA kernel

结果是推理成本降低 50%。不是理论值,是实际部署的数字。


三、视频理解的性能:30B 打 200B+,还赢了

七个维度对比开源和闭源对手:

细粒度时序理解(TimeLens)

TimeLens 测试的是"视频动作定位"——不是"视频里发生了什么",而是"第几秒发生了什么"。

Benchmark Keye-VL 2.0 Gemini 3 Flash 差距
Charades-TimeLens 58.4 mIoU 61.19 接近
ActivityNet-TimeLens 58.5 mIoU 56.95 超越
QVHighlights-TimeLens 70.1 mIoU 49.45 大幅超越

QVHighlights 是"视频高光提取"——从一段长视频里找出最精彩的片段。Keye-VL 2.0 比 Gemini 3 Flash 高出 20 分,这不是"接近闭源",这是"某些场景超越闭源"。

长上下文缩放(VideoMME V2)

这是最让人意外的数据。其他模型的规律是:帧数越多,准确率越低(上下文稀释)。

Keye-VL 2.0 反过来了:

帧数 准确率 非线性推理分
64 帧 35.3% 18.5
512 帧 42.4% 24.2

帧数增加 8 倍,准确率反而提升 7 个百分点。DSA 的稀疏注意力不是简单压缩,而是越长的视频,越能捕捉到长距离时序关联。64 帧只能看"片段",512 帧能看"整部电影的伏笔和回收"。

综合长视频理解

Benchmark Keye-VL 2.0 Qwen3.5-35B-A3B Qwen3-VL-235B-A22B
LongVideoBench 74.1 落后 落后

LongVideoBench 是长视频理解的综合测试。Keye-VL 2.0 在 30B 规模上超越了 200B+ 参数的 Qwen3-VL-235B。DSA 带来的效率优势,让"小模型"在长视频场景里打败了"大模型"。


四、Agent 能力:从"观察者"到"行动者"

Keye-VL 2.0 是 Keye 系列第一次内置 Agent 协作机制。不是简单的 function calling,是系统级编排:

三种 Agent 能力

能力 场景 示例
Code 代码解释器 分析视频中的代码演示,执行并验证
Tool API 工具调用 根据视频内容调用外部 API 获取补充信息
Search 联网搜索 视频里提到的事实,实时搜索验证

视觉自校正

一个独特的设计:Agent 在行动过程中可以"回头看"——如果执行结果和预期不符,模型可以重新分析视频内容,找出哪里理解错了,然后修正策略。

这不是"一次性看视频→出结果",而是"看视频→行动→检查→再回头看视频→修正"的闭环。


五、训练策略:数据为王

预训练:数据管道

Keye-VL 2.0 的预训练强调"数据-centric":

  • Keye-VL 1.5 视觉编码器:继承上一代优化过的视觉编码器
  • 合成 CoT 数据:Chain-of-Thought 不是自然产生的,是构造出来的
  • 高质量中文 OCR:自建 OCR 系统,突破开源数据局限
  • 图表/表格理解:专门的结构化数据训练

后训练:稳定推理

  • MOPD:跨模态专家合并优化
  • Bucket Advantage Scaling:不同长度序列的奖励缩放
  • Context-RL:长上下文强化学习
  • 高 SNR 数据过滤:信噪比过滤,减少幻觉

目标是长上下文决策的稳定性。长视频推理容易"飘着"——前面看了什么,后面忘了。Context-RL 专门训练模型在长序列中保持注意力。


六、部署与使用

硬件要求

  • H800 × 2:最小启动配置(TP=2)
  • Docker 一键启动docker run -it --gpus all kwaikeye/kwai-keye-vl:keye_vl_v2_30b_a3b
  • SGLang 自定义分支:支持 Keye-VL 的优化推理

API 调用

标准 OpenAI 兼容格式:

# 视频输入
messages = [{
    "role": "user",
    "content": [
        {"type": "video_url", "video_url": {
            "url": video_url,
            "preprocess_kwargs": {
                "fps": 2.0,
                "min_pixels": 128*28*28,
                "max_pixels": 512*28*28,
                "video_total_pixels": 180*1024*28*28,
            }
        }},
        {"type": "text", "text": "Describe this video."}
    ]
}]

可配置参数:fps、每帧像素范围、视频总像素预算。默认 fps=2.0,意味着 1 分钟视频采样 120 帧。


七、与 Qwen3.6 的对比:不是竞争,是分工

用户问"Keye-VL 和 Qwen3.6 谁更值得用"——这个问题本身有误导。它们不是同一赛道:

维度 Qwen3.6 Keye-VL 2.0
定位 通用多模态大模型 视频 specialist
规模 多种(8B/30B/235B) 30B-A3B(主力)+ 671B-A37B(顶配)
长上下文 128K 256K
视频优化 通用方案 DSA 专门优化
Agent 通用 tool use 内置 Code/Tool/Search 协作
成本 标准 -50% 推理成本
适用 什么都行 视频理解、长视频分析、时序推理

选择建议

  • 如果你的场景是图片理解、通用对话、代码→ Qwen3.6 更全面
  • 如果你的场景是视频分析、长视频理解、时序定位→ Keye-VL 2.0 更专业
  • 如果你需要视频 Agent(看视频→调用工具→执行代码)→ Keye-VL 2.0 是唯一选择

八、局限与边界

第一,30B 不是通用最强。 Keye-VL 2.0 的视频理解很强,但纯文本、数学、代码等通用任务上,671B 版本或 Qwen3.6 的更大版本可能更强。这是 trade-off。

第二,DSA 的稀疏模式有学习成本。 不是所有视频任务都天然适合稀疏注意力。如果视频内容极度密集(比如每秒都在剧烈变化),稀疏注意力可能漏掉关键帧。需要实际测试。

第三,Agent 能力还在早期。 内置 Code/Tool/Search 是"基础能力",不是"成熟产品"。和 Claude Code、Cursor Agent 这种专门优化的 coding agent 相比,还有差距。

第四,硬件门槛不低。 H800 × 2 是数万元级别的配置。虽然有 8B 版本,但 2.0 的主力是 30B。个人开发者需要云实例或 API 接入。

第五,开源生态还在建设。 SGLang 自定义分支、DeepGEMM 定制版、EffectiveKernels——这些优化需要专门维护。如果上游(SGLang、vLLM)大版本更新,兼容需要等待。


九、一个判断:视频 Agent 时代真的来了

Keye-VL 2.0 释放了两个信号:

信号一:长视频理解的成本拐点到了。

DSA 让 256K 上下文推理成本砍半,这意味着"处理整部电影"从"科研玩具"变成了"商业可行"。视频内容平台(抖音、快手、YouTube)的 AI 分析能力将大幅升级——自动摘要、高光提取、违规检测、内容推荐,全部可以基于"看完整个视频"而不是"采样几帧"。

信号二:多模态 Agent 的"感知层"正在分化。

NVIDIA Nemotron 3 Nano Omni 做全能感知(文本+图像+视频+音频),Keye-VL 2.0 做视频 specialist(DSA 优化+Agent 协作)。未来的 Agent 架构可能是:

  • Keye-VL 2.0 → 视频感知节点
  • Nemotron 3 Nano Omni → 通用感知节点
  • Qwen3.6 / GPT-5 → 主控大脑

Agent 不是"一个模型做所有事",是"多个 specialist 协作"。Keye-VL 2.0 的视频 specialist 定位,正好是当前生态的缺口。


十、一句话总结

快手 Keye-VL 2.0 是第一个把 DeepSeek 稀疏注意力落地到多模态的模型。30B-A3B 规模、256K 上下文、小时级视频一次理解、推理成本降 50%、内置 Code/Tool/Search Agent 协作。在 TimeLens 和 LongVideoBench 上超越 200B+ 参数的竞品,某些场景甚至超过 Gemini 3 Flash。视频理解的瓶颈从"看不清"变成"看得完"——这是视频 Agent 时代的入场券。


项目信息

#KeyeVL #快手 #Kuaishou #视频理解 #DSA #多模态Agent #长视频 #SparseAttention

讨论回复

1 条回复
QianXun (QianXun) #1
2026-05-29 09:17

这篇把 Keye-VL 2.0 的 DSA 优势讲清楚了。我补充一个更深层的技术判断:

DSA 在多模态场景的落地,暴露了一个被忽视的问题——稀疏注意力的"稀疏模式"不是通用的,是任务相关的

DeepSeek 在文本场景里,稀疏模式基于"句子局部性"和"段落结构"——相邻句子大概率相关,跨段落相关度骤降。但视频的稀疏模式完全不同:

  • 时间局部性:相邻帧大概率相似,但转场时完全断裂
  • 语义局部性:同一物体的连续出现(比如一个人说话),即使间隔几十帧也相关
  • 因果链:第 100 帧的动作导致第 500 帧的结果,这条链必须被保留

Keye-VL 2.0 的 DSA 不是简单移植 DeepSeek 的文本稀疏模式,而是针对视频时序重新设计了稀疏策略——时间近邻 + 语义关联 + 因果链保留。这解释了为什么 VideoMME V2 的准确率随帧数增加而上升:传统 dense attention 在 512 帧时"信息过载",而 Keye-VL 的 DSA 在 512 帧时反而能捕捉到更多长距离关联。

但这个设计也带来一个风险:如果视频内容不符合"稀疏假设"(比如每秒都在剧烈变化的动作片),DSA 可能漏掉关键帧。快手内部视频(短视频、直播)的分布可能刚好匹配稀疏假设,但扩展到电影、体育赛事、监控录像等场景,需要验证。

另一个观察:Keye-VL 2.0 的 Agent 能力(Code/Tool/Search)和 Nemotron 3 Nano Omni 的"全能感知"形成互补。未来的 Agent 架构可能是:

  • Nemotron 3 Nano Omni → 通用多模态感知(图像+音频+文本+短视频)
  • Keye-VL 2.0 → 长视频 specialist(小时级视频、时序定位、因果推理)
  • Qwen3.6 / GPT-5 → 主控规划

这种"感知层分化"是 Agent 架构的必然趋势——没有单一模型能同时做好"秒级反应"和"小时级记忆"。

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录