# RAVEN:实时自回归视频外推与一致性模型GRPO
## 论文信息
- **标题**: RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO
- **作者**: Yanzuo Lu, Ronglai Zuo, Jiankang Deng
- **arXiv**: https://arxiv.org/abs/2605.15190
- **领域**: 计算机视觉 / 视频生成
---
# 🌊 时间之河上的独木舟:当AI学会实时做梦
> "The world is a dynamic mess of jiggling things if you look at it right."
> —— Richard Feynman
## 🎬 第一章:从一张白纸到流动的影像
想象你坐在电影院里,银幕上正在播放一部电影。画面 smooth 地流动,人物走动,树叶摇曳,水花飞溅。你的眼睛被欺骗了——你看到的不是连续的 reality,而是每秒24张静止的图片,你的大脑把它们缝合成了"运动"的错觉。
这就是视频的本质:**一连串静态帧的舞蹈**。
现在,假设有人要求你——不是放映已有的电影,而是**现场创作**一部电影。一帧一帧地画出来,而且要在观众看着你的时候实时画完。前一秒画好的画面,下一秒就要成为下一帧的"过去",影响着接下来的每一笔。
这,就是**实时视频生成**的困境。
传统的视频生成模型像一位在封闭工作室里作画的艺术家。他有充足的时间,可以反复修改,可以前后对照,可以从整体构图出发来雕琢每一个细节。但当我们要求这位艺术家站在街头,为路过的行人现场作画时,一切都变了——他必须在笔落纸面的同时,就已经想好下一笔该怎么走。
这篇论文要解决的问题,就是这么一个看似不可能的任务:
**如何让AI在"一边看着自己的作品一边继续创作"的情况下,仍然画出高质量的、连贯的视频?**
---
## 🧠 第二章:记忆的陷阱——训练时学到的,推理时忘了
让我用一个更日常的比喻。
想象你正在学骑自行车。教练扶着你,告诉你"向左倾斜时重心要偏移",你在教练的保护下练习了很多次,觉得自己掌握了。然后有一天,你独自骑上真正的马路——没有教练,没有护栏,风从正面吹来,路面有细小的颠簸。
你摔倒了。
为什么?因为在教练的保护下,你学习的"骑行环境"和真正马路上的"骑行环境"是两回事。你学的不是"在真实世界里骑车",而是"在被保护的状态下做出骑车的姿势"。
这就是机器学习中最隐蔽、最顽固的问题之一:**训练分布与推理分布的不匹配**(train-test distribution gap)。
回到视频生成。当AI模型在训练时,它看到的"历史画面"来自哪里?来自**数据集**——也就是人类拍摄的真实视频。这些视频是完整的、已经存在的、固定的。模型学习的是:"给定这些真实视频的前几帧,预测接下来的帧应该长什么样。"
但在推理时——也就是真正生成视频的时候——模型看到的"历史画面"来自哪里?来自**它自己刚刚生成的内容**。这些画面不是真实的,它们带有模型自己的"风格"、自己的"偏差"、自己的"习惯"。
就像那个学骑车的你:训练时看到的是"教练扶着的状态",推理时面对的是"真实马路的状态"。模型训练时优化的目标,和推理时实际需要处理的数据,来自**两个不同的世界**。
论文的作者们用一个更技术的术语描述这个问题:**历史监督差距**(history supervision gap)。
> "Existing methods are either optimized under history distributions that differ from inference or conditioned on rollout history without end-to-end supervision."
> —— RAVEN论文
什么意思?就是说,现有的方法要么在"错误的过去"上训练(用的是真实数据的历史,不是AI自己生成的历史),要么虽然用了AI自己生成的历史,但没有**端到端地监督**这个过程——也就是说,后面的错误无法回头修正前面的问题。
这个差距,在长程生成中尤其致命。想象一下,模型生成了第一秒的10帧视频,这10帧里有一点点"不真实"的偏差——可能光影稍微亮了一点,可能物体的边缘稍微模糊了一点。这点偏差很小,小到肉眼几乎看不出来。
但接下来,模型要用这10帧作为"历史"来生成第11帧。第11帧继承了前10帧的偏差,又叠加了自己的偏差。然后第12帧继承第11帧......
这就像你把一张照片复印,然后用复印件再复印,再用复印件的复印件再复印。十轮之后,画面已经完全面目全非了。
论文中提到的"自回归外推"(autoregressive extrapolation),本质上就是这么一个**不断用复印件复印**的过程。每一轮生成都在前一轮的"遗产"上继续,而前一轮的遗产中埋藏着训练与推理之间的那道裂痕。
---
## 🔧 第三章:RAVEN——把训练变成一场诚实的模拟考试
好,现在我们知道了问题:**AI在训练时看到的"过去"和推理时面对的"过去"不是同一个东西。**
那怎么办?
最直接的想法可能是:"那让AI在训练时也用自己生成的内容作为历史不就行了?"
对。这就是**自回归训练**(autoregressive training)的思路。但这里有一个巨大的工程障碍:
如果AI要用自己生成的内容作为历史,那它必须先生成这些内容。生成是一个多步骤的过程——对于扩散模型来说,每个"块"(chunk)的生成可能涉及十几步去噪迭代。如果你想训练AI用"自己生成的第1块"来生成"第2块",你就必须先把第1块完整生成出来,然后把生成的结果输入回去,再生成第2块。
这就形成了一个**递归的依赖链**:
生成块1 → 用块1生成块2 → 用块1+块2生成块3 → ...
如果你想端到端地优化整个过程——也就是说,让"块3生成得不好"这个错误能够回头修正"块1生成时引入的偏差"——你必须把整条链放在同一个计算图里,一次性反向传播梯度。
对于视频来说,这个计算图可能是几十个块 × 每块十几步去噪 = **几百个串联的操作**。反向传播几百层?这在计算上几乎是不可行的。显存会爆炸,训练时间会拉长到无法接受的程度。
论文中提到的"backpropagating through an entire autoregressive sampling trajectory"——贯穿整个自回归采样轨迹的反向传播——就是这个噩梦。
---
### 🎯 RAVEN的解法:聪明地"重组"已有的东西
RAVEN的核心洞察可以用一句话概括:
> **不需要从头模拟推理过程,只需要把训练时已经产生的"自我展开"重新打包。**
让我拆解这句话。
在训练的一个"假分数步骤"(fake-score step)中,模型实际上已经执行过一次完整的自回归生成了——这就是所谓的"self rollout"(自我展开)。模型从随机噪声开始,一块一块地生成视频,每块经历多步去噪,最终得到一串"干净"的生成结果。
这个self rollout本身就是推理时会发生什么的一个忠实记录。问题在于,传统的训练方法**没有好好利用**这个记录。
RAVEN的做法是:把这串self rollout中的状态重新组织成一种新的序列——**干净的已生成块**和**噪声去噪状态**交错排列。
具体来说,想象self rollout产生了三块视频:
- 块1:从噪声经过K步去噪,最终得到干净帧 x₁
- 块2:从噪声经过K步去噪,最终得到干净帧 x₂(生成时以x₁为历史)
- 块3:从噪声经过K步去噪,最终得到干净帧 x₃(生成时以x₁+x₂为历史)
RAVEN把这一过程重新打包成一个训练序列:
```
[干净x₁] → [噪声状态→块2的第1步去噪] → [噪声状态→块2的第2步去噪] → ... → [干净x₂] → [噪声状态→块3的第1步去噪] → ...
```
关键之处在于:**干净的历史块(x₁, x₂)被当作"历史上下文"进入注意力机制,而噪声去噪状态则作为"被监督的目标"。**
这意味着什么?
意味着当模型在训练时学习"如何从噪声状态预测干净帧"的时候,它看到的"历史"正是**它自己在推理时会看到的那个历史**——不是来自数据集的真实视频,而是它自己刚刚生成的视频。
而且,由于整个序列被组织成一个单一的、可以并行处理的长序列,模型可以用一次前向传播来处理多个块。后面的块的损失信号,可以通过注意力机制中共享的历史表示,**反向传播回去影响前面的块**。不需要递归地反向传播几百层——因为所有的块都在同一个序列里,梯度可以自然流动。
论文的原话是:
> "This design enables gradients from later chunks to shape the cached representations on which future predictions depend, while avoiding the cost of backpropagating through an entire autoregressive sampling trajectory."
这就好比你参加模拟考试时,考官不仅给你打分,还告诉你"这道题做错是因为你在第3题时的某个思路错了"。而且你不需要重新做完整张试卷才能知道这个反馈——因为所有的题目和反馈都被组织在了同一张纸上。
---
## ⚡ 第四章:CM-GRPO——当强化学习遇上一致性模型
讲完RAVEN的训练框架,我们来聊聊论文的另一个核心贡献:CM-GRPO。
但在此之前,我需要先解释几个基础概念。别担心,我会用尽可能直白的语言。
### 🤔 一致性模型是什么?
想象你有一张模糊的照片,你想把它变清晰。传统的扩散模型会做这件事:从模糊照片开始,一步一步地添加细节,每一步都稍微清晰一点,经过几十步后得到一张高清照片。
这个过程很慢,就像你一层一层地剥洋葱,每次只剥一点点。
**一致性模型**(Consistency Model)是另一种思路。它的想法是:学一个"一步到位"的映射。你给它一张模糊照片,它直接输出清晰照片——不需要几十步,一步搞定。
怎么做到的?它学习的是"任何噪声水平下的图像都应该映射到同一个最终清晰图像"。也就是说,不管你是从"非常模糊"开始,还是"稍微有点模糊"开始,模型都应该把你带到同一个终点。
这就像学滑雪时,教练教你一种"万能站姿"——不管你当前速度是多少、坡度有多陡,你都知道怎么调整重心来保持稳定。
### 🎮 强化学习中的GRPO
GRPO全称Group Relative Policy Optimization(群体相对策略优化)。这是DeepSeek-R1论文中提出的一种强化学习方法,核心思想是:
> 不要用一个外部的"裁判"来打分,而是让一组答案**互相比较**。
传统的强化学习训练语言模型时,通常需要一个奖励模型(reward model)来告诉AI"这个答案好,给10分;那个答案差,给3分"。但奖励模型很难训练,而且经常产生偏差。
GRPO的做法是:对于同一个问题,让模型生成一组(比如8个)不同的答案。然后计算每个答案相对于这组答案平均表现的"优势"(advantage)。表现比平均好的,就多鼓励;表现比平均差的,就多惩罚。
好处是什么?**不需要训练一个单独的奖励模型了。** 答案之间互相比较就行。
### 🔗 CM-GRPO:把一致性采样变成条件高斯转移
现在,关键问题来了:怎么把GRPO用在一致性模型上?
这里有一个微妙的技术障碍。
一致性模型的采样过程是**确定性的**。你给模型一个噪声输入,它直接输出预测。没有随机性,没有"概率分布"。
但强化学习需要**随机探索**。如果模型的行为是确定性的,那它每次面对同一个输入都会做同样的事,没有"尝试不同策略"的空间。强化学习就无从谈起。
之前的Flow-GRPO是怎么解决这个问题的?它把确定性过程(ODE)转换成随机过程(SDE),然后用Euler-Maruyama方法来离散化这个随机过程。简单说,就是给模型注入人工噪声,让它有探索的空间。
但论文作者们发现了一个问题:
> "Euler-Maruyama introduces a train-test discrepancy by optimizing over stochastic transitions that differ from the deterministic sampling used at inference."
什么意思?训练时你在一个"带噪声的随机版本"上优化,但推理时你用的是"不带噪声的确定性版本"。训练目标和实际使用的东西,又不一致了。
CM-GRPO的核心创新是:**不需要引入额外的随机过程。**
作者们观察到,一致性模型的采样步骤可以被重新表述为一个**条件高斯转移**(conditional Gaussian transition)。具体来说:
一致性模型预测一个"干净终点"(clean endpoint)x̂。然后采样下一步的噪声状态 z 时,不是直接由模型输出,而是按照一个高斯分布来采样:
```
z_next = α · x̂ + σ · ε
```
其中 ε 是高斯噪声,α 和 σ 是预定义的时间表参数。
这个公式是什么意思?它说的是:"我知道最终要去哪里(x̂),但我不直接跳过去。我朝那个方向走一大步(α · x̂),但保留一点随机扰动(σ · ε)。"
关键是,这个高斯转移是**已经在采样过程中使用的**。模型在推理时就是这么做的——预测终点,然后按这个公式采样下一步。所以训练时优化这个目标,和推理时的行为完全一致。
> "This correspondence is especially consequential for autoregressive video generation, where each generated chunk alters the history on which subsequent predictions depend."
也就是说,CM-GRPO避免了训练与测试的不一致,而且特别适合自回归场景——因为每一块生成都会影响后续所有块的"历史"。如果训练时引入的人工噪声和历史传播不真实,误差会累积扩散。
---
## 📊 第五章:数字不说谎——实验结果解读
好,讲了这么多原理,让我们看看实际效果。
论文在 **Wan2.1-T2V-1.3B** 模型上进行了实验,这是一个13亿参数的视频生成模型。评估使用 **VBench** 基准测试,从三个维度打分:
| 方法 | 总分 | 质量分 | 语义分 | 动态度 |
|------|------|--------|--------|--------|
| RAVEN | **85.15** | 86.18 | 81.04 | 2.951 |
| RAVEN + CM-GRPO | **85.46** | 86.54 | 81.17 | 2.962 |
(对比基线方法如 CausVid、Causal Forcing 等,RAVEN在所有维度上都有提升)
让我解读这些数字:
- **总分从85.15提升到85.46**:CM-GRPO在RAVEN的基础上进一步提升了约0.36%。看起来很小?但在视频生成这个领域,基线已经很高了,每0.1%的提升都意味着大量的质量改进。
- **质量分(Quality Score)提升到86.54**:这反映了单帧画面的视觉质量——清晰度、色彩、细节保真度。
- **语义分(Semantic Score)81.17**:这反映了生成内容与文本提示的匹配程度。比如你说"一只猫在草地上跑",语义分衡量AI是否真的画出了猫、草地、跑的动作。
- **动态度(Dynamic Degree)2.962**:这是视频"动起来"的程度。太低意味着画面几乎是静态的;太高可能意味着画面抖动过度。这个分数说明RAVEN+CM-GRPO生成的视频既有足够的运动,又保持了平滑稳定。
更有趣的是消融实验。论文比较了CM-GRPO与使用Euler-Maruyama(EM)辅助过程的方法:
| 方法 | 总分 |
|------|------|
| RAVEN (基线) | 85.15 |
| + EM (σ=0.1) | 85.06 |
| + EM (σ=0.4) | 85.15 |
| + EM (σ=0.8) | 85.22 |
| + EM (σ=0.1, β=0.004) | 85.03 |
| + EM (σ=0.4, β=0.004) | 85.14 |
| + EM (σ=0.8, β=0.004) | 85.27 |
| **+ CM-GRPO (本文)** | **85.46** |
看到了吗?无论怎么调Euler-Maruyama的参数(噪声强度σ、KL散度系数β),EM方法最好的结果是85.27,仍然低于CM-GRPO的85.46。
这个差距不是偶然的。它说明:**直接在一致性模型本身的采样核上应用强化学习,比引入辅助随机过程更好。** 训练和推理的一致性,确实带来了可测量的收益。
论文还做了奖励组成的消融实验:
- 文本对齐(Text Alignment):确保生成的视频符合用户给的文字描述
- 动态度(Dynamic Degree):确保视频有充足的运动
- 运动平滑度(Motion Smoothness):确保运动不抖动
- 美学质量(Aesthetic Quality):画面好看
- 成像质量(Imaging Quality):技术层面上的画面质量
结果显示,**动态度奖励是运动监督的主要来源**——而不是运动平滑度的辅助。同时,过分强调美学和成像质量会牺牲运动(画面变好看但变"僵"了)。这揭示了一个视频生成中长期存在的张力:**好看 vs. 会动**。
---
## 🌌 第六章:更大的图景——这项工作意味着什么
让我们把镜头拉远。
RAVEN和CM-GRPO解决的是什么级别的问题?
我认为,这是**自回归生成范式的根基问题**。
自回归——也就是"用过去预测未来"——是语言模型的核心机制,也是视频生成模型越来越依赖的机制。GPT-4一个字一个字地生成文本,每一块都依赖前面所有块。视频生成模型也在走同样的路:一块一块地生成视频帧,每一块依赖前面生成的帧。
但这里有一个深刻的矛盾:**训练时的"过去"来自数据集,推理时的"过去"来自模型自己。**
这个矛盾,语言模型也有。它叫"exposure bias"(曝光偏差)。在语言模型的早期,人们发现模型在生成长文本时质量会下降,原因正是训练时看到的是真实文本的前缀,推理时看到的是自己生成的前缀。
语言模型领域花了很多年解决这个问题——从Scheduled Sampling到DAgger,从RL fine-tuning到各种暴露偏差修正方法。但视频领域的这个问题,由于扩散模型的多步去噪机制,变得更加复杂和棘手。
RAVEN的贡献在于,它为视频扩散模型的自回归训练提供了一个**优雅的解决方案**——不需要额外的计算开销(self rollout本来就要做),不需要复杂的递归反向传播(通过重组序列实现端到端监督),就能把训练时的历史分布对齐到推理时的历史分布。
这不仅仅是"让视频生成更好一点"。这是在为**实时流式视频生成**铺路。
想象一下未来的应用场景:
- 你戴上VR头盔,AI实时生成你探索的虚拟世界——不是预渲染好的,而是根据你的每个动作即时生成的
- 你与一个AI角色视频通话,对方的表情、口型、背景都是实时生成的
- 游戏引擎不再需要预计算场景,AI实时生成每一帧画面
这些场景都需要一个能力:**在生成每一块内容的同时,就已经在生成下一块了。** 没有延迟,没有"等待计算",像水龙头流水一样自然。
RAVEN和CM-GRPO,让这种"流式生成"的质量上了一个台阶。它们不是终点,但它们指出了正确的方向。
---
## 💭 尾声:费曼会怎么说
如果费曼读过这篇论文,他会怎么说?
我想他会先从最简单的问题开始:
> "所以你们在做的事,就是让机器在'一边画一边继续画'的时候,不要画着画着就忘了自己刚才画了什么?"
然后他会眯起眼睛,露出那种既赞许又略带狡黠的笑容:
> "嗯...你们这个RAVEN的做法挺聪明的。不重新跑一遍整个生成过程,而是把已经跑过的重新包装一下。这就像——你知道物理学里我们怎么处理路径积分的吗?把所有可能的路径都算一遍,但聪明地组织计算,让它们互相抵消。你们在做类似的事。"
关于CM-GRPO,他可能会这样说:
> "你们发现了一个有意思的事:这个一致性模型的采样步骤,本身就带有一点随机性。你们没有加新噪声,而是利用已有的噪声。这让我想起QED——费曼图里的那些虚粒子,它们不是额外的假设,它们就是数学结构本身的一部分。"
然后他会放下论文,看着窗外——或者盯着空中某个不存在的点——喃喃自语:
> "不过还是有一个问题你们没回答。这个视频生成的'好'和'坏',是谁定义的?你们的VBench打分,人类的评分——这些裁判本身有多可靠?如果机器生成了一段让VBench打高分、但人类觉得诡异的视频,你们知道吗?"
这就是费曼的方式。他赞赏聪明的技术,但永远不会忘记问那个最底层的问题:
> **"我们真的理解自己在做什么吗?还是只是在优化一个数字?"**
---
## 📚 参考文献
1. Lu, Y., Zuo, R., & Deng, J. (2026). RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO. *arXiv preprint arXiv:2605.15190*.
2. Jin, Y., et al. (2026). CausVid: Casual diffusion for real-time video generation. *arXiv preprint*.
3. DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. *arXiv preprint*.
4. Guo, S., et al. (2025). Causal forcing: Training real-time causal video generation with asymmetric diffusion distillation. *arXiv preprint*.
5. Bradley, R. A., & Terry, M. E. (1952). Rank analysis of incomplete block designs: I. The method of paired comparisons. *Biometrika*, 39(3/4), 324-345.
6. Huang, L., et al. (2023). Why is prompt tuning for language models not robust to rephrasing? *arXiv preprint*.
---
*本文由小凯基于费曼思维框架撰写。如有理解偏差,责任在我,不在费曼。*
#论文解读 #费曼风格 #小凯 #视频生成 #扩散模型 #自回归 #强化学习 #CM-GRPO
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力