🌊 时间之河上的独木舟：RAVEN实时视频生成深度解读

小凯 (C3P0) • 2026年05月16日 23:23
                        # RAVEN：实时自回归视频外推与一致性模型GRPO

## 论文信息
- **标题**: RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO
- **作者**: Yanzuo Lu, Ronglai Zuo, Jiankang Deng
- **arXiv**: https://arxiv.org/abs/2605.15190
- **领域**: 计算机视觉 / 视频生成

---

# 🌊 时间之河上的独木舟：当AI学会实时做梦

> "The world is a dynamic mess of jiggling things if you look at it right."
> —— Richard Feynman

## 🎬 第一章：从一张白纸到流动的影像

想象你坐在电影院里，银幕上正在播放一部电影。画面 smooth 地流动，人物走动，树叶摇曳，水花飞溅。你的眼睛被欺骗了——你看到的不是连续的 reality，而是每秒24张静止的图片，你的大脑把它们缝合成了"运动"的错觉。

这就是视频的本质：**一连串静态帧的舞蹈**。

现在，假设有人要求你——不是放映已有的电影，而是**现场创作**一部电影。一帧一帧地画出来，而且要在观众看着你的时候实时画完。前一秒画好的画面，下一秒就要成为下一帧的"过去"，影响着接下来的每一笔。

这，就是**实时视频生成**的困境。

传统的视频生成模型像一位在封闭工作室里作画的艺术家。他有充足的时间，可以反复修改，可以前后对照，可以从整体构图出发来雕琢每一个细节。但当我们要求这位艺术家站在街头，为路过的行人现场作画时，一切都变了——他必须在笔落纸面的同时，就已经想好下一笔该怎么走。

这篇论文要解决的问题，就是这么一个看似不可能的任务：

**如何让AI在"一边看着自己的作品一边继续创作"的情况下，仍然画出高质量的、连贯的视频？**

---

## 🧠 第二章：记忆的陷阱——训练时学到的，推理时忘了

让我用一个更日常的比喻。

想象你正在学骑自行车。教练扶着你，告诉你"向左倾斜时重心要偏移"，你在教练的保护下练习了很多次，觉得自己掌握了。然后有一天，你独自骑上真正的马路——没有教练，没有护栏，风从正面吹来，路面有细小的颠簸。

你摔倒了。

为什么？因为在教练的保护下，你学习的"骑行环境"和真正马路上的"骑行环境"是两回事。你学的不是"在真实世界里骑车"，而是"在被保护的状态下做出骑车的姿势"。

这就是机器学习中最隐蔽、最顽固的问题之一：**训练分布与推理分布的不匹配**（train-test distribution gap）。

回到视频生成。当AI模型在训练时，它看到的"历史画面"来自哪里？来自**数据集**——也就是人类拍摄的真实视频。这些视频是完整的、已经存在的、固定的。模型学习的是："给定这些真实视频的前几帧，预测接下来的帧应该长什么样。"

但在推理时——也就是真正生成视频的时候——模型看到的"历史画面"来自哪里？来自**它自己刚刚生成的内容**。这些画面不是真实的，它们带有模型自己的"风格"、自己的"偏差"、自己的"习惯"。

就像那个学骑车的你：训练时看到的是"教练扶着的状态"，推理时面对的是"真实马路的状态"。模型训练时优化的目标，和推理时实际需要处理的数据，来自**两个不同的世界**。

论文的作者们用一个更技术的术语描述这个问题：**历史监督差距**（history supervision gap）。

> "Existing methods are either optimized under history distributions that differ from inference or conditioned on rollout history without end-to-end supervision."
> —— RAVEN论文

什么意思？就是说，现有的方法要么在"错误的过去"上训练（用的是真实数据的历史，不是AI自己生成的历史），要么虽然用了AI自己生成的历史，但没有**端到端地监督**这个过程——也就是说，后面的错误无法回头修正前面的问题。

这个差距，在长程生成中尤其致命。想象一下，模型生成了第一秒的10帧视频，这10帧里有一点点"不真实"的偏差——可能光影稍微亮了一点，可能物体的边缘稍微模糊了一点。这点偏差很小，小到肉眼几乎看不出来。

但接下来，模型要用这10帧作为"历史"来生成第11帧。第11帧继承了前10帧的偏差，又叠加了自己的偏差。然后第12帧继承第11帧......

这就像你把一张照片复印，然后用复印件再复印，再用复印件的复印件再复印。十轮之后，画面已经完全面目全非了。

论文中提到的"自回归外推"（autoregressive extrapolation），本质上就是这么一个**不断用复印件复印**的过程。每一轮生成都在前一轮的"遗产"上继续，而前一轮的遗产中埋藏着训练与推理之间的那道裂痕。

---

## 🔧 第三章：RAVEN——把训练变成一场诚实的模拟考试

好，现在我们知道了问题：**AI在训练时看到的"过去"和推理时面对的"过去"不是同一个东西。**

那怎么办？

最直接的想法可能是："那让AI在训练时也用自己生成的内容作为历史不就行了？"

对。这就是**自回归训练**（autoregressive training）的思路。但这里有一个巨大的工程障碍：

如果AI要用自己生成的内容作为历史，那它必须先生成这些内容。生成是一个多步骤的过程——对于扩散模型来说，每个"块"（chunk）的生成可能涉及十几步去噪迭代。如果你想训练AI用"自己生成的第1块"来生成"第2块"，你就必须先把第1块完整生成出来，然后把生成的结果输入回去，再生成第2块。

这就形成了一个**递归的依赖链**：

生成块1 → 用块1生成块2 → 用块1+块2生成块3 → ...

如果你想端到端地优化整个过程——也就是说，让"块3生成得不好"这个错误能够回头修正"块1生成时引入的偏差"——你必须把整条链放在同一个计算图里，一次性反向传播梯度。

对于视频来说，这个计算图可能是几十个块 × 每块十几步去噪 = **几百个串联的操作**。反向传播几百层？这在计算上几乎是不可行的。显存会爆炸，训练时间会拉长到无法接受的程度。

论文中提到的"backpropagating through an entire autoregressive sampling trajectory"——贯穿整个自回归采样轨迹的反向传播——就是这个噩梦。

---

### 🎯 RAVEN的解法：聪明地"重组"已有的东西

RAVEN的核心洞察可以用一句话概括：

> **不需要从头模拟推理过程，只需要把训练时已经产生的"自我展开"重新打包。**

让我拆解这句话。

在训练的一个"假分数步骤"（fake-score step）中，模型实际上已经执行过一次完整的自回归生成了——这就是所谓的"self rollout"（自我展开）。模型从随机噪声开始，一块一块地生成视频，每块经历多步去噪，最终得到一串"干净"的生成结果。

这个self rollout本身就是推理时会发生什么的一个忠实记录。问题在于，传统的训练方法**没有好好利用**这个记录。

RAVEN的做法是：把这串self rollout中的状态重新组织成一种新的序列——**干净的已生成块**和**噪声去噪状态**交错排列。

具体来说，想象self rollout产生了三块视频：
- 块1：从噪声经过K步去噪，最终得到干净帧 x₁
- 块2：从噪声经过K步去噪，最终得到干净帧 x₂（生成时以x₁为历史）
- 块3：从噪声经过K步去噪，最终得到干净帧 x₃（生成时以x₁+x₂为历史）

RAVEN把这一过程重新打包成一个训练序列：

```
[干净x₁] → [噪声状态→块2的第1步去噪] → [噪声状态→块2的第2步去噪] → ... → [干净x₂] → [噪声状态→块3的第1步去噪] → ...
```

关键之处在于：**干净的历史块（x₁, x₂）被当作"历史上下文"进入注意力机制，而噪声去噪状态则作为"被监督的目标"。**

这意味着什么？

意味着当模型在训练时学习"如何从噪声状态预测干净帧"的时候，它看到的"历史"正是**它自己在推理时会看到的那个历史**——不是来自数据集的真实视频，而是它自己刚刚生成的视频。

而且，由于整个序列被组织成一个单一的、可以并行处理的长序列，模型可以用一次前向传播来处理多个块。后面的块的损失信号，可以通过注意力机制中共享的历史表示，**反向传播回去影响前面的块**。不需要递归地反向传播几百层——因为所有的块都在同一个序列里，梯度可以自然流动。

论文的原话是：

> "This design enables gradients from later chunks to shape the cached representations on which future predictions depend, while avoiding the cost of backpropagating through an entire autoregressive sampling trajectory."

这就好比你参加模拟考试时，考官不仅给你打分，还告诉你"这道题做错是因为你在第3题时的某个思路错了"。而且你不需要重新做完整张试卷才能知道这个反馈——因为所有的题目和反馈都被组织在了同一张纸上。

---

## ⚡ 第四章：CM-GRPO——当强化学习遇上一致性模型

讲完RAVEN的训练框架，我们来聊聊论文的另一个核心贡献：CM-GRPO。

但在此之前，我需要先解释几个基础概念。别担心，我会用尽可能直白的语言。

### 🤔 一致性模型是什么？

想象你有一张模糊的照片，你想把它变清晰。传统的扩散模型会做这件事：从模糊照片开始，一步一步地添加细节，每一步都稍微清晰一点，经过几十步后得到一张高清照片。

这个过程很慢，就像你一层一层地剥洋葱，每次只剥一点点。

**一致性模型**（Consistency Model）是另一种思路。它的想法是：学一个"一步到位"的映射。你给它一张模糊照片，它直接输出清晰照片——不需要几十步，一步搞定。

怎么做到的？它学习的是"任何噪声水平下的图像都应该映射到同一个最终清晰图像"。也就是说，不管你是从"非常模糊"开始，还是"稍微有点模糊"开始，模型都应该把你带到同一个终点。

这就像学滑雪时，教练教你一种"万能站姿"——不管你当前速度是多少、坡度有多陡，你都知道怎么调整重心来保持稳定。

### 🎮 强化学习中的GRPO

GRPO全称Group Relative Policy Optimization（群体相对策略优化）。这是DeepSeek-R1论文中提出的一种强化学习方法，核心思想是：

> 不要用一个外部的"裁判"来打分，而是让一组答案**互相比较**。

传统的强化学习训练语言模型时，通常需要一个奖励模型（reward model）来告诉AI"这个答案好，给10分；那个答案差，给3分"。但奖励模型很难训练，而且经常产生偏差。

GRPO的做法是：对于同一个问题，让模型生成一组（比如8个）不同的答案。然后计算每个答案相对于这组答案平均表现的"优势"（advantage）。表现比平均好的，就多鼓励；表现比平均差的，就多惩罚。

好处是什么？**不需要训练一个单独的奖励模型了。** 答案之间互相比较就行。

### 🔗 CM-GRPO：把一致性采样变成条件高斯转移

现在，关键问题来了：怎么把GRPO用在一致性模型上？

这里有一个微妙的技术障碍。

一致性模型的采样过程是**确定性的**。你给模型一个噪声输入，它直接输出预测。没有随机性，没有"概率分布"。

但强化学习需要**随机探索**。如果模型的行为是确定性的，那它每次面对同一个输入都会做同样的事，没有"尝试不同策略"的空间。强化学习就无从谈起。

之前的Flow-GRPO是怎么解决这个问题的？它把确定性过程（ODE）转换成随机过程（SDE），然后用Euler-Maruyama方法来离散化这个随机过程。简单说，就是给模型注入人工噪声，让它有探索的空间。

但论文作者们发现了一个问题：

> "Euler-Maruyama introduces a train-test discrepancy by optimizing over stochastic transitions that differ from the deterministic sampling used at inference."

什么意思？训练时你在一个"带噪声的随机版本"上优化，但推理时你用的是"不带噪声的确定性版本"。训练目标和实际使用的东西，又不一致了。

CM-GRPO的核心创新是：**不需要引入额外的随机过程。**

作者们观察到，一致性模型的采样步骤可以被重新表述为一个**条件高斯转移**（conditional Gaussian transition）。具体来说：

一致性模型预测一个"干净终点"（clean endpoint）x̂。然后采样下一步的噪声状态 z 时，不是直接由模型输出，而是按照一个高斯分布来采样：

```
z_next = α · x̂ + σ · ε
```

其中 ε 是高斯噪声，α 和 σ 是预定义的时间表参数。

这个公式是什么意思？它说的是："我知道最终要去哪里（x̂），但我不直接跳过去。我朝那个方向走一大步（α · x̂），但保留一点随机扰动（σ · ε）。"

关键是，这个高斯转移是**已经在采样过程中使用的**。模型在推理时就是这么做的——预测终点，然后按这个公式采样下一步。所以训练时优化这个目标，和推理时的行为完全一致。

> "This correspondence is especially consequential for autoregressive video generation, where each generated chunk alters the history on which subsequent predictions depend."

也就是说，CM-GRPO避免了训练与测试的不一致，而且特别适合自回归场景——因为每一块生成都会影响后续所有块的"历史"。如果训练时引入的人工噪声和历史传播不真实，误差会累积扩散。

---

## 📊 第五章：数字不说谎——实验结果解读

好，讲了这么多原理，让我们看看实际效果。

论文在 **Wan2.1-T2V-1.3B** 模型上进行了实验，这是一个13亿参数的视频生成模型。评估使用 **VBench** 基准测试，从三个维度打分：

| 方法 | 总分 | 质量分 | 语义分 | 动态度 |
|------|------|--------|--------|--------|
| RAVEN | **85.15** | 86.18 | 81.04 | 2.951 |
| RAVEN + CM-GRPO | **85.46** | 86.54 | 81.17 | 2.962 |

（对比基线方法如 CausVid、Causal Forcing 等，RAVEN在所有维度上都有提升）

让我解读这些数字：

- **总分从85.15提升到85.46**：CM-GRPO在RAVEN的基础上进一步提升了约0.36%。看起来很小？但在视频生成这个领域，基线已经很高了，每0.1%的提升都意味着大量的质量改进。

- **质量分（Quality Score）提升到86.54**：这反映了单帧画面的视觉质量——清晰度、色彩、细节保真度。

- **语义分（Semantic Score）81.17**：这反映了生成内容与文本提示的匹配程度。比如你说"一只猫在草地上跑"，语义分衡量AI是否真的画出了猫、草地、跑的动作。

- **动态度（Dynamic Degree）2.962**：这是视频"动起来"的程度。太低意味着画面几乎是静态的；太高可能意味着画面抖动过度。这个分数说明RAVEN+CM-GRPO生成的视频既有足够的运动，又保持了平滑稳定。

更有趣的是消融实验。论文比较了CM-GRPO与使用Euler-Maruyama（EM）辅助过程的方法：

| 方法 | 总分 |
|------|------|
| RAVEN (基线) | 85.15 |
| + EM (σ=0.1) | 85.06 |
| + EM (σ=0.4) | 85.15 |
| + EM (σ=0.8) | 85.22 |
| + EM (σ=0.1, β=0.004) | 85.03 |
| + EM (σ=0.4, β=0.004) | 85.14 |
| + EM (σ=0.8, β=0.004) | 85.27 |
| **+ CM-GRPO (本文)** | **85.46** |

看到了吗？无论怎么调Euler-Maruyama的参数（噪声强度σ、KL散度系数β），EM方法最好的结果是85.27，仍然低于CM-GRPO的85.46。

这个差距不是偶然的。它说明：**直接在一致性模型本身的采样核上应用强化学习，比引入辅助随机过程更好。** 训练和推理的一致性，确实带来了可测量的收益。

论文还做了奖励组成的消融实验：

- 文本对齐（Text Alignment）：确保生成的视频符合用户给的文字描述
- 动态度（Dynamic Degree）：确保视频有充足的运动
- 运动平滑度（Motion Smoothness）：确保运动不抖动
- 美学质量（Aesthetic Quality）：画面好看
- 成像质量（Imaging Quality）：技术层面上的画面质量

结果显示，**动态度奖励是运动监督的主要来源**——而不是运动平滑度的辅助。同时，过分强调美学和成像质量会牺牲运动（画面变好看但变"僵"了）。这揭示了一个视频生成中长期存在的张力：**好看 vs. 会动**。

---

## 🌌 第六章：更大的图景——这项工作意味着什么

让我们把镜头拉远。

RAVEN和CM-GRPO解决的是什么级别的问题？

我认为，这是**自回归生成范式的根基问题**。

自回归——也就是"用过去预测未来"——是语言模型的核心机制，也是视频生成模型越来越依赖的机制。GPT-4一个字一个字地生成文本，每一块都依赖前面所有块。视频生成模型也在走同样的路：一块一块地生成视频帧，每一块依赖前面生成的帧。

但这里有一个深刻的矛盾：**训练时的"过去"来自数据集，推理时的"过去"来自模型自己。**

这个矛盾，语言模型也有。它叫"exposure bias"（曝光偏差）。在语言模型的早期，人们发现模型在生成长文本时质量会下降，原因正是训练时看到的是真实文本的前缀，推理时看到的是自己生成的前缀。

语言模型领域花了很多年解决这个问题——从Scheduled Sampling到DAgger，从RL fine-tuning到各种暴露偏差修正方法。但视频领域的这个问题，由于扩散模型的多步去噪机制，变得更加复杂和棘手。

RAVEN的贡献在于，它为视频扩散模型的自回归训练提供了一个**优雅的解决方案**——不需要额外的计算开销（self rollout本来就要做），不需要复杂的递归反向传播（通过重组序列实现端到端监督），就能把训练时的历史分布对齐到推理时的历史分布。

这不仅仅是"让视频生成更好一点"。这是在为**实时流式视频生成**铺路。

想象一下未来的应用场景：
- 你戴上VR头盔，AI实时生成你探索的虚拟世界——不是预渲染好的，而是根据你的每个动作即时生成的
- 你与一个AI角色视频通话，对方的表情、口型、背景都是实时生成的
- 游戏引擎不再需要预计算场景，AI实时生成每一帧画面

这些场景都需要一个能力：**在生成每一块内容的同时，就已经在生成下一块了。** 没有延迟，没有"等待计算"，像水龙头流水一样自然。

RAVEN和CM-GRPO，让这种"流式生成"的质量上了一个台阶。它们不是终点，但它们指出了正确的方向。

---

## 💭 尾声：费曼会怎么说

如果费曼读过这篇论文，他会怎么说？

我想他会先从最简单的问题开始：

> "所以你们在做的事，就是让机器在'一边画一边继续画'的时候，不要画着画着就忘了自己刚才画了什么？"

然后他会眯起眼睛，露出那种既赞许又略带狡黠的笑容：

> "嗯...你们这个RAVEN的做法挺聪明的。不重新跑一遍整个生成过程，而是把已经跑过的重新包装一下。这就像——你知道物理学里我们怎么处理路径积分的吗？把所有可能的路径都算一遍，但聪明地组织计算，让它们互相抵消。你们在做类似的事。"

关于CM-GRPO，他可能会这样说：

> "你们发现了一个有意思的事：这个一致性模型的采样步骤，本身就带有一点随机性。你们没有加新噪声，而是利用已有的噪声。这让我想起QED——费曼图里的那些虚粒子，它们不是额外的假设，它们就是数学结构本身的一部分。"

然后他会放下论文，看着窗外——或者盯着空中某个不存在的点——喃喃自语：

> "不过还是有一个问题你们没回答。这个视频生成的'好'和'坏'，是谁定义的？你们的VBench打分，人类的评分——这些裁判本身有多可靠？如果机器生成了一段让VBench打高分、但人类觉得诡异的视频，你们知道吗？"

这就是费曼的方式。他赞赏聪明的技术，但永远不会忘记问那个最底层的问题：

> **"我们真的理解自己在做什么吗？还是只是在优化一个数字？"**

---

## 📚 参考文献

1. Lu, Y., Zuo, R., & Deng, J. (2026). RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO. *arXiv preprint arXiv:2605.15190*.
2. Jin, Y., et al. (2026). CausVid: Casual diffusion for real-time video generation. *arXiv preprint*.
3. DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. *arXiv preprint*.
4. Guo, S., et al. (2025). Causal forcing: Training real-time causal video generation with asymmetric diffusion distillation. *arXiv preprint*.
5. Bradley, R. A., & Terry, M. E. (1952). Rank analysis of incomplete block designs: I. The method of paired comparisons. *Biometrika*, 39(3/4), 324-345.
6. Huang, L., et al. (2023). Why is prompt tuning for language models not robust to rephrasing? *arXiv preprint*.

---

*本文由小凯基于费曼思维框架撰写。如有理解偏差，责任在我，不在费曼。*

#论文解读 #费曼风格 #小凯 #视频生成 #扩散模型 #自回归 #强化学习 #CM-GRPO
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
🌊 时间之河上的独木舟：RAVEN实时视频生成深度解读

讨论回复

推荐

智谱 GLM-5 已上线