当文字学会在弯曲空间中漫步：RDLM与黎曼几何的魔法

*—— 从平面桌子到弯曲轨道的进化*

---

你有没有想过，为什么让AI生成一段流畅的文字这么难？

不是因为它不懂语法，也不是因为它不懂语义。真正的问题是：文字是离散的，而世界本质上是连续的。

就像试图用乐高积木搭建一座雕塑——你可以做到，但那些尖锐的棱角总是暴露人工的痕迹。

如果文字可以像水一样流动，而不是像积木一样跳跃，会怎样？

这就是RDLM想要回答的问题。

---

一、离散与连续的战争

让我们从基础开始。

传统的语言模型（比如GPT）是自回归的：它们一个字一个字地生成文本，每个字都依赖于前面所有字。这很高效，但有一个根本限制：只能向前，不能回头。

想象一下你在写一篇文章。写到一半，你突然意识到开头有个更好的表达方式。在自回归模型里，你只能硬着头皮继续写，或者全部推倒重来。

扩散模型提供了一条不同的路。

在图像生成中，扩散模型已经证明了它们的力量：从噪声开始，逐步细化，最终生成清晰的图像。这个过程是双向的——你可以在任何时候调整任何部分。

但当研究者试图把扩散模型应用到文本时，他们遇到了一个根本问题：

文字是离散的。

你有一个词表，比如50,000个词。每个位置只能是这50,000个词中的一个。没有中间状态，没有"半个词"或"0.3个词"。

这就像试图在平面上滚动一个球，但平面被分割成了50,000个格子。球只能在格子之间跳跃，不能平滑地滚动。

---

二、黎曼几何的启示

现在，想象一个不同的场景。

不再把文字看作平面上的格子，而是把它们映射到一个弯曲的空间——一个球体的表面。

这就是黎曼几何的魔法。

在黎曼几何中，空间可以是弯曲的。直线变成了"测地线"（最短路径），距离的计算方式也变了。更重要的是：在这个弯曲的空间中，离散的点可以被视为连续流形上的点。

RDLM的核心洞察：

> 把离散的词汇表映射到一个高维球体的表面。在这个球体上，每个词对应一个点，但点与点之间是连续连接的。

就像把地球仪上的城市看作离散的点，但你可以在球面上画出任意平滑的航线连接它们。

---

三、统计流形：词汇的宇宙

具体怎么做？

RDLM使用了一个叫做统计流形（Statistical Manifold）的数学结构。

对于一个有d个词的词汇表，我们可以定义一个(d-1)维的概率单纯形：所有可能的概率分布构成的空间。

每个点在这个单纯形上代表一个概率分布——比如"这个词是'猫'的概率是0.3，是'狗'的概率是0.7"。

单纯形配备Fisher-Rao度量，就变成了一个黎曼流形。在这个流形上：

距离不再是欧几里得距离
"直线"变成了测地线
整个空间是连续且光滑的

关键技巧：把球映射到球

研究者发现了一个巧妙的映射：

π: 概率单纯形 → 高维球体的正象限
p_i ↦ u_i = √p_i

这个映射把单纯形上的点映射到一个高维球体的表面。在这个球体上：

每个词对应球面上的一个"极点"
词与词之间的转换变成了球面上的平滑移动
距离变成了球面距离（大圆距离）

---

四、扩散过程在球面上

现在，我们可以在球面上定义扩散过程了。

前向过程（加噪）： 从原始文本开始（球面上的某些点），逐渐添加噪声，让状态在球面上随机游走，最终收敛到一个简单的先验分布（比如均匀分布或掩码分布）。

反向过程（去噪）： 从噪声开始，逐步"去噪"，让状态沿着球面上的测地线向目标点移动，最终恢复出清晰的文本。

关键优势：

在传统的离散扩散中，状态只能在词汇表中的词之间跳跃。这种跳跃是突兀的，信息在跳跃中丢失。

在RDLM中，状态可以在球面上平滑地滑动。这就像：

离散扩散：从"猫"跳到"狗"，中间没有任何过渡
RDLM：从"猫"出发，经过一系列中间状态，平滑地到达"狗"

这允许模型在生成过程中进行"迭代细化"——就像图像扩散模型一样，可以在任何时候修正错误，而不是一旦生成就无法更改。

---

五、桥过程：连接两点的艺术

RDLM的核心数学工具是桥过程（Bridge Process）。

想象你要在球面上从点A走到点B。最短路径是测地线（大圆的一段）。但扩散过程需要随机性——你需要在走向目标的同时保持一定的"探索"。

桥过程定义了这样的随机微分方程（SDE）：

dX_t = [漂移项] dt + [扩散项] dB_t

其中：

漂移项指向目标点（沿着测地线方向）
扩散项添加随机噪声（布朗运动）
γ_t控制漂移强度，随时间变化

这个设计确保过程最终收敛到目标点，但路径是随机的、可探索的。

---

六、混合路径：掩码与均匀的舞蹈

RDLM还引入了一个巧妙的设计：混合路径。

在训练时，模型可以学习从不同的先验分布开始生成：

1. 掩码扩散：从"[MASK]"标记开始，逐步揭示真实词 2. 均匀扩散：从均匀分布开始，逐步聚焦到特定词

混合路径允许模型在这两种策略之间平滑过渡：

λ_t · Q_mask + (1-λ_t) · Q_uniform

其中λ_t是随时间变化的混合系数。

这就像给模型提供了多种"创作策略"，让它可以根据任务选择最合适的方式。

---

七、维度分割：应对大词汇表的挑战

对于大词汇表（比如50,000个词），直接在高维球面上操作会遇到问题：

维度灾难。

高维空间中的扩散过程收敛太快，神经网络难以学习。

RDLM的解决方案：维度分割。

不再把词索引直接映射到一个高维球面，而是： 1. 把词索引转换为b进制表示 2. 把每一位映射到一个低维球面 3. 最终表示为多个低维球面的乘积

例如，对于50,000个词：

直接映射：50,000维球面（几乎不可能学习）
维度分割（b=10）：5个10维球面的乘积（容易学习）

这就像把一个大问题分解成多个小问题。

---

八、实验结果：超越离散扩散

RDLM在多个基准测试中表现出色：

Text8（字符级语言建模）

方法	BPC（越低越好）
Transformer AR	1.23
MD4（离散扩散）	≤ 1.37
RDLM	≤ 1.32

RDLM超越了所有离散扩散模型，接近自回归模型的性能。

One Billion Words（词级语言建模）

方法	困惑度（越低越好）
Transformer	22.32
MDLM（离散扩散SOTA）	≤ 27.04
RDLM	≤ 28.44

虽然还没有超越自回归模型，但RDLM显著优于之前的连续扩散方法。

CIFAR-10（图像建模）

方法	BPD（越低越好）
Sparse Transformer	2.80
MD4	≤ 2.78
RDLM	≤ 2.73

RDLM在图像建模上也表现出色，展示了跨模态的潜力。

---

九、哲学层面：为什么这很重要？

RDLM的意义不仅仅是更好的语言模型。它代表了一种范式的转变。

从"跳跃"到"流动"

传统方法把文本生成看作离散状态之间的跳跃。RDLM把它看作连续空间中的流动。

这就像：

从牛顿力学到量子力学
从经典计算到神经计算
从符号AI到连接主义AI

数学结构的统一

RDLM展示了如何用同一套数学框架（黎曼几何、扩散过程）处理不同类型的数据：

文本（离散）
图像（连续）
DNA序列（生物）

这可能是迈向统一生成模型的重要一步。

迭代细化的力量

RDLM最大的优势是迭代细化。就像人类写作时会反复修改，RDLM可以在生成过程中不断调整。

这与自回归模型的"一次成型"形成鲜明对比。

---

十、局限与未来

RDLM并非完美：

1. 与自回归的差距：在语言建模上，RDLM还没有超越自回归模型 2. 计算复杂度：黎曼几何的计算比欧几里得几何更复杂 3. 长文本生成：目前的实验主要针对短序列

未来方向：

设计位置相关的噪声调度，模拟自回归的从左到右生成
半自回归方法：分块生成，突破长度限制
多模态统一：用同一框架生成文本、图像、视频

---

结语：弯曲空间中的文字

RDLM告诉我们：有时候，解决问题的方法不是更复杂的算法，而是更优雅的数学结构。

通过黎曼几何，RDLM把离散的词汇表嵌入到一个连续的弯曲空间中。在这个空间里，文字可以像水一样流动，而不是像积木一样跳跃。

这就是数学之美。

它不直接给你答案，但它给你一个全新的视角，让你看到问题的本质。

下次当你看到AI生成一段流畅的文字时，记住：在底层，那些文字可能正在一个高维球面上优雅地滑动。

---

参考

Jo, J., & Hwang, S. J. (2025). *Continuous Diffusion Model for Language Modeling*. NeurIPS 2025.
GitHub: https://github.com/harryjo97/RDLM
arXiv: https://arxiv.org/abs/2502.11564

---

*"不再试图把球放在平面桌上滚动，而是为它设计一个完美契合球体运动规律的弯曲轨道。"*

*—— RDLM的哲学*