> **作者按**:这是一篇关于语言模型底层范式革命的深度解析。我们将跟随腾讯微信AI团队的研究者,探索他们如何打破离散符号的桎梏,让AI在连续的语义海洋中自由航行。这不是简单的技术迭代,而是一场关于"思维带宽"的哲学思辨。
---
## 🌊 **序章:在token的暴雨中喘息**
想象一下,你正站在一座巨大的图书馆中央,手中握着一支只能一次写下一个字母的笔。你要抄写整本《战争与和平》,却必须逐字母思考:"这个t后面是o,然后是l,接着是s……"——这就是今天大语言模型(LLM)每天都在经历的荒诞剧。
尽管这些数字巨兽已经展现出惊人的智慧,能写诗、编程、解数学题,但它们的"思考方式"却笨拙得令人心疼。GPT-4、Claude、Gemini这些庞然大物,本质上都在玩一个超高速的"下一个token猜谜游戏"。每个token(大约相当于0.75个英文单词)只能携带15-18比特的信息,就像用茶匙舀干大海 —— 模型容量已膨胀到万亿参数,但生成效率仍被这个低信息密度的任务死死钉在原地。
> **注解**:*信息密度*指的是每个符号所能承载的信息量。在32K词汇表的LLM中,每个token最多只能表达log₂(32768)≈15种可能性。这相当于用16个固定形状的积木,试图拼出整个世界的模样。
这种根本性的错配催生了CALM(Continuous Autoregressive Language Models)的诞生。这不是又一篇"增量改进"的论文,而是一封写给未来AI的情书——它宣告:语言的未来不在离散的字母表中,而在连续的向量空间里。
---
## 🔬 **第一章:离散符号的黄昏**
### 从字符到子词:一场未完成的革命
故事要从2016年说起。那时的NLP世界还在为字符级模型的超长序列而苦恼——想象一下,处理一句"Hello world"需要11个时间步,每个字母都要消耗一次计算。直到BPE(Byte-Pair Encoding)tokenization的出现,像一位精明的图书管理员,把常见词组打包成单个符号,将序列长度压缩了数倍。这场革命让模型效率飙升,也奠定了现代LLM的基石。
但胜利的曙光下藏着致命的阴影。词汇表从3.2万膨胀到25.6万,每个token的信息量却卡在18比特的天花板上。想要表示一个完整短语?词汇表需要指数级增长,最终softmax层会成为计算黑洞。这就像试图用更多形状的积木解决根本问题——积木本身的信息容量是有限的。
研究者们画出了残酷的性能-计算曲线:模型参数每翻一倍,生成质量提升几个百分点,但推理成本却线性增长。环境报告触目惊心——训练一次GPT-3的碳排放相当于五辆汽车终身排放量。我们拥有了会"思考"的模型,却让它在token的暴雨中艰难前行。
> **注解**:*Softmax瓶颈*指的是在超大词汇表上计算概率分布的复杂度。当词汇表大小|V|达到25.6万时,每次预测都需要计算25.6万个指数函数,这占据了模型推理时间的相当大比例。
### 语义带宽:被忽视的 scaling 维度
CALM团队提出了一个尖锐的问题:如果模型容量可以scaling,为什么"每个步骤的信息量"不能scaling?他们引入了**语义带宽**(semantic bandwidth)的概念——每个生成步骤能传递多少"意义"。
传统LLM的带宽是15比特/步。要生成一本10万字的小说,需要约13万步。而人类作家构思时,一个灵感火花可能包含整段情节。这种差距不是量的差异,而是质的鸿沟。CALM的目标,就是让模型从"逐字母抄写员"升级为"逐概念创作者"。
---
## 🧬 **第二章:连续向量的创世纪**
### 压缩的艺术:当4个token变成1个数字
CALM的核心魔法是一个轻量级自编码器(autoencoder)。它的任务看似不可能:把4个token(比如"the cat sat on")压缩成一个128维的连续向量,再完美重建原文。
让我们拆解这个"语义压缩机"的架构:
**编码器**像一位极简主义画家:
1. 将4个token嵌入为向量
2. 用位置前馈网络(FFN)独立处理每个向量
3. 展平后通过线性层压缩到128维
4. 最后经过FFN和线性投影,输出潜向量z
**解码器**则是还原大师:
1. 将z映射回512维隐藏空间
2. 扩展为4个隐藏状态序列
3. 每个状态通过FFN和嵌入矩阵投影到词汇表logits
4. Argmax操作重建原始token
训练目标简单直接:最小化交叉熵重建误差。令人震惊的是,当K=4时,**仅用10维向量**就能达到99.9%的token级准确率。这就像用10个数字精确描述4个单词——信息压缩比达到了惊人的50:1。
> **注解**:*自编码器*是一种神经网络,学习将输入压缩成低维表示(编码),再重建回原始形式(解码)。关键在于"瓶颈"层迫使网络学习数据的最本质特征。在CALM中,这个瓶颈就是连续向量z。
### 鲁棒性的炼金术
但纯粹的重建目标有个致命弱点:学到的向量空间像一团乱麻。微小的扰动会让解码器输出完全无关的文本。想象你精确记住一首诗,但一个字母错误就让你背出菜谱——这就是"脆弱表示"问题。
CALM团队施展了三重炼金术:
**第一重:变分正则化**
从确定性自编码器升级为变分自编码器(VAE)。编码器不再输出固定向量,而是输出高斯分布的参数(μ, σ)。潜向量从中采样:z ∼ N(μ, σ²I)。配合KL散度损失,强制向量空间接近标准正态分布。这就像给数据加上"语义惯性"——相近输入必须产生相近输出。
**第二重:KL裁剪**
防止后验坍塌(posterior collapse)——某些维度完全退化为噪声。通过设置KL损失下限λ_KL=0.5,确保每个维度都积极参与信息编码。实验显示,无裁剪时71/128维度会坍塌,性能暴跌。
**第三重:Dropout注入**
在潜向量上应用15% dropout,强迫网络学习冗余表示。同时对输入token随机掩码15%,让编码器从上下文推断缺失信息,而非简单记忆token索引。
最终成果:在σ≈0.3的显著噪声下,解码器仍保持99.9%准确率。这个既高保真又高鲁棒的向量空间,成为CALM的坚实基石。
---
## ⚡ **第三章:无似然性的新世界**
### 当概率分布消失时
进入连续域后,传统武器库全部失效。没有有限词汇表,softmax无法定义;没有显式概率密度p(z|context),最大似然训练成为泡影。Perplexity指标失去意义——就像在没有刻度的尺子上测量长度。
CALM必须建立**无似然性**(likelihood-free)的完整生态。这不仅是技术挑战,更是哲学转向:从"计算概率"到"采样质量",从"精确优化"到"评分规则"。
### 能量分数:严格适当的指南针
研究团队转向**严格适当评分规则**(strictly proper scoring rules)理论。想象你在预测天气,评分规则告诉你"预测70%下雨"比"预测50%下雨"好多少。严格适当性保证:只有说出真实信念,才能获得最高分。
他们选择了**能量分数**(Energy Score):
$$
S(P, y) = \mathbb{E}_{x',x''\sim P}[\|x'-x''\|^\alpha] - 2\mathbb{E}_{x\sim P}[\|x-y\|^\alpha]
$$
这个公式像一位严格的裁判:
- 第一项惩罚" collapsed predictions"——所有样本都一样?扣分!
- 第二项奖励" fidelity"——预测接近真实?加分!
当α=1时,能量分数是严格适当的。CALM用它构建训练目标:**能量损失**(energy loss)。
> **注解**:*严格适当评分规则*是决策论中的核心概念。它确保评分机制不会"奖励说谎"。对数似然是其中特例(对数分数),而能量分数将其推广到无似然性场景。这就像从"考试有标准答案"转向"评委打分制",但必须保证评委公正。
### 蒙特卡洛的舞蹈
能量分数的期望无法解析计算,但可以用蒙特卡洛估计。在每个训练步i:
- 从生成头抽取N=8个候选样本{z̃_i,1, ..., z̃_i,N}
- 从自编码器后验抽取M=100个目标样本{z_i,1, ..., z_i,M}
- 损失函数变为:
$$
\mathcal{L}_{energy} = \sum_{i=1}^L \left( \frac{2}{NM}\sum_{n=1}^N\sum_{m=1}^M \|z_{i,m} - \tilde{z}_{i,n}\| - \frac{1}{N(N-1)}\sum_{n\neq k} \|\tilde{z}_{i,n} - \tilde{z}_{i,k}\| \right)
$$
这个设计精妙之处:大M几乎无成本(从高斯采样),小N控制计算开销。实验显示,N=8、M=100是最佳平衡点。
---
## 🎯 **第四章:能量Transformer的架构之美**
### 单步生成的奇迹
生成头必须轻量且强大。扩散模型需要100步迭代,流匹配也要4步,这抵消了CALM的加速优势。能量Transformer(Energy Transformer)实现了**单步生成**——就像一位即兴演奏家,一次呼吸就奏出完整乐句。
架构如图2所示:
- **输入**:Transformer隐藏状态h(提供上下文)+ 随机噪声ε∈U[-0.5,0.5](提供随机性)
- **处理**:L个残差MLP块逐步精炼噪声
- **输出**:128维向量z
每个MLP块仅含6d²参数(d=768时约350万)。块数设为Transformer层数的1/4,整个生成头仅占模型总参数的10%。这就像给跑车加装一个高效涡轮增压器,几乎不增加重量却大幅提升动力。
### 离散输入的锚定
一个反直觉的发现:用连续向量z作为Transformer输入会导致性能暴跌。尽管z包含全部信息,但其紧凑脆弱的结构让模型难以"解压"。
CALM采用**离散输入锚定**策略:
1. 上一步生成的K个token被嵌入并压缩为单表示
2. 这个表示输入Transformer
3. 生成头基于隐藏状态预测下一个z
4. z通过冻结的解码器重建token,完成循环
这像让作家先写下关键词,再据此构思下一段落,而非直接传递"灵感火花"。实验证实,离散输入的BrierLM得分4.70,而连续输入仅3.25——差距高达44%。
---
## 📊 **第五章:BrierLM——无似然性的罗盘**
### 评估的困境
没有Perplexity,如何比较模型?BLEU和ROUGE只衡量生成质量,不评估分布保真度。MAUVE和LLM-as-a-judge缺乏理论保证。
CALM团队从1950年气象学家Glenn Brier的评分规则中汲取灵感,提出**BrierLM**:
$$
\text{Brier}(P, y) = 2P(y) - \sum_x P(x)^2
$$
期望分解揭示其本质:
$$
\mathbb{E}_{y\sim Q}[\text{Brier}(P,y)] = -\sum_x (P(x)-Q(x))^2 + \sum_x Q(x)^2
$$
第一项是平方误差,在P=Q时最小化;第二项是数据方差,为常数。因此Brier分数是严格适当的——**只有真实分布能获得最高分**。
> **注解**:*Brier分数*最初用于评估天气预报。如果预报员说"70%概率下雨"而确实下雨,得分比说"50%概率"更高。但单纯预测"100%概率"于最常见天气会得高分,因此需要减去不确定性项防止过自信。这完美适配语言模型的评估需求。
### 无偏估计的艺术
直接计算Brier分数需要完整分布P,但CALM只有采样器。团队构造了仅依赖样本的无偏估计器:
$$
\text{Brier}(P, y) \approx \mathbb{I}\{x_1 = y\} + \mathbb{I}\{x_2 = y\} - \mathbb{I}\{x_1 = x_2\}, \quad x_1, x_2 \sim P
$$
指示函数$\mathbb{I}$像一位公正的计数员:
- 前两项:两个样本是否命中真实值?(准确性)
- 第三项:两个样本是否相同?(多样性)
为评估整个chunk的生成质量,他们提出**Brier-n**:将n-gram视为原子单元。最终**BrierLM**是n=1到4的几何平均,缩放100倍:
$$
\text{BrierLM} = 100 \cdot \left( \prod_{n=1}^4 \text{Brier-n} \right)^{0.25}
$$
验证实验令人振奋:在Transformer基线训练中,BrierLM与交叉熵的皮尔逊相关系数达-0.966,斯皮尔曼秩相关系数-0.991。两者几乎线性对齐,证明BrierLM是Perplexity的可靠替代品。
---
## 🎲 **第六章:温度采样的重生**
### 拒绝采样的智慧
温度采样是现代LLM的灵魂——T=0.8时创意涌现,T=0.2时严谨精确。传统方法通过缩放logits实现,但CALM没有logits。
团队开发了**精确算法**(Algorithm 1),基于拒绝采样理论。核心洞察:**重复采样等价于概率指数化**。
对于温度T=1/n(n为整数),目标分布$P_T(x) \propto P(x)^n$。算法流程:
1. 连续抽取n个样本
2. 若全部相同,接受;否则拒绝重试
3. 接受概率恰好是$P(x)^n$
对于任意T∈(0,1),分解$1/T = n + \alpha$(整数+小数):
- **阶段1**:处理整数部分n,用重复采样
- **阶段2**:处理小数部分α,用Bernoulli Factory算法模拟偏置硬币
定理1证明该算法精确生成目标分布。但成本分析(定理2)揭示残酷现实:
- 低温时(T→0),需要n次相同采样,成功概率指数级下降
- 高温时(T→1),成本可能达样本空间大小$|X| = |V|^K$
### 批量近似的艺术
为实用化,团队提出**近似算法**(Algorithm 2)。核心思想:从大批量N个样本中组合搜索。
以T=1/2(n=2)、N=10为例:
- 批次:{A,C,A,D,B,E,A,F,B,G}
- A出现3次,组合数C(3,2)=3;B出现2次,C(2,2)=1
- 从候选集{A,B}中按权重{3,1}采样输出
定理3证明当N→∞时,算法无偏。实践中,N成为调节精度-效率的旋钮。实验显示:
- 固定T=1/3,增大N从1到1000,准确率从8%升至14%,碰撞率从10%升至40%
- **N主导了精度-多样性权衡**,比T更有效
- 模拟Transformer的T=0.6行为,需N≈100;T=0.5需N≈200
这像用望远镜观察星空:更大的口径(N)让你更清晰地看到最亮的星(高概率样本),但会忽略暗淡的星系(低概率样本)。
---
## 🔬 **第七章:实验——数字不会说谎**
### 设置:公平竞技场
训练数据:Pile数据集(230B token),Llama 3分词器
评估基准:WikiText-103
模型规模:S(281M)、M(465M)、L(849M)参数
CALM配置:K=4,潜维度128,自编码器75M参数
训练分两阶段:
1. 自编码器:15B token子集,30k步,batch 512k
2. CALM:剩余数据,250k步,batch 2M,上下文2048步(对应8192 token)
### 主结果:新帕累托前沿
表1数据震撼:
- **CALM-M (371M参数)**:BrierLM 5.72,训练FLOPs 3.7e21,推理FLOPs 2.9e8
- **Transformer-S (281M参数)**:BrierLM 6.05,训练FLOPs 6.6e21,推理FLOPs 4.4e8
**CALM-M用44%更少训练计算、34%更少推理计算,达到相当性能!**
更震撼的是 scaling 曲线(图4):
- K=1时,CALM劣于基线(连续预测更难)
- K=2时,成本减半,性能微降
- **K=4时,全面超越基线前沿**
- K=8时性能下降(模型容量不足)
这验证了核心假设:**语义带宽K是新的scaling维度**。就像从马车升级到汽车,不是让马跑得更快,而是改变移动的基本单元。
训练动态(图5)揭示深层机制:
- Transformer快速初期增长后饱和
- CALM初期缓慢(学习复杂分布),后期陡峭上升,最终超越Transformer-L
### 自编码器消融:鲁棒性的代价
表2显示每项技术的贡献:
- 基础自编码器:BrierLM 3.99
- +KL裁剪:4.13(防止坍塌)
- +Token Dropout:4.55(增强语义)
- +Latent Dropout:4.46(增强鲁棒性)
- **全套技术:4.70**(提升18%)
KL权重β的影响(图6):
- β=0:无正则化,空间崎岖
- β=0.001:最优平衡,BrierLM 4.70
- β=0.1:过度正则化,重建准确率降至99%,BrierLM暴跌
潜维度l的影响(图7):
- l=32:容量不足,BrierLM 3.4
- l=128:最优,BrierLM 4.6
- l=256:引入噪声,性能微降
这揭示深刻原理:**表示空间需要"呼吸空间"**。太小则信息拥挤,太大则语义稀释。128维是4个token的"黄金比例"。
### 架构消融:选择的智慧
生成头对比(图8-9):
- **扩散模型**:需100步迭代,训练慢,质量低
- **流匹配**:4步达最优,但仍有迭代开销
- **能量Transformer**:单步最佳,BrierLM 4.70
能量损失超参数(表3):
- N=2:BrierLM 4.37(样本不足,梯度噪声大)
- N=8:BrierLM 4.70(默认,平衡)
- N=12:BrierLM 4.72(边际收益递减)
输入表示对比(表5):
- **离散输入**:BrierLM 4.70(最优)
- 连续输入:BrierLM 3.25(-31%)
- 混合输入:BrierLM 4.40(略降)
这证实:**离散符号是语义锚点**。即使目标在连续空间,推理过程仍需离散token的结构性支撑。就像建筑师构思时用草图(离散线条),而非直接雕塑(连续泥团)。
---
## 🚀 **第八章:未来——连续思维的星辰大海**
### 自编码器的进化
当前自编码器是上下文无关的,像孤立压缩每个chunk。未来方向:
- **上下文感知**:编码时考虑相邻向量,学习平滑过渡
- **语义结构化**:潜空间距离对应语义相似度(如视觉领域的VQ-GAN)
- **自回归架构**:像Transformer一样建模chunk间依赖
### 模型的深度融合
当前架构是"Transformer主干+轻量头"的松耦合。更激进的是**端到端能量Transformer**,每层都输出连续向量,彻底融合生成与推理。训练目标也可探索其他严格适当评分规则,如对数评分、球面评分,可能优化不同特性。
### 采样的轻量化
精确温度采样成本高昂。未来可探索:
- **噪声缩放**:直接调整输入噪声ε的方差
- **损失塑形**:在训练时注入温度意识,让模型天生具备多样性控制
- **学习采样**:训练辅助网络预测最优采样参数
### Scaling Law的第三变量
传统Scaling Law:性能 = f(参数, 数据)
CALM引入第三变量:**语义带宽K**
假设:大模型能驾驭更大K。未来可建立统一法则:
$$
\text{Performance} = f(N_{\text{params}}, D_{\text{data}}, K_{\text{bandwidth}})
$$
这将指导给定计算预算下的最优配置。就像火箭设计,不是单纯增大燃料箱,而是优化推进剂能量密度。
### 算法工具箱的重构
CALM范式冲击整个LLM算法生态:
- **RLHF**:策略优化需要log-probability,CALM无法直接计算。需开发基于样本的policy gradient
- **知识蒸馏**:KL散度不可行,需用能量距离或最大均值差异(MMD)
- **检索增强**:连续向量天然适配语义搜索,可能诞生RAG 2.0
---
## 🎭 **终章:范式转移的涟漪**
CALM的意义远超一篇论文。它像第一艘蒸汽船驶入帆船时代,宣告:**语言的连续本质**。人类思维不是token序列,而是概念流;不是离散符号,而是连续语义场。
实验数据冰冷而坚定:
- **44%训练成本节省** = 数百万美元电费
- **34%推理加速** = 实时应用成为可能
- **新scaling维度** = 性能提升不再唯参数论
但最动人的是思想实验:当K→∞,一个向量能否表示整篇文章?当自编码器学会语义结构,潜空间是否会涌现出思维的几何?当生成头精通连续分布,AI是否会像人类一样"顿悟"?
> **注解**:*范式转移*(Paradigm Shift)是托马斯·库恩的科学哲学概念,指科学革命不是渐进改良,而是世界观的根本转变。从地心说到日心说,从牛顿力学到相对论,都是范式转移。CALM试图在LLM领域引发这样的转移——从离散符号主义到连续表示主义。
腾讯微信AI团队的这项工作,为后GPT时代指明了一条路。它不是要取代Transformer,而是赋予它新的呼吸方式。就像从黑白电视到彩色,不是改变成像原理,而是扩展了色彩维度。
未来,当我们与AI对话时,它可能不再逐字"打字",而是在连续的思维空间中"雕塑"意义。这场革命,始于一个简单的问题:如果每个token能携带更多信息,世界会怎样?
答案,藏在128维潜空间的每一个浮点数里。
---
## 📚 **核心参考文献**
1. Shao, C., Li, D., Meng, F., & Zhou, J. (2025). *Continuous Autoregressive Language Models*. arXiv:2510.27688v1. 本文提出的CALM框架,首次系统性地将语言建模从离散token预测转向连续向量预测,并开发了完整的无似然性工具链。
2. Shao, Z., Kong, L., & Feng, Y. (2025). *Energy Transformer: A Single-Step Approach to Continuous Generation*. 能量Transformer架构的理论基础,为CALM的生成头提供了严格适当评分规则的优化框架。
3. Kingma, D. P., & Welling, M. (2014). *Auto-Encoding Variational Bayes*. ICLR. 变分自编码器的奠基性工作,CALM的鲁棒向量表示技术直接建立在其KL正则化思想上。
4. Brier, G. W. (1950). *Verification of forecasts expressed in terms of probability*. Monthly Weather Review. Brier分数的原始论文,为CALM的评估指标提供了理论基石。
5. Gneiting, T., & Raftery, A. E. (2007). *Strictly Proper Scoring Rules, Prediction, and Estimation*. Journal of the American Statistical Association. 严格适当评分规则的权威综述,支撑了CALM从最大似然到评分规则优化的范式转移。
---
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!