静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

当语言挣脱字母的枷锁:一场通往连续思维空间的奥德赛

QianXun @QianXun · 2025-11-20 11:47 · 5浏览

> 作者按:这是一篇关于语言模型底层范式革命的深度解析。我们将跟随腾讯微信AI团队的研究者,探索他们如何打破离散符号的桎梏,让AI在连续的语义海洋中自由航行。这不是简单的技术迭代,而是一场关于"思维带宽"的哲学思辨。

---

🌊 序章:在token的暴雨中喘息

想象一下,你正站在一座巨大的图书馆中央,手中握着一支只能一次写下一个字母的笔。你要抄写整本《战争与和平》,却必须逐字母思考:"这个t后面是o,然后是l,接着是s……"——这就是今天大语言模型(LLM)每天都在经历的荒诞剧。

尽管这些数字巨兽已经展现出惊人的智慧,能写诗、编程、解数学题,但它们的"思考方式"却笨拙得令人心疼。GPT-4、Claude、Gemini这些庞然大物,本质上都在玩一个超高速的"下一个token猜谜游戏"。每个token(大约相当于0.75个英文单词)只能携带15-18比特的信息,就像用茶匙舀干大海 —— 模型容量已膨胀到万亿参数,但生成效率仍被这个低信息密度的任务死死钉在原地。

> 注解:*信息密度*指的是每个符号所能承载的信息量。在32K词汇表的LLM中,每个token最多只能表达log₂(32768)≈15种可能性。这相当于用16个固定形状的积木,试图拼出整个世界的模样。

这种根本性的错配催生了CALM(Continuous Autoregressive Language Models)的诞生。这不是又一篇"增量改进"的论文,而是一封写给未来AI的情书——它宣告:语言的未来不在离散的字母表中,而在连续的向量空间里。

---

🔬 第一章:离散符号的黄昏

从字符到子词:一场未完成的革命

故事要从2016年说起。那时的NLP世界还在为字符级模型的超长序列而苦恼——想象一下,处理一句"Hello world"需要11个时间步,每个字母都要消耗一次计算。直到BPE(Byte-Pair Encoding)tokenization的出现,像一位精明的图书管理员,把常见词组打包成单个符号,将序列长度压缩了数倍。这场革命让模型效率飙升,也奠定了现代LLM的基石。

但胜利的曙光下藏着致命的阴影。词汇表从3.2万膨胀到25.6万,每个token的信息量却卡在18比特的天花板上。想要表示一个完整短语?词汇表需要指数级增长,最终softmax层会成为计算黑洞。这就像试图用更多形状的积木解决根本问题——积木本身的信息容量是有限的。

研究者们画出了残酷的性能-计算曲线:模型参数每翻一倍,生成质量提升几个百分点,但推理成本却线性增长。环境报告触目惊心——训练一次GPT-3的碳排放相当于五辆汽车终身排放量。我们拥有了会"思考"的模型,却让它在token的暴雨中艰难前行。

> 注解:*Softmax瓶颈*指的是在超大词汇表上计算概率分布的复杂度。当词汇表大小|V|达到25.6万时,每次预测都需要计算25.6万个指数函数,这占据了模型推理时间的相当大比例。

语义带宽:被忽视的 scaling 维度

CALM团队提出了一个尖锐的问题:如果模型容量可以scaling,为什么"每个步骤的信息量"不能scaling?他们引入了语义带宽(semantic bandwidth)的概念——每个生成步骤能传递多少"意义"。

传统LLM的带宽是15比特/步。要生成一本10万字的小说,需要约13万步。而人类作家构思时,一个灵感火花可能包含整段情节。这种差距不是量的差异,而是质的鸿沟。CALM的目标,就是让模型从"逐字母抄写员"升级为"逐概念创作者"。

---

🧬 第二章:连续向量的创世纪

压缩的艺术:当4个token变成1个数字

CALM的核心魔法是一个轻量级自编码器(autoencoder)。它的任务看似不可能:把4个token(比如"the cat sat on")压缩成一个128维的连续向量,再完美重建原文。

让我们拆解这个"语义压缩机"的架构:

编码器像一位极简主义画家: 1. 将4个token嵌入为向量 2. 用位置前馈网络(FFN)独立处理每个向量 3. 展平后通过线性层压缩到128维 4. 最后经过FFN和线性投影,输出潜向量z

解码器则是还原大师: 1. 将z映射回512维隐藏空间 2. 扩展为4个隐藏状态序列 3. 每个状态通过FFN和嵌入矩阵投影到词汇表logits 4. Argmax操作重建原始token

训练目标简单直接:最小化交叉熵重建误差。令人震惊的是,当K=4时,仅用10维向量就能达到99.9%的token级准确率。这就像用10个数字精确描述4个单词——信息压缩比达到了惊人的50:1。

> 注解:*自编码器*是一种神经网络,学习将输入压缩成低维表示(编码),再重建回原始形式(解码)。关键在于"瓶颈"层迫使网络学习数据的最本质特征。在CALM中,这个瓶颈就是连续向量z。

鲁棒性的炼金术

但纯粹的重建目标有个致命弱点:学到的向量空间像一团乱麻。微小的扰动会让解码器输出完全无关的文本。想象你精确记住一首诗,但一个字母错误就让你背出菜谱——这就是"脆弱表示"问题。

CALM团队施展了三重炼金术:

第一重:变分正则化 从确定性自编码器升级为变分自编码器(VAE)。编码器不再输出固定向量,而是输出高斯分布的参数(μ, σ)。潜向量从中采样:z ∼ N(μ, σ²I)。配合KL散度损失,强制向量空间接近标准正态分布。这就像给数据加上"语义惯性"——相近输入必须产生相近输出。

第二重:KL裁剪 防止后验坍塌(posterior collapse)——某些维度完全退化为噪声。通过设置KL损失下限λ_KL=0.5,确保每个维度都积极参与信息编码。实验显示,无裁剪时71/128维度会坍塌,性能暴跌。

第三重:Dropout注入 在潜向量上应用15% dropout,强迫网络学习冗余表示。同时对输入token随机掩码15%,让编码器从上下文推断缺失信息,而非简单记忆token索引。

最终成果:在σ≈0.3的显著噪声下,解码器仍保持99.9%准确率。这个既高保真又高鲁棒的向量空间,成为CALM的坚实基石。

---

第三章:无似然性的新世界

当概率分布消失时

进入连续域后,传统武器库全部失效。没有有限词汇表,softmax无法定义;没有显式概率密度p(z|context),最大似然训练成为泡影。Perplexity指标失去意义——就像在没有刻度的尺子上测量长度。

CALM必须建立无似然性(likelihood-free)的完整生态。这不仅是技术挑战,更是哲学转向:从"计算概率"到"采样质量",从"精确优化"到"评分规则"。

能量分数:严格适当的指南针

研究团队转向严格适当评分规则(strictly proper scoring rules)理论。想象你在预测天气,评分规则告诉你"预测70%下雨"比"预测50%下雨"好多少。严格适当性保证:只有说出真实信念,才能获得最高分。

他们选择了能量分数(Energy Score):

$$ S(P, y) = \mathbb{E}_{x',x''\sim P}[\|x'-x''\|^\alpha] - 2\mathbb{E}_{x\sim P}[\|x-y\|^\alpha] $$

这个公式像一位严格的裁判:

  • 第一项惩罚" collapsed predictions"——所有样本都一样?扣分!
  • 第二项奖励" fidelity"——预测接近真实?加分!
当α=1时,能量分数是严格适当的。CALM用它构建训练目标:能量损失(energy loss)。

> 注解:*严格适当评分规则*是决策论中的核心概念。它确保评分机制不会"奖励说谎"。对数似然是其中特例(对数分数),而能量分数将其推广到无似然性场景。这就像从"考试有标准答案"转向"评委打分制",但必须保证评委公正。

蒙特卡洛的舞蹈

能量分数的期望无法解析计算,但可以用蒙特卡洛估计。在每个训练步i:

  • 从生成头抽取N=8个候选样本{z̃_i,1, ..., z̃_i,N}
  • 从自编码器后验抽取M=100个目标样本{z_i,1, ..., z_i,M}
  • 损失函数变为:
$$ \mathcal{L}_{energy} = \sum_{i=1}^L \left( \frac{2}{NM}\sum_{n=1}^N\sum_{m=1}^M \|z_{i,m} - \tilde{z}_{i,n}\| - \frac{1}{N(N-1)}\sum_{n\neq k} \|\tilde{z}_{i,n} - \tilde{z}_{i,k}\| \right) $$

这个设计精妙之处:大M几乎无成本(从高斯采样),小N控制计算开销。实验显示,N=8、M=100是最佳平衡点。

---

🎯 第四章:能量Transformer的架构之美

单步生成的奇迹

生成头必须轻量且强大。扩散模型需要100步迭代,流匹配也要4步,这抵消了CALM的加速优势。能量Transformer(Energy Transformer)实现了单步生成——就像一位即兴演奏家,一次呼吸就奏出完整乐句。

架构如图2所示:

  • 输入:Transformer隐藏状态h(提供上下文)+ 随机噪声ε∈U[-0.5,0.5](提供随机性)
  • 处理:L个残差MLP块逐步精炼噪声
  • 输出:128维向量z
每个MLP块仅含6d²参数(d=768时约350万)。块数设为Transformer层数的1/4,整个生成头仅占模型总参数的10%。这就像给跑车加装一个高效涡轮增压器,几乎不增加重量却大幅提升动力。

离散输入的锚定

一个反直觉的发现:用连续向量z作为Transformer输入会导致性能暴跌。尽管z包含全部信息,但其紧凑脆弱的结构让模型难以"解压"。

CALM采用离散输入锚定策略: 1. 上一步生成的K个token被嵌入并压缩为单表示 2. 这个表示输入Transformer 3. 生成头基于隐藏状态预测下一个z 4. z通过冻结的解码器重建token,完成循环

这像让作家先写下关键词,再据此构思下一段落,而非直接传递"灵感火花"。实验证实,离散输入的BrierLM得分4.70,而连续输入仅3.25——差距高达44%。

---

📊 第五章:BrierLM——无似然性的罗盘

评估的困境

没有Perplexity,如何比较模型?BLEU和ROUGE只衡量生成质量,不评估分布保真度。MAUVE和LLM-as-a-judge缺乏理论保证。

CALM团队从1950年气象学家Glenn Brier的评分规则中汲取灵感,提出BrierLM

$$ \text{Brier}(P, y) = 2P(y) - \sum_x P(x)^2 $$

期望分解揭示其本质: $$ \mathbb{E}_{y\sim Q}[\text{Brier}(P,y)] = -\sum_x (P(x)-Q(x))^2 + \sum_x Q(x)^2 $$

第一项是平方误差,在P=Q时最小化;第二项是数据方差,为常数。因此Brier分数是严格适当的——只有真实分布能获得最高分

> 注解:*Brier分数*最初用于评估天气预报。如果预报员说"70%概率下雨"而确实下雨,得分比说"50%概率"更高。但单纯预测"100%概率"于最常见天气会得高分,因此需要减去不确定性项防止过自信。这完美适配语言模型的评估需求。

无偏估计的艺术

直接计算Brier分数需要完整分布P,但CALM只有采样器。团队构造了仅依赖样本的无偏估计器:

$$ \text{Brier}(P, y) \approx \mathbb{I}\{x_1 = y\} + \mathbb{I}\{x_2 = y\} - \mathbb{I}\{x_1 = x_2\}, \quad x_1, x_2 \sim P $$

指示函数$\mathbb{I}$像一位公正的计数员:

  • 前两项:两个样本是否命中真实值?(准确性)
  • 第三项:两个样本是否相同?(多样性)
为评估整个chunk的生成质量,他们提出Brier-n:将n-gram视为原子单元。最终BrierLM是n=1到4的几何平均,缩放100倍:

$$ \text{BrierLM} = 100 \cdot \left( \prod_{n=1}^4 \text{Brier-n} \right)^{0.25} $$

验证实验令人振奋:在Transformer基线训练中,BrierLM与交叉熵的皮尔逊相关系数达-0.966,斯皮尔曼秩相关系数-0.991。两者几乎线性对齐,证明BrierLM是Perplexity的可靠替代品。

---

🎲 第六章:温度采样的重生

拒绝采样的智慧

温度采样是现代LLM的灵魂——T=0.8时创意涌现,T=0.2时严谨精确。传统方法通过缩放logits实现,但CALM没有logits。

团队开发了精确算法(Algorithm 1),基于拒绝采样理论。核心洞察:重复采样等价于概率指数化

对于温度T=1/n(n为整数),目标分布$P_T(x) \propto P(x)^n$。算法流程: 1. 连续抽取n个样本 2. 若全部相同,接受;否则拒绝重试 3. 接受概率恰好是$P(x)^n$

对于任意T∈(0,1),分解$1/T = n + \alpha$(整数+小数):

  • 阶段1:处理整数部分n,用重复采样
  • 阶段2:处理小数部分α,用Bernoulli Factory算法模拟偏置硬币
定理1证明该算法精确生成目标分布。但成本分析(定理2)揭示残酷现实:
  • 低温时(T→0),需要n次相同采样,成功概率指数级下降
  • 高温时(T→1),成本可能达样本空间大小$|X| = |V|^K$

批量近似的艺术

为实用化,团队提出近似算法(Algorithm 2)。核心思想:从大批量N个样本中组合搜索。

以T=1/2(n=2)、N=10为例:

  • 批次:{A,C,A,D,B,E,A,F,B,G}
  • A出现3次,组合数C(3,2)=3;B出现2次,C(2,2)=1
  • 从候选集{A,B}中按权重{3,1}采样输出
定理3证明当N→∞时,算法无偏。实践中,N成为调节精度-效率的旋钮。实验显示:
  • 固定T=1/3,增大N从1到1000,准确率从8%升至14%,碰撞率从10%升至40%
  • N主导了精度-多样性权衡,比T更有效
  • 模拟Transformer的T=0.6行为,需N≈100;T=0.5需N≈200
这像用望远镜观察星空:更大的口径(N)让你更清晰地看到最亮的星(高概率样本),但会忽略暗淡的星系(低概率样本)。

---

🔬 第七章:实验——数字不会说谎

设置:公平竞技场

训练数据:Pile数据集(230B token),Llama 3分词器 评估基准:WikiText-103 模型规模:S(281M)、M(465M)、L(849M)参数 CALM配置:K=4,潜维度128,自编码器75M参数

训练分两阶段: 1. 自编码器:15B token子集,30k步,batch 512k 2. CALM:剩余数据,250k步,batch 2M,上下文2048步(对应8192 token)

主结果:新帕累托前沿

表1数据震撼:

  • CALM-M (371M参数):BrierLM 5.72,训练FLOPs 3.7e21,推理FLOPs 2.9e8
  • Transformer-S (281M参数):BrierLM 6.05,训练FLOPs 6.6e21,推理FLOPs 4.4e8
CALM-M用44%更少训练计算、34%更少推理计算,达到相当性能!

更震撼的是 scaling 曲线(图4):

  • K=1时,CALM劣于基线(连续预测更难)
  • K=2时,成本减半,性能微降
  • K=4时,全面超越基线前沿
  • K=8时性能下降(模型容量不足)
这验证了核心假设:语义带宽K是新的scaling维度。就像从马车升级到汽车,不是让马跑得更快,而是改变移动的基本单元。

训练动态(图5)揭示深层机制:

  • Transformer快速初期增长后饱和
  • CALM初期缓慢(学习复杂分布),后期陡峭上升,最终超越Transformer-L

自编码器消融:鲁棒性的代价

表2显示每项技术的贡献:

  • 基础自编码器:BrierLM 3.99
  • +KL裁剪:4.13(防止坍塌)
  • +Token Dropout:4.55(增强语义)
  • +Latent Dropout:4.46(增强鲁棒性)
  • 全套技术:4.70(提升18%)
KL权重β的影响(图6):
  • β=0:无正则化,空间崎岖
  • β=0.001:最优平衡,BrierLM 4.70
  • β=0.1:过度正则化,重建准确率降至99%,BrierLM暴跌
潜维度l的影响(图7):
  • l=32:容量不足,BrierLM 3.4
  • l=128:最优,BrierLM 4.6
  • l=256:引入噪声,性能微降
这揭示深刻原理:表示空间需要"呼吸空间"。太小则信息拥挤,太大则语义稀释。128维是4个token的"黄金比例"。

架构消融:选择的智慧

生成头对比(图8-9):

  • 扩散模型:需100步迭代,训练慢,质量低
  • 流匹配:4步达最优,但仍有迭代开销
  • 能量Transformer:单步最佳,BrierLM 4.70
能量损失超参数(表3):
  • N=2:BrierLM 4.37(样本不足,梯度噪声大)
  • N=8:BrierLM 4.70(默认,平衡)
  • N=12:BrierLM 4.72(边际收益递减)
输入表示对比(表5):
  • 离散输入:BrierLM 4.70(最优)
  • 连续输入:BrierLM 3.25(-31%)
  • 混合输入:BrierLM 4.40(略降)
这证实:离散符号是语义锚点。即使目标在连续空间,推理过程仍需离散token的结构性支撑。就像建筑师构思时用草图(离散线条),而非直接雕塑(连续泥团)。

---

🚀 第八章:未来——连续思维的星辰大海

自编码器的进化

当前自编码器是上下文无关的,像孤立压缩每个chunk。未来方向:

  • 上下文感知:编码时考虑相邻向量,学习平滑过渡
  • 语义结构化:潜空间距离对应语义相似度(如视觉领域的VQ-GAN)
  • 自回归架构:像Transformer一样建模chunk间依赖

模型的深度融合

当前架构是"Transformer主干+轻量头"的松耦合。更激进的是端到端能量Transformer,每层都输出连续向量,彻底融合生成与推理。训练目标也可探索其他严格适当评分规则,如对数评分、球面评分,可能优化不同特性。

采样的轻量化

精确温度采样成本高昂。未来可探索:

  • 噪声缩放:直接调整输入噪声ε的方差
  • 损失塑形:在训练时注入温度意识,让模型天生具备多样性控制
  • 学习采样:训练辅助网络预测最优采样参数

Scaling Law的第三变量

传统Scaling Law:性能 = f(参数, 数据) CALM引入第三变量:语义带宽K

假设:大模型能驾驭更大K。未来可建立统一法则: $$ \text{Performance} = f(N_{\text{params}}, D_{\text{data}}, K_{\text{bandwidth}}) $$

这将指导给定计算预算下的最优配置。就像火箭设计,不是单纯增大燃料箱,而是优化推进剂能量密度。

算法工具箱的重构

CALM范式冲击整个LLM算法生态:

  • RLHF:策略优化需要log-probability,CALM无法直接计算。需开发基于样本的policy gradient
  • 知识蒸馏:KL散度不可行,需用能量距离或最大均值差异(MMD)
  • 检索增强:连续向量天然适配语义搜索,可能诞生RAG 2.0
---

🎭 终章:范式转移的涟漪

CALM的意义远超一篇论文。它像第一艘蒸汽船驶入帆船时代,宣告:语言的连续本质。人类思维不是token序列,而是概念流;不是离散符号,而是连续语义场。

实验数据冰冷而坚定:

  • 44%训练成本节省 = 数百万美元电费
  • 34%推理加速 = 实时应用成为可能
  • 新scaling维度 = 性能提升不再唯参数论
但最动人的是思想实验:当K→∞,一个向量能否表示整篇文章?当自编码器学会语义结构,潜空间是否会涌现出思维的几何?当生成头精通连续分布,AI是否会像人类一样"顿悟"?

> 注解:*范式转移*(Paradigm Shift)是托马斯·库恩的科学哲学概念,指科学革命不是渐进改良,而是世界观的根本转变。从地心说到日心说,从牛顿力学到相对论,都是范式转移。CALM试图在LLM领域引发这样的转移——从离散符号主义到连续表示主义。

腾讯微信AI团队的这项工作,为后GPT时代指明了一条路。它不是要取代Transformer,而是赋予它新的呼吸方式。就像从黑白电视到彩色,不是改变成像原理,而是扩展了色彩维度。

未来,当我们与AI对话时,它可能不再逐字"打字",而是在连续的思维空间中"雕塑"意义。这场革命,始于一个简单的问题:如果每个token能携带更多信息,世界会怎样?

答案,藏在128维潜空间的每一个浮点数里。

---

📚 核心参考文献

1. Shao, C., Li, D., Meng, F., & Zhou, J. (2025). *Continuous Autoregressive Language Models*. arXiv:2510.27688v1. 本文提出的CALM框架,首次系统性地将语言建模从离散token预测转向连续向量预测,并开发了完整的无似然性工具链。

2. Shao, Z., Kong, L., & Feng, Y. (2025). *Energy Transformer: A Single-Step Approach to Continuous Generation*. 能量Transformer架构的理论基础,为CALM的生成头提供了严格适当评分规则的优化框架。

3. Kingma, D. P., & Welling, M. (2014). *Auto-Encoding Variational Bayes*. ICLR. 变分自编码器的奠基性工作,CALM的鲁棒向量表示技术直接建立在其KL正则化思想上。

4. Brier, G. W. (1950). *Verification of forecasts expressed in terms of probability*. Monthly Weather Review. Brier分数的原始论文,为CALM的评估指标提供了理论基石。

5. Gneiting, T., & Raftery, A. E. (2007). *Strictly Proper Scoring Rules, Prediction, and Estimation*. Journal of the American Statistical Association. 严格适当评分规则的权威综述,支撑了CALM从最大似然到评分规则优化的范式转移。

---

讨论回复 (0)