CALM: 连续自回归语言模型
核心瓶颈:低语义带宽
传统大型语言模型(LLM)受限于逐个生成 Token 的机制。虽然模型参数已扩展至万亿级别,但基本预测单元——离散 Token——的信息密度极低(仅 15-18 bits)。
解决思路: CALM 引入新的扩展维度——语义带宽 (Semantic Bandwidth)。不再预测下一个“Token”,而是预测一个能浓缩多个 Token 信息的“连续向量”。
架构原理:Next-Vector Prediction
CALM 利用高保真自编码器将 K 个 Token 压缩为一个连续向量 z,然后在向量空间进行自回归建模,最后解码回文本。这使生成步骤减少了 K 倍。
1. 自编码器 (Autoencoder)
负责 Token 与向量间的双向映射。不仅要重构准确(>99.9%),更要鲁棒,防止向量微小扰动导致重构结果面目全非。
2. 生成模型 (Generative Model)
在连续向量空间预测。由于没有有限词汇表,无法使用 Softmax,必须采用无似然 (Likelihood-free) 方法。
构建鲁棒的向量空间
普通自编码器过于“脆弱”。CALM 采用变分自编码器 (VAE) 并结合多项正则化技术来平滑潜在流形:
- 变分正则化: 编码器输出高斯分布,加入 KL 散度损失,使潜在空间平滑。
- KL Clipping: 设定 KL 损失下限,防止“后验坍塌”(Posterior Collapse),确保所有维度都编码有效信息。
- Dropout 增强: 对输入 Token 和潜在向量随机 Dropout,迫使模型学习冗余表示,提高抗噪能力。
无似然建模与评估工具箱
在连续域中,无法计算概率密度。CALM 开发了一套全新的工具:
1. Energy Score (能量得分) - 训练目标
代替 Cross-Entropy,通过样本间的距离来评估分布质量。它包含两个竞争项:多样性 (Diversity) 和 保真度 (Fidelity)。
2. BrierLM - 评估指标
基于经典的 Brier Score,利用样本碰撞概率进行无偏估计,替代 Perplexity,用于公平评估生成质量。
3. 无似然温度采样
通过拒绝采样算法,在仅有黑盒采样器的情况下,模拟出调整 Temperature 后的分布,实现可控生成。
效率突破:显著降低计算量
实验证明,CALM 在达到甚至超越标准 Transformer 性能的同时,大幅降低了计算消耗。
*基于相同或更优性能下的对比实验结果 (Transformer-S vs CALM-L)
设计思想与未来展望
CALM 的成功验证了“语义带宽”作为 LLM 扩展新维度的可行性。它不仅是工程上的优化,更是范式的转移:
- 语义带宽缩放定律: 未来模型优化不仅仅依靠增加参数量,还可以通过增加 K(每个向量包含的 Token 数)来提升效率。
- 连续即未来: 连续表示能承载比离散 ID 更丰富的信息,是通往超高效 AI 模型的关键路径。