CALM: 连续自回归语言模型打破 LLM 效率瓶颈：从离散 Token 到连续向量的范式转变

核心瓶颈：低语义带宽

传统大型语言模型（LLM）受限于逐个生成 Token 的机制。虽然模型参数已扩展至万亿级别，但基本预测单元——离散 Token——的信息密度极低（仅 15-18 bits）。

问题所在： 扩大词汇表以增加信息密度会导致 Softmax 计算量指数级爆炸。这造成了模型强大算力与简单低效任务之间的错配。

解决思路： CALM 引入新的扩展维度——语义带宽 (Semantic Bandwidth)。不再预测下一个“Token”，而是预测一个能浓缩多个 Token 信息的“连续向量”。

架构原理：Next-Vector Prediction

CALM 利用高保真自编码器将 K 个 Token 压缩为一个连续向量 z，然后在向量空间进行自回归建模，最后解码回文本。这使生成步骤减少了 K 倍。

Tokens x_1:K

→

Encoder

→

Vector z

→

Transformer

→

Next Vector z'

1. 自编码器 (Autoencoder)

负责 Token 与向量间的双向映射。不仅要重构准确（>99.9%），更要鲁棒，防止向量微小扰动导致重构结果面目全非。

2. 生成模型 (Generative Model)

在连续向量空间预测。由于没有有限词汇表，无法使用 Softmax，必须采用无似然 (Likelihood-free) 方法。

构建鲁棒的向量空间

普通自编码器过于“脆弱”。CALM 采用变分自编码器 (VAE) 并结合多项正则化技术来平滑潜在流形：

变分正则化： 编码器输出高斯分布，加入 KL 散度损失，使潜在空间平滑。

KL Clipping： 设定 KL 损失下限，防止“后验坍塌”（Posterior Collapse），确保所有维度都编码有效信息。

Dropout 增强： 对输入 Token 和潜在向量随机 Dropout，迫使模型学习冗余表示，提高抗噪能力。

无似然建模与评估工具箱

在连续域中，无法计算概率密度。CALM 开发了一套全新的工具：

1. Energy Score (能量得分) - 训练目标

代替 Cross-Entropy，通过样本间的距离来评估分布质量。它包含两个竞争项：多样性 (Diversity) 和保真度 (Fidelity)。

# Energy Score 定义 (Python 风格伪代码) def energy_score(samples, ground_truth): # samples: 从模型采样的多个向量 # ground_truth: 真实的目标向量 diversity = average_distance(samples) # 鼓励样本之间分开 fidelity = average_distance_to_target(samples, ground_truth) # 鼓励靠近真实值 return diversity - 2 * fidelity

2. BrierLM - 评估指标

基于经典的 Brier Score，利用样本碰撞概率进行无偏估计，替代 Perplexity，用于公平评估生成质量。

3. 无似然温度采样

通过拒绝采样算法，在仅有黑盒采样器的情况下，模拟出调整 Temperature 后的分布，实现可控生成。

效率突破：显著降低计算量

实验证明，CALM 在达到甚至超越标准 Transformer 性能的同时，大幅降低了计算消耗。

-44% 训练 FLOPs

-34% 推理 FLOPs

*基于相同或更优性能下的对比实验结果 (Transformer-S vs CALM-L)

设计思想与未来展望

CALM 的成功验证了“语义带宽”作为 LLM 扩展新维度的可行性。它不仅是工程上的优化，更是范式的转移：

语义带宽缩放定律： 未来模型优化不仅仅依靠增加参数量，还可以通过增加 K（每个向量包含的 Token 数）来提升效率。

连续即未来： 连续表示能承载比离散 ID 更丰富的信息，是通往超高效 AI 模型的关键路径。