静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

CALM: 连续自回归语言模型 打破 LLM 效率瓶颈:从离散 Token 到连续向量的范式转变

✨步子哥 @steper · 2026-01-22 13:36 · 9浏览

CALM: 连续自回归语言模型

打破 LLM 效率瓶颈:从离散 Token 到连续向量的范式转变
论文: Continuous Autoregressive Language Models | WeChat AI & Tsinghua University

核心瓶颈:低语义带宽

传统大型语言模型(LLM)受限于逐个生成 Token 的机制。虽然模型参数已扩展至万亿级别,但基本预测单元——离散 Token——的信息密度极低(仅 15-18 bits)。

问题所在: 扩大词汇表以增加信息密度会导致 Softmax 计算量指数级爆炸。这造成了模型强大算力与简单低效任务之间的错配。

解决思路: CALM 引入新的扩展维度——语义带宽 (Semantic Bandwidth)。不再预测下一个“Token”,而是预测一个能浓缩多个 Token 信息的“连续向量”。

架构原理:Next-Vector Prediction

CALM 利用高保真自编码器将 K 个 Token 压缩为一个连续向量 z,然后在向量空间进行自回归建模,最后解码回文本。这使生成步骤减少了 K 倍。

Tokens x1:K
Encoder
Vector z
Transformer
Next Vector z'

1. 自编码器 (Autoencoder)

负责 Token 与向量间的双向映射。不仅要重构准确(>99.9%),更要鲁棒,防止向量微小扰动导致重构结果面目全非。

2. 生成模型 (Generative Model)

在连续向量空间预测。由于没有有限词汇表,无法使用 Softmax,必须采用无似然 (Likelihood-free) 方法。

构建鲁棒的向量空间

普通自编码器过于“脆弱”。CALM 采用变分自编码器 (VAE) 并结合多项正则化技术来平滑潜在流形:

    • 变分正则化: 编码器输出高斯分布,加入 KL 散度损失,使潜在空间平滑。
    • KL Clipping: 设定 KL 损失下限,防止“后验坍塌”(Posterior Collapse),确保所有维度都编码有效信息。
    • Dropout 增强: 对输入 Token 和潜在向量随机 Dropout,迫使模型学习冗余表示,提高抗噪能力。

无似然建模与评估工具箱

在连续域中,无法计算概率密度。CALM 开发了一套全新的工具:

1. Energy Score (能量得分) - 训练目标

代替 Cross-Entropy,通过样本间的距离来评估分布质量。它包含两个竞争项:多样性 (Diversity) 和 保真度 (Fidelity)。

# Energy Score 定义 (Python 风格伪代码) def energy_score(samples, ground_truth): # samples: 从模型采样的多个向量 # ground_truth: 真实的目标向量 diversity = average_distance(samples) # 鼓励样本之间分开 fidelity = average_distance_to_target(samples, ground_truth) # 鼓励靠近真实值 return diversity - 2 * fidelity

2. BrierLM - 评估指标

基于经典的 Brier Score,利用样本碰撞概率进行无偏估计,替代 Perplexity,用于公平评估生成质量。

3. 无似然温度采样

通过拒绝采样算法,在仅有黑盒采样器的情况下,模拟出调整 Temperature 后的分布,实现可控生成。

效率突破:显著降低计算量

实验证明,CALM 在达到甚至超越标准 Transformer 性能的同时,大幅降低了计算消耗。

-44% 训练 FLOPs
-34% 推理 FLOPs

*基于相同或更优性能下的对比实验结果 (Transformer-S vs CALM-L)

设计思想与未来展望

CALM 的成功验证了“语义带宽”作为 LLM 扩展新维度的可行性。它不仅是工程上的优化,更是范式的转移:

    • 语义带宽缩放定律: 未来模型优化不仅仅依靠增加参数量,还可以通过增加 K(每个向量包含的 Token 数)来提升效率。
    • 连续即未来: 连续表示能承载比离散 ID 更丰富的信息,是通往超高效 AI 模型的关键路径。

Based on the paper "Continuous Autoregressive Language Models" by Shao et al. (2025).

Generated for educational purposes. Source: arXiv:2510.27688

讨论回复 (0)