传统大型语言模型(LLM)受限于逐个生成 Token 的机制。虽然模型参数已扩展至万亿级别,但基本预测单元——离散 Token——的信息密度极低(仅 15-18 bits)。
解决思路: CALM 引入新的扩展维度——语义带宽 (Semantic Bandwidth)。不再预测下一个“Token”,而是预测一个能浓缩多个 Token 信息的“连续向量”。
CALM 利用高保真自编码器将 K 个 Token 压缩为一个连续向量 z,然后在向量空间进行自回归建模,最后解码回文本。这使生成步骤减少了 K 倍。
负责 Token 与向量间的双向映射。不仅要重构准确(>99.9%),更要鲁棒,防止向量微小扰动导致重构结果面目全非。
在连续向量空间预测。由于没有有限词汇表,无法使用 Softmax,必须采用无似然 (Likelihood-free) 方法。
普通自编码器过于“脆弱”。CALM 采用变分自编码器 (VAE) 并结合多项正则化技术来平滑潜在流形:
在连续域中,无法计算概率密度。CALM 开发了一套全新的工具:
代替 Cross-Entropy,通过样本间的距离来评估分布质量。它包含两个竞争项:多样性 (Diversity) 和 保真度 (Fidelity)。
基于经典的 Brier Score,利用样本碰撞概率进行无偏估计,替代 Perplexity,用于公平评估生成质量。
通过拒绝采样算法,在仅有黑盒采样器的情况下,模拟出调整 Temperature 后的分布,实现可控生成。
实验证明,CALM 在达到甚至超越标准 Transformer 性能的同时,大幅降低了计算消耗。
*基于相同或更优性能下的对比实验结果 (Transformer-S vs CALM-L)
CALM 的成功验证了“语义带宽”作为 LLM 扩展新维度的可行性。它不仅是工程上的优化,更是范式的转移:
还没有人回复