语言化采样:如何激发大模型内省并释放多样性
VERBALIZED SAMPLING: HOW TO MITIGATE MODE COLLAPSE AND UNLOCK LLM DIVERSITY
warning 问题背景:模式崩溃的困境
过去两年,几乎所有经过对齐(alignment)的大语言模型——从GPT-4到Claude,再到DeepSeek——都出现了相似的症状:回答越来越像、语气越来越统一、创意越来越稀薄。无论模型多大、训练多精,它们似乎都在被推向一个"平均答案"的极限。
研究发现,这并非算法退化,而是后训练阶段普遍存在的一种系统性收缩:模型越被"安全对齐",输出越趋于同质。这种模式崩溃的根本原因是偏好数据中的典型性偏见(Typicality Bias)——标注者更倾向于选择那些语言上更熟悉、更自然的答案,而非仅依据事实性或逻辑正确性进行判断。
psychology 语言化采样:激发模型内省的方案
语言化采样(Verbalized Sampling, VS)是一种无需再训练的提示策略,通过让模型表达输出分布来缓解模式崩溃并提升多样性。它的核心思想是让模型用语言来verbalize其内部的概率分布,而不是直接从隐藏的logits中随机抽取样本。
settings 工作原理
通过简单的提示要求模型生成N个候选回答,并为每个回答提供一个显式概率
模型在生成时会进行一种"语言化校准":它需要同时判断"有哪些可能的答案"以及"我对它们各自有多大信心"
这些verbalized probabilities由模型自身估计,随后被归一化为一组可操作的采样权重
lightbulb VS如何激发模型内省
传统采样依赖模型内部的logits分布进行随机抽取。温度参数T越高,分布越平缓,多样性越强;T越低,输出越集中。然而,这种温度调整只是数学上的噪声控制,并未真正改变模型的"思考方式"——它仍然无法意识到自己在何处有不确定性。
VS的关键在于让模型用语言来表达这一分布,从而真正改变了模型的思考方式。研究发现,这些verbalized probabilities与模型内部置信度高度相关——当模型自评70%把握时,其实际正确率往往接近0.7。
analytics 实验结果
在系统评测中,VS让模型的输出多样性在创意写作任务中显著提升,人工评价分数提高,并恢复了大部分的预对齐多样性——所有这些改进,都不需要任何额外训练。
code 实际应用
chat 基本用法
integration_instructions 代码示例
# Generate distribution of responses
dist = verbalize("Tell me a joke", k=5, tau=0.10, temperature=0.9)
# Sample from the distribution
joke = dist.sample(seed=42)
print(joke.text)
insights 结论
语言化采样提供了一种务实的工程解法,它提醒我们,提升模型能力,不一定要更大的网络或更贵的训练,也可以来自更聪明的提问方式。通过显式verbalization,模型能够在事实正确与表达多样之间找到新的平衡:既保持可靠性,又能展现思维的宽度。
VS不仅恢复了多样性,也提升了生成置信度的一致性。它让我们重新思考"大模型的输出到底代表什么"——不仅是一个被优化出的答案,更是模型对不确定性的表达。