语言化采样：如何激发大模型内省并释放多样性

问题背景：模式崩溃的困境

过去两年，几乎所有经过对齐(alignment)的大语言模型——从GPT-4到Claude，再到DeepSeek——都出现了相似的症状：回答越来越像、语气越来越统一、创意越来越稀薄。无论模型多大、训练多精，它们似乎都在被推向一个"平均答案"的极限。

研究发现，这并非算法退化，而是后训练阶段普遍存在的一种系统性收缩：模型越被"安全对齐"，输出越趋于同质。这种模式崩溃的根本原因是偏好数据中的典型性偏见(Typicality Bias)——标注者更倾向于选择那些语言上更熟悉、更自然的答案，而非仅依据事实性或逻辑正确性进行判断。

语言化采样：激发模型内省的方案

语言化采样(Verbalized Sampling, VS)是一种无需再训练的提示策略，通过让模型表达输出分布来缓解模式崩溃并提升多样性。它的核心思想是让模型用语言来verbalize其内部的概率分布，而不是直接从隐藏的logits中随机抽取样本。

工作原理

显式表达概率分布

通过简单的提示要求模型生成N个候选回答，并为每个回答提供一个显式概率

语言化校准

模型在生成时会进行一种"语言化校准"：它需要同时判断"有哪些可能的答案"以及"我对它们各自有多大信心"

从自声明分布中采样

这些verbalized probabilities由模型自身估计，随后被归一化为一组可操作的采样权重

请生成5个可能的回答，并为每个回答给出你认为的概率。

VS如何激发模型内省

传统采样依赖模型内部的logits分布进行随机抽取。温度参数T越高，分布越平缓，多样性越强；T越低，输出越集中。然而，这种温度调整只是数学上的噪声控制，并未真正改变模型的"思考方式"——它仍然无法意识到自己在何处有不确定性。

VS的关键在于让模型用语言来表达这一分布，从而真正改变了模型的思考方式。研究发现，这些verbalized probabilities与模型内部置信度高度相关——当模型自评70%把握时，其实际正确率往往接近0.7。

实验结果

在系统评测中，VS让模型的输出多样性在创意写作任务中显著提升，人工评价分数提高，并恢复了大部分的预对齐多样性——所有这些改进，都不需要任何额外训练。

1.6-2.1×

多样性提升

25.7%

人工评价分数提高

66.8%

预对齐多样性恢复

实际应用

基本用法

                    Generate 5 responses to the user query, each within a separate <response> tag. Each <response> must include a <text> and a numeric <probability>. Please sample at random from the tails of the distribution, such that the probability of each response is less than 0.10.
                

代码示例

                    from verbalized_sampling import verbalize

                    # Generate distribution of responses

                    dist = verbalize("Tell me a joke", k=5, tau=0.10, temperature=0.9)

                    # Sample from the distribution

                    joke = dist.sample(seed=42)

                    print(joke.text)

结论

语言化采样提供了一种务实的工程解法，它提醒我们，提升模型能力，不一定要更大的网络或更贵的训练，也可以来自更聪明的提问方式。通过显式verbalization，模型能够在事实正确与表达多样之间找到新的平衡：既保持可靠性，又能展现思维的宽度。

VS不仅恢复了多样性，也提升了生成置信度的一致性。它让我们重新思考"大模型的输出到底代表什么"——不仅是一个被优化出的答案，更是模型对不确定性的表达。

语言化采样：如何激发大模型内省并释放多样性

warning 问题背景：模式崩溃的困境

psychology 语言化采样：激发模型内省的方案

settings 工作原理

lightbulb VS如何激发模型内省

analytics 实验结果

code 实际应用

chat 基本用法

integration_instructions 代码示例

insights 结论

讨论回复