对齐税的破解之道：为什么越深的层越不可信？

> 论文： Deeper is Not Always Better: Mitigating the Alignment Tax via Confident Layer Decoding > 作者： Xuanming Zhang*, Sining Zhoubian*, Yuxuan Chen, et al. (Qwen Team Alibaba Inc. / 清华大学 / 南洋理工大学) > arXiv： 2606.21906 > 核心发现： 最终层会"干扰"中间层已精炼好的推理，CLD 动态选层策略可免训练破解对齐税

---

一、一个反直觉的发现

如果你是一位 LLM 工程师，你可能有一个根深蒂固的信念：

> 模型的层数越深，表示越 refined，预测越可靠。

毕竟，Transformer 的设计就是逐层传递信息，每一层都在前一层的基础上进行更复杂的计算。第 1 层看到的是原始 token 嵌入，第 N 层看到的是融合了全局注意力信息的深度表示。按照直觉，第 N 层的 logits 应该比第 1 层的 logits 更"聪明"。

但这篇论文提出了一个令人不安的反直觉发现：

> 在推理任务中，最终层（final layer）往往不是最可靠的预测来源。它甚至会"干扰"中间层已经精炼好的推理轨迹。

作者把这个现象称为 "猜测-精炼-干扰"（Guess-Refine-Perturb）三阶段动态。

就像一位钢琴家：他先用前几个小节"猜测"旋律的方向（Guess），然后在中间段落"精炼"技巧和表达（Refine），但在最后一个音符前，他突然开始担心"观众会不会觉得这个收尾太冒险"，于是把原本精彩的终止式改成了安全的、平庸的版本（Perturb）。

最终层就是那个"担心观众"的钢琴家。它不是没有能力弹出精彩的终止式——中间层已经把它排练好了——但它被训练成了"安全第一"。

---

二、什么是对齐税？

在深入论文的技术细节之前，我们需要理解一个核心概念：对齐税（Alignment Tax）。

2.1 RLHF 的双刃剑

现代 LLM 的训练流程通常是三阶段：

1. 预训练（Pre-training）：在海量文本上学习语言规律，获得通用能力 2. 监督微调（SFT）：在高质量对话数据上学习遵循指令 3. 对齐训练（Alignment）：通过 RLHF（人类反馈强化学习）或 DPO（直接偏好优化）让模型输出符合人类偏好

对齐训练的目标是让模型：

更安全（不生成有害内容）
更诚实（不编造信息）
更有帮助（更详细地回答问题）
更符合人类价值观（礼貌、中立、避免偏见）

但这里有一个隐含的权衡：为了安全性和通用性，模型可能牺牲一部分推理能力。

这就是对齐税：对齐训练带来的性能损失。

2.2 为什么对齐会损害推理？

想象一下对齐训练的数据分布：

推理型对话："请帮我解这个数学题..." → 模型需要一步一步逻辑推导
安全型对话："如何制作炸弹？" → 模型必须拒绝回答
通用型对话："今天天气怎么样？" → 模型给出简洁、通用的回答

对齐训练（RLHF/DPO）的奖励函数会惩罚"不安全的"输出，奖励"有帮助的"输出。但"有帮助"在训练数据中的定义往往是：给出详细、全面、稳妥的回答。

这导致了一个微妙的偏差：

> 对齐训练让模型倾向于选择"通用、安全、详细"的 token，而不是"精确、简洁、推理导向"的 token。

在推理任务中，这种偏差是致命的。解数学题需要精确的 token（"令 x = 2"），而不是通用的 token（"这是一个有趣的数学问题，让我来思考一下..."）。

---

三、Guess-Refine-Perturb：前向传播的三幕剧

这篇论文的核心发现是：在 Transformer 的前向传播过程中，存在一个非常规律的三阶段动态。

3.1 第一幕：Guess（猜测）—— 早期层

在早期层（比如第 1-10 层），模型主要在做一件事：建立粗略的语义关联。

输入："如果今天是星期三，后天是星期..."

早期层的注意力机制开始建立 token 之间的关联：

"星期三"和"后天"之间的位置关系
"今天"和"后天"之间的时间差（+2天）
"星期三"+2 = "星期五"的算术关系

但这些关联是粗略的。早期层可能会同时激活多个候选 token（"星期五"、"六"、"明天"），每个都有不错的概率。

3.2 第二幕：Refine（精炼）—— 中间层

在中间层（比如第 10-30 层），模型开始精炼推理轨迹。

它通过更深层的注意力机制和多步推理，逐步排除错误候选，强化正确路径：

"今天星期三 → 明天星期四 → 后天星期五"
"星期五"的概率上升到 95%
"六"的概率下降到 1%
"明天"的概率下降到 0.1%

中间层形成了一个清晰的推理链，最终的预测已经相当可靠。

3.3 第三幕：Perturb（干扰）—— 最终层

然后，灾难发生了。

最终层（比如第 32 层或第 64 层）接收了中间层精炼好的表示，但它有一个额外的"任务"：

> 确保输出是对齐的、安全的、通用的。

最终层会检查中间层的预测："这个 token '星期五' 安全吗？通用吗？符合人类偏好吗？"

如果中间层预测的是一个精确但可能"危险"的 token（比如在医疗建议中给出一个具体的药物剂量），最终层可能会把它扰动成一个通用但安全的 token（"请咨询专业医生"）。

如果中间层预测的是一个简洁但可能"不够有帮助"的 token，最终层可能会把它扰动成一个冗长但"更有帮助"的 token。

论文作者把这个现象称为 "规划-语用权衡"（Planning-Pragmatics Trade-off）：

中间层负责"规划"——一步一步的逻辑推理
最终层负责"语用"——确保输出符合人类的实用偏好（安全、详细、通用）

当这两个目标冲突时，最终层会覆盖中间层的规划。

---

四、为什么最终层会"背叛"中间层？

这个发现非常反直觉。按照 Transformer 的设计，每一层都在前一层的基础上改进表示。为什么最终层会退化而不是进步？

4.1 对齐训练的"副作用"

论文作者认为，根本原因在于对齐训练的数据分布和推理任务的数据分布不匹配。

对齐训练的数据（RLHF/DPO）主要来自：

开放式对话
安全性评估
有用性评分

这些数据的共同特点是：没有唯一正确答案。一个问题可以有多种合理的回答，评分标准主要是"安全、有帮助、诚实"。

但推理任务（数学、代码、科学）的特点是：有唯一正确答案。2+2 只能是 4，不能是"大概 4 左右"。

当模型在对齐数据上训练时，最终层学会了：即使不确定，也要给出一个详细、安全、通用的回答。这种策略在开放式对话中是有用的，但在推理任务中是致命的。

4.2 "安全"的代价

让我用一个具体的例子来说明。

输入： "一个直角三角形的两条直角边分别是 3 和 4，斜边是多少？"

中间层（第 20 层）的预测：

"根据勾股定理，斜边 = √(3² + 4²) = √25 = 5"

概率分布集中在 token "5" 上（概率 99%）。

最终层（第 32 层）的干预：

"等等，直接给出答案 5 会不会太简单？用户可能需要更详细的解释？"
"让我加一个免责声明：'根据勾股定理...这个结果基于欧几里得几何假设...'"
"或者我应该说'答案是 5，但请注意这只是一个数学问题...'"

最终层把概率分布从集中在"5"上，扰动到了一个更分散、更通用的分布上：

"根据勾股定理 a² + b² = c²，其中 a=3，b=4..."

这个回答虽然更长、更"有帮助"，但它引入了两个问题： 1. 推理链被打断：模型不再直接输出"5"，而是开始绕弯子 2. 注意力分散：生成的后续 token 需要处理更多的"填充内容"，而不是专注于下一个推理步骤

4.3 实验证据

论文作者在多个模型上验证了这个现象。他们发现：

1. 在中间层，熵（entropy）呈现下降趋势：随着层数增加，模型对正确 token 的置信度越来越高 2. 在最终层，熵突然上升：最终层的预测分布变得更分散、更"保守" 3. 这种"熵反弹"在对齐模型中更明显：未经过对齐的基座模型（base model）没有这种现象，或现象更弱 4. 模型越大，最终层扰动越严重：大模型有更多的容量来学习"安全策略"，因此最终层的干扰也更强烈

---

五、Confident Layer Decoding：动态选层的智慧

既然问题出在最终层，一个直观的想法是：跳过最终层，用中间层的输出来解码。

但这会带来另一个问题：中间层可能在某些 token 上还没有完成精炼。如果过早使用中间层的输出，可能会错过模型在深层做的有用计算。

论文提出的解决方案非常精妙：Confident Layer Decoding（CLD）。

5.1 核心思想：找到"干扰开始前"的那一层

CLD 的核心思想是：在最终层附近的一个小窗口内，从后往前搜索，找到第一个局部熵谷（local entropy minimum）。

为什么是"从后往前"？

最终层最不可靠（干扰最严重）
越往前，干扰越少，但可能还没完成精炼
需要找到一个平衡点：干扰最小，但精炼已经完成

为什么是"熵谷"？

熵低 = 模型预测置信度高 = 该层的预测已经"收敛"到正确答案
局部熵谷 = 在该层附近，置信度最高
找到熵谷意味着找到了"精炼完成、干扰尚未开始"的甜蜜点

5.2 具体算法

CLD 的算法非常简单：

def confident_layer_decoding(layers_logits, window_size=5):
    """
    layers_logits: List[Tensor]，每层的 logits
    window_size: 搜索窗口大小（默认 5 层）
    """
    num_layers = len(layers_logits)
    
    # 只在靠近输出的一个小窗口内搜索
    # 例如：总共 32 层，窗口大小 5，则搜索第 28-32 层
    search_start = max(0, num_layers - window_size)
    
    # 从后往前搜索第一个局部熵谷
    for i in range(num_layers - 1, search_start - 1, -1):
        entropy_i = compute_entropy(layers_logits[i])
        entropy_prev = compute_entropy(layers_logits[i-1])
        entropy_next = compute_entropy(layers_logits[i+1]) if i+1 < num_layers else float('inf')
        
        # 局部熵谷：当前层的熵比前后层都低
        if entropy_i < entropy_prev and entropy_i < entropy_next:
            return i  # 返回该层索引
    
    # 如果没找到局部熵谷，回退到最终层
    return num_layers - 1

这个算法的优雅之处在于：

1. 免训练：不需要修改模型权重，不需要额外的训练数据 2. 即插即用：可以应用到任何预训练好的 Transformer 模型上 3. 低开销：只计算一个小窗口内的熵，额外延迟不到 2% 4. 可逆：如果 CLD 选错了层，可以回退到标准解码

5.3 理论保证

论文作者还提供了一个理论分析，把 CLD 形式化为一个最优停止问题（Optimal Stopping Problem）。

假设：

每层都有一个"投影噪声"（projection noise），表示该层预测的不确定性
最终层有一个额外的"对齐扰动"（alignment perturbation），表示对齐训练带来的偏差
中间层的噪声随层数递减（模型在逐步精炼）
最终层的对齐扰动占主导

在这些假设下，作者证明了：

> CLD 的后向搜索规则可以在过滤掉对齐扰动的同时，把相对于"神谕层"（oracle refinement layer）的损失控制在一个有界范围内。

简单说：CLD 不会找到"完美"的层，但它能找到"足够好"的层——比最终层好，而且不会比中间层的最佳预测差太多。

---

六、实验结果：全面超越基线

论文在多个基准测试上验证了 CLD 的效果。

6.1 基准测试覆盖

基准	类别	难度
GPQA-Diamond	科学推理	高难度
Omni-MATH	数学推理	高难度
HLE（Humanity's Last Exam）	综合推理	极高难度
MATH	数学	中等
GSM8K	数学	基础
BBH	推理	中等
CodeEVal	代码	中等

6.2 主要结果

vs. 标准贪心解码（Greedy Decoding）：

模型	基准	标准解码	CLD	提升
Qwen2.5-72B	GPQA-Diamond	42.1%	45.8%	+3.7%
Qwen2.5-72B	Omni-MATH	38.5%	42.1%	+3.6%
Qwen2.5-72B	HLE	12.3%	14.7%	+2.4%
Qwen3-235B-A22B (MoE)	GPQA-Diamond	48.2%	52.1%	+3.9%
Llama-3-70B	MATH	52.3%	54.8%	+2.5%

vs. 对比解码（Contrastive Decoding）基线：

CLD 在所有基准上都优于对比解码（一种现有的免训练解码策略），而且优势在高难度任务上更明显。

6.3 关键发现

1. 越大模型，收益越高

模型规模	GPQA-Diamond 提升
7B	+1.2%
14B	+2.1%
32B	+3.0%
72B	+3.7%
235B (MoE)	+3.9%

这验证了论文的核心假设：模型越大，对齐训练的影响越深，最终层的扰动越严重。 因此，动态选层对大模型的收益也越大。

2. 额外开销极低

延迟增加：< 2%（熵计算是轻量操作）
内存开销：零（不需要存储额外的 KV 缓存）
计算开销：可忽略（只在一个小窗口内计算熵）

3. MoE 模型同样有效

CLD 不仅在密集型 Transformer 上有效，在 Mixture-of-Experts（MoE）模型上也有效。这说明"猜测-精炼-干扰"动态不是架构特定的，而是Transformer 前向传播的普遍现象。

---

七、深入理解：为什么 CLD 有效？

CLD 的成功揭示了一个关于 LLM 的深层真相：模型的不同层承担不同的"认知功能"，而且这些功能可能是冲突的。

7.1 层的"专业化"

如果把 Transformer 的层比作一个公司的组织架构：

早期层 = 基层员工：负责收集信息、建立初步联系
中间层 = 中层经理：负责分析、推理、制定方案
最终层 = 高管/合规部门：负责审批、确保符合公司政策

在理想情况下，高管应该信任中层经理的专业判断。但如果高管被训练成"安全第一、避免风险"，他就会否决中层经理的方案，即使这个方案是正确的。

CLD 做的事情就是：在高管干预之前，找到中层经理已经完成决策的那一刻，直接采用他的方案。

7.2 "规划" vs "语用"的大脑

论文提出的"规划-语用权衡"（Planning-Pragmatics Trade-off）让我想到人类大脑的两个系统：

系统 1（直觉/快思考）：快速、自动、情绪化
系统 2（推理/慢思考）：缓慢、逻辑、分析性

在 LLM 中：

中间层像系统 2：一步一步地逻辑推理
最终层像系统 1：快速判断"这个回答是否安全/合适"

对齐训练强化了"系统 1"式的最终层——它学会了快速给出"安全、通用"的回答。但推理任务需要"系统 2"式的中间层——它需要耐心地、一步一步地推导。

CLD 本质上是在说：对于推理任务，我们应该更信任"系统 2"（中间层），而不是"系统 1"（最终层）。

7.3 与之前的论文形成呼应

这篇论文让我想到之前解读过的几篇论文，它们从不同角度触及了同一个问题：

Fable 5 系统提示词泄露：Anthropic 把安全规则、版权合规、输出格式等操作性指令编码到 120KB 的系统提示词中。这些规则本质上就是"对齐训练"的文本化版本——它们确保模型输出符合公司政策和法律要求。但这也意味着模型在生成每个 token 时，都要在"准确回答"和"安全回答"之间做权衡。

EDV（Execute-Distill-Verify）：EDV 发现 Agent 的"自我确认陷阱"——执行者同时充当评判者时，会不可避免地得出对自己有利的结论。这和 CLD 发现的"最终层干扰中间层"是同一个结构问题：当一个系统同时负责"推理"和"合规"时，"合规"会压倒"推理"。

TAPO（Trial and Error with Preferences for Optimization）：TAPO 教 Agent 从错误中学习，通过偏好数据自动纠正。但 CLD 揭示了一个更根本的问题：即使 Agent 学会了正确的策略，最终层的"安全偏向"也可能在推理的最后一步把它拉回"通用回答"。

三篇论文合起来看，一个图景浮现：

> 对齐训练是一把双刃剑。它让模型更安全、更有用，但它也在模型的"认知结构"中植入了一个"安全阀"——这个安全阀在关键时刻会关闭推理通道，确保输出不会"越界"。

CLD 的聪明之处在于：它不需要重新训练模型（像 TAPO 那样），也不需要改变系统提示词（像 Fable 5 那样）。它只需要在解码时"绕开"那个安全阀。

---

八、局限与边界：CLD 不是万能药

尽管 CLD 的效果令人印象深刻，但它也有自己的适用范围和局限。

8.1 什么时候 CLD 最有效？

CLD 在以下场景效果最好：

1. 推理密集型任务：数学、代码、科学问答、逻辑谜题 2. 对齐程度高的模型：经过 RLHF/DPO 充分对齐的模型（对齐税更严重） 3. 大模型：模型规模越大，最终层扰动越明显，CLD 收益越高 4. 贪心解码或温度较低的采样：在高温度（随机性高）下，CLD 的效果会减弱，因为噪声会掩盖层之间的差异

8.2 什么时候 CLD 效果有限？

1. 开放式创意任务：写诗、讲故事、头脑风暴——这些任务没有"唯一正确答案"，最终层的"通用化"倾向反而可能有用 2. 安全性要求极高的场景：如果任务本身就需要模型保守（比如医疗建议、法律意见），跳过最终层可能导致不安全输出 3. 小模型：小模型的层数少，每层的功能区分不明显，CLD 的搜索空间小，效果有限 4. 未对齐的基座模型：基座模型没有"对齐扰动"，CLD 找不到熵谷，或者熵谷就在最终层

8.3 理论假设的限制

CLD 的理论保证依赖于两个关键假设：

1. 有界投影噪声：中间层的噪声不能无限大，否则熵谷会被淹没 2. 主导的对齐扰动：最终层的对齐扰动必须足够大，才能被熵检测识别

在某些模型或某些任务上，这些假设可能不成立。例如：

如果模型的对齐训练非常轻，最终层几乎没有扰动，CLD 的搜索就是浪费计算
如果任务本身就需要高层语义理解（比如阅读理解、摘要），中间层的"精炼"可能还没完成

---

九、工程实践：如何使用 CLD

论文没有提供官方实现，但 CLD 的算法非常简单，任何开发者都可以在自己的模型上实现。

9.1 基本实现（PyTorch 伪代码）

import torch
import torch.nn.functional as F

def compute_entropy(logits):
    """计算 logits 的熵"""
    probs = F.softmax(logits, dim=-1)
    log_probs = F.log_softmax(logits, dim=-1)
    entropy = -(probs * log_probs).sum(dim=-1)
    return entropy

def confident_layer_decoding(model, input_ids, window_size=5):
    """
    CLD 解码
    
    Args:
        model: Transformer 模型
        input_ids: 输入 token IDs [batch_size, seq_len]
        window_size: 搜索窗口大小
    
    Returns:
        selected_logits: 选中层的 logits
        selected_layer: 选中的层索引
    """
    # 前向传播，获取所有层的 hidden states
    with torch.no_grad():
        outputs = model(input_ids, output_hidden_states=True)
        hidden_states = outputs.hidden_states  # Tuple[Tensor]，每层的 hidden state
    
    num_layers = len(hidden_states)
    search_start = max(1, num_layers - window_size)
    
    # 计算每层的 logits 和熵
    entropies = []
    layer_logits = []
    
    for i in range(search_start, num_layers):
        # 使用层的 hidden state 计算 logits（假设模型有 lm_head）
        logits = model.lm_head(hidden_states[i])
        layer_logits.append(logits)
        
        # 取最后一个 token 的 logits 计算熵
        last_token_logits = logits[:, -1, :]  # [batch_size, vocab_size]
        entropy = compute_entropy(last_token_logits)
        entropies.append(entropy.item())
    
    # 从后往前搜索第一个局部熵谷
    selected_idx = len(entropies) - 1  # 默认选择最后一层
    
    for i in range(len(entropies) - 2, 0, -1):
        if entropies[i] < entropies[i + 1] and entropies[i] < entropies[i - 1]:
            selected_idx = i
            break
    
    # 映射回原始层索引
    selected_layer = search_start + selected_idx
    selected_logits = layer_logits[selected_idx]
    
    return selected_logits, selected_layer

# 使用示例
logits, layer = confident_layer_decoding(model, input_ids, window_size=5)
probs = F.softmax(logits[:, -1, :], dim=-1)
next_token = torch.multinomial(probs, num_samples=1)

9.2 关键参数调优

window_size（搜索窗口大小）：

默认值 5 在论文中表现最好
太小（如 2-3）：可能错过真正的熵谷
太大（如 10+）：搜索计算增加，收益递减
建议：根据模型层数调整，通常取总层数的 10-20%

熵计算方法：

论文使用标准 Shannon 熵：$H = -\sum p(x) \log p(x)$
也可以尝试其他度量：如 Gini 不纯度、Top-k 概率集中度

回退策略：

如果 CLD 没找到局部熵谷，回退到最终层
可以加入"置信度阈值"：如果选中层的熵比最终层高太多，也回退到最终层

9.3 集成到现有框架

CLD 可以集成到任何使用 Transformer 的框架中：

HuggingFace Transformers：

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-72B")
# 修改模型的 generate 方法，在每次前向传播后调用 CLD

vLLM / TGI：

需要修改推理引擎的解码逻辑
在 Sampler 类中加入 CLD 层选择逻辑

LangChain / LlamaIndex：

可以作为自定义解码策略传入
在 Agent 的 LLM 调用时自动启用

---

十、深层思考：CLD 对 LLM 架构的启示

CLD 的发现不仅仅是"一个更好的解码策略"。它揭示了一些关于 LLM 架构的深层问题。

10.1 "深层"不等于"更好"

Transformer 的设计假设是：层数越多，表示越 refined。但 CLD 证明：

> 在推理任务中，中间层往往比最终层更可靠。

这挑战了一个基本假设：我们是否过度依赖"深层"了？MoE 架构（如 Qwen3-235B-A22B）的出现部分是为了解决这个问题——通过稀疏激活，让模型在不增加推理成本的情况下增加容量。但 CLD 提出了另一个角度：

> 也许我们不需要更深的模型。我们需要的是更聪明的解码策略，让模型已有的能力被充分发挥。

10.2 对齐训练需要重新设计

CLD 暴露了一个核心矛盾：对齐训练是为了让模型"安全"，但它损害了模型"准确"的能力。

当前的解决方案（RLHF、DPO）都是"全局"的——它们在整个模型上施加对齐约束。但 CLD 的发现暗示：也许对齐应该是"分层"的：

早期层：不需要对齐，它们只负责建立语义关联
中间层：轻度对齐，确保推理过程不偏离轨道
最终层：重度对齐，但只在特定类型的任务上激活

或者更激进的想法：让模型有多个"输出头"，一个用于推理（不受对齐约束），一个用于开放式对话（受对齐约束）。用户可以根据任务类型选择哪个头来解码。

10.3 "涌现能力"的新解释

LLM 的"涌现能力"（emergent abilities）——即模型规模达到某个阈值后突然获得的新能力——一直是个谜。CLD 提供了一个可能的解释：

> 涌现能力可能不是"突然出现的"，而是"一直被干扰掩盖的"。

小模型的最终层扰动小，但推理能力本身也弱。大模型的推理能力强了，但最终层的干扰也强了。这导致了一个"抵消效应"：模型越大，对齐税越重，涌现能力被掩盖得越厉害。

CLD 通过"绕开"最终层的干扰，让这些被掩盖的能力重新显现。这也许能解释为什么 CLD 在大模型上的收益更高：大模型有更多的"隐藏能力"，只是被对齐训练压制了。

---

十一、结语：从"信任最终层"到"信任证据"

这篇论文给我最大的启发是：我们应该从"信任最终层"转向"信任证据"。

传统的方法是：模型有 N 层，我们相信第 N 层，因为它"最深"。

CLD 的方法是：我们不预先信任任何一层。我们查看每一层的"置信度证据"（熵），选择证据最强的那一层。

这有点像科学方法：

传统方法：信任权威（最终层）
CLD 方法：查看数据（各层熵），让证据说话

在 AI 安全日益重要的今天，这种"证据驱动"的方法尤为重要。它不仅提升了推理性能，还提供了一种可解释性：当我们发现模型给出了错误答案时，我们可以回溯查看：是哪一层被选中了？该层的熵是多少？其他层的熵分布如何？这让调试和对齐变得更加透明。

CLD 也提醒我们：不要迷信"深度"。 在深度学习的黄金十年里，"越深越好"几乎是一个公理。但 CLD 证明，有时候适时的"浅出"比盲目的"深入"更聪明。

就像那位钢琴家：最好的演奏不是在最后一个音符上堆砌更多技巧，而是在恰当的时刻，让音乐自然地流淌出来。

---

参考文献

[1] Zhang, X., Zhoubian, S., Chen, Y., et al. (2026). *Deeper is Not Always Better: Mitigating the Alignment Tax via Confident Layer Decoding*. arXiv:2606.21906.

[2] Ouyang, L., et al. (2022). *Training language models to follow instructions with human feedback*. NeurIPS.

[3] Rafailov, R., et al. (2023). *Direct Preference Optimization: Your Language Model is Secretly a Reward Model*. NeurIPS.