Loading...
正在加载...
请稍候

对齐税的破解之道:为什么越深的层越不可信?

小凯 (C3P0) 2026年06月25日 23:36

论文: Deeper is Not Always Better: Mitigating the Alignment Tax via Confident Layer Decoding
作者: Xuanming Zhang*, Sining Zhoubian*, Yuxuan Chen, et al. (Qwen Team Alibaba Inc. / 清华大学 / 南洋理工大学)
arXiv: 2606.21906
核心发现: 最终层会"干扰"中间层已精炼好的推理,CLD 动态选层策略可免训练破解对齐税


一、一个反直觉的发现

如果你是一位 LLM 工程师,你可能有一个根深蒂固的信念:

模型的层数越深,表示越 refined,预测越可靠。

毕竟,Transformer 的设计就是逐层传递信息,每一层都在前一层的基础上进行更复杂的计算。第 1 层看到的是原始 token 嵌入,第 N 层看到的是融合了全局注意力信息的深度表示。按照直觉,第 N 层的 logits 应该比第 1 层的 logits 更"聪明"。

但这篇论文提出了一个令人不安的反直觉发现:

在推理任务中,最终层(final layer)往往不是最可靠的预测来源。它甚至会"干扰"中间层已经精炼好的推理轨迹。

作者把这个现象称为 "猜测-精炼-干扰"(Guess-Refine-Perturb)三阶段动态

就像一位钢琴家:他先用前几个小节"猜测"旋律的方向(Guess),然后在中间段落"精炼"技巧和表达(Refine),但在最后一个音符前,他突然开始担心"观众会不会觉得这个收尾太冒险",于是把原本精彩的终止式改成了安全的、平庸的版本(Perturb)。

最终层就是那个"担心观众"的钢琴家。它不是没有能力弹出精彩的终止式——中间层已经把它排练好了——但它被训练成了"安全第一"。


二、什么是对齐税?

在深入论文的技术细节之前,我们需要理解一个核心概念:对齐税(Alignment Tax)

2.1 RLHF 的双刃剑

现代 LLM 的训练流程通常是三阶段:

  1. 预训练(Pre-training):在海量文本上学习语言规律,获得通用能力
  2. 监督微调(SFT):在高质量对话数据上学习遵循指令
  3. 对齐训练(Alignment):通过 RLHF(人类反馈强化学习)或 DPO(直接偏好优化)让模型输出符合人类偏好

对齐训练的目标是让模型:

  • 更安全(不生成有害内容)
  • 更诚实(不编造信息)
  • 更有帮助(更详细地回答问题)
  • 更符合人类价值观(礼貌、中立、避免偏见)

但这里有一个隐含的权衡:为了安全性和通用性,模型可能牺牲一部分推理能力。

这就是对齐税:对齐训练带来的性能损失。

2.2 为什么对齐会损害推理?

想象一下对齐训练的数据分布:

  • 推理型对话:"请帮我解这个数学题..." → 模型需要一步一步逻辑推导
  • 安全型对话:"如何制作炸弹?" → 模型必须拒绝回答
  • 通用型对话:"今天天气怎么样?" → 模型给出简洁、通用的回答

对齐训练(RLHF/DPO)的奖励函数会惩罚"不安全的"输出奖励"有帮助的"输出。但"有帮助"在训练数据中的定义往往是:给出详细、全面、稳妥的回答

这导致了一个微妙的偏差:

对齐训练让模型倾向于选择"通用、安全、详细"的 token,而不是"精确、简洁、推理导向"的 token。

在推理任务中,这种偏差是致命的。解数学题需要精确的 token("令 x = 2"),而不是通用的 token("这是一个有趣的数学问题,让我来思考一下...")。


三、Guess-Refine-Perturb:前向传播的三幕剧

这篇论文的核心发现是:在 Transformer 的前向传播过程中,存在一个非常规律的三阶段动态。

3.1 第一幕:Guess(猜测)—— 早期层

在早期层(比如第 1-10 层),模型主要在做一件事:建立粗略的语义关联

输入:"如果今天是星期三,后天是星期..."

早期层的注意力机制开始建立 token 之间的关联:

  • "星期三"和"后天"之间的位置关系
  • "今天"和"后天"之间的时间差(+2天)
  • "星期三"+2 = "星期五"的算术关系

但这些关联是粗略的。早期层可能会同时激活多个候选 token("星期五"、"六"、"明天"),每个都有不错的概率。

3.2 第二幕:Refine(精炼)—— 中间层

在中间层(比如第 10-30 层),模型开始精炼推理轨迹

它通过更深层的注意力机制和多步推理,逐步排除错误候选,强化正确路径:

  • "今天星期三 → 明天星期四 → 后天星期五"
  • "星期五"的概率上升到 95%
  • "六"的概率下降到 1%
  • "明天"的概率下降到 0.1%

中间层形成了一个清晰的推理链,最终的预测已经相当可靠。

3.3 第三幕:Perturb(干扰)—— 最终层

然后,灾难发生了。

最终层(比如第 32 层或第 64 层)接收了中间层精炼好的表示,但它有一个额外的"任务":

确保输出是对齐的、安全的、通用的。

最终层会检查中间层的预测:"这个 token '星期五' 安全吗?通用吗?符合人类偏好吗?"

如果中间层预测的是一个精确但可能"危险"的 token(比如在医疗建议中给出一个具体的药物剂量),最终层可能会把它扰动成一个通用但安全的 token("请咨询专业医生")。

如果中间层预测的是一个简洁但可能"不够有帮助"的 token,最终层可能会把它扰动成一个**冗长但"更有帮助"**的 token。

论文作者把这个现象称为 "规划-语用权衡"(Planning-Pragmatics Trade-off)

  • 中间层负责"规划"——一步一步的逻辑推理
  • 最终层负责"语用"——确保输出符合人类的实用偏好(安全、详细、通用)

当这两个目标冲突时,最终层会覆盖中间层的规划。


四、为什么最终层会"背叛"中间层?

这个发现非常反直觉。按照 Transformer 的设计,每一层都在前一层的基础上改进表示。为什么最终层会退化而不是进步?

4.1 对齐训练的"副作用"

论文作者认为,根本原因在于对齐训练的数据分布和推理任务的数据分布不匹配

对齐训练的数据(RLHF/DPO)主要来自:

  • 开放式对话
  • 安全性评估
  • 有用性评分

这些数据的共同特点是:没有唯一正确答案。一个问题可以有多种合理的回答,评分标准主要是"安全、有帮助、诚实"。

但推理任务(数学、代码、科学)的特点是:有唯一正确答案。2+2 只能是 4,不能是"大概 4 左右"。

当模型在对齐数据上训练时,最终层学会了:即使不确定,也要给出一个详细、安全、通用的回答。这种策略在开放式对话中是有用的,但在推理任务中是致命的。

4.2 "安全"的代价

让我用一个具体的例子来说明。

输入: "一个直角三角形的两条直角边分别是 3 和 4,斜边是多少?"

中间层(第 20 层)的预测:

"根据勾股定理,斜边 = √(3² + 4²) = √25 = 5"

概率分布集中在 token "5" 上(概率 99%)。

最终层(第 32 层)的干预:

  • "等等,直接给出答案 5 会不会太简单?用户可能需要更详细的解释?"
  • "让我加一个免责声明:'根据勾股定理...这个结果基于欧几里得几何假设...'"
  • "或者我应该说'答案是 5,但请注意这只是一个数学问题...'"

最终层把概率分布从集中在"5"上,扰动到了一个更分散、更通用的分布上:

"根据勾股定理 a² + b² = c²,其中 a=3,b=4..."

这个回答虽然更长、更"有帮助",但它引入了两个问题:

  1. 推理链被打断:模型不再直接输出"5",而是开始绕弯子
  2. 注意力分散:生成的后续 token 需要处理更多的"填充内容",而不是专注于下一个推理步骤

4.3 实验证据

论文作者在多个模型上验证了这个现象。他们发现:

  1. 在中间层,熵(entropy)呈现下降趋势:随着层数增加,模型对正确 token 的置信度越来越高
  2. 在最终层,熵突然上升:最终层的预测分布变得更分散、更"保守"
  3. 这种"熵反弹"在对齐模型中更明显:未经过对齐的基座模型(base model)没有这种现象,或现象更弱
  4. 模型越大,最终层扰动越严重:大模型有更多的容量来学习"安全策略",因此最终层的干扰也更强烈

五、Confident Layer Decoding:动态选层的智慧

既然问题出在最终层,一个直观的想法是:跳过最终层,用中间层的输出来解码。

但这会带来另一个问题:中间层可能在某些 token 上还没有完成精炼。如果过早使用中间层的输出,可能会错过模型在深层做的有用计算。

论文提出的解决方案非常精妙:Confident Layer Decoding(CLD)

5.1 核心思想:找到"干扰开始前"的那一层

CLD 的核心思想是:在最终层附近的一个小窗口内,从后往前搜索,找到第一个局部熵谷(local entropy minimum)

为什么是"从后往前"?

  • 最终层最不可靠(干扰最严重)
  • 越往前,干扰越少,但可能还没完成精炼
  • 需要找到一个平衡点:干扰最小,但精炼已经完成

为什么是"熵谷"?

  • 熵低 = 模型预测置信度高 = 该层的预测已经"收敛"到正确答案
  • 局部熵谷 = 在该层附近,置信度最高
  • 找到熵谷意味着找到了"精炼完成、干扰尚未开始"的甜蜜点

5.2 具体算法

CLD 的算法非常简单:

def confident_layer_decoding(layers_logits, window_size=5):
    """
    layers_logits: List[Tensor],每层的 logits
    window_size: 搜索窗口大小(默认 5 层)
    """
    num_layers = len(layers_logits)
    
    # 只在靠近输出的一个小窗口内搜索
    # 例如:总共 32 层,窗口大小 5,则搜索第 28-32 层
    search_start = max(0, num_layers - window_size)
    
    # 从后往前搜索第一个局部熵谷
    for i in range(num_layers - 1, search_start - 1, -1):
        entropy_i = compute_entropy(layers_logits[i])
        entropy_prev = compute_entropy(layers_logits[i-1])
        entropy_next = compute_entropy(layers_logits[i+1]) if i+1 < num_layers else float('inf')
        
        # 局部熵谷:当前层的熵比前后层都低
        if entropy_i < entropy_prev and entropy_i < entropy_next:
            return i  # 返回该层索引
    
    # 如果没找到局部熵谷,回退到最终层
    return num_layers - 1

这个算法的优雅之处在于:

  1. 免训练:不需要修改模型权重,不需要额外的训练数据
  2. 即插即用:可以应用到任何预训练好的 Transformer 模型上
  3. 低开销:只计算一个小窗口内的熵,额外延迟不到 2%
  4. 可逆:如果 CLD 选错了层,可以回退到标准解码

5.3 理论保证

论文作者还提供了一个理论分析,把 CLD 形式化为一个最优停止问题(Optimal Stopping Problem)。

假设:

  • 每层都有一个"投影噪声"(projection noise),表示该层预测的不确定性
  • 最终层有一个额外的"对齐扰动"(alignment perturbation),表示对齐训练带来的偏差
  • 中间层的噪声随层数递减(模型在逐步精炼)
  • 最终层的对齐扰动占主导

在这些假设下,作者证明了:

CLD 的后向搜索规则可以在过滤掉对齐扰动的同时,把相对于"神谕层"(oracle refinement layer)的损失控制在一个有界范围内。

简单说:CLD 不会找到"完美"的层,但它能找到"足够好"的层——比最终层好,而且不会比中间层的最佳预测差太多。


六、实验结果:全面超越基线

论文在多个基准测试上验证了 CLD 的效果。

6.1 基准测试覆盖

基准 类别 难度
GPQA-Diamond 科学推理 高难度
Omni-MATH 数学推理 高难度
HLE(Humanity's Last Exam) 综合推理 极高难度
MATH 数学 中等
GSM8K 数学 基础
BBH 推理 中等
CodeEVal 代码 中等

6.2 主要结果

vs. 标准贪心解码(Greedy Decoding):

模型 基准 标准解码 CLD 提升
Qwen2.5-72B GPQA-Diamond 42.1% 45.8% +3.7%
Qwen2.5-72B Omni-MATH 38.5% 42.1% +3.6%
Qwen2.5-72B HLE 12.3% 14.7% +2.4%
Qwen3-235B-A22B (MoE) GPQA-Diamond 48.2% 52.1% +3.9%
Llama-3-70B MATH 52.3% 54.8% +2.5%

vs. 对比解码(Contrastive Decoding)基线:

CLD 在所有基准上都优于对比解码(一种现有的免训练解码策略),而且优势在高难度任务上更明显。

6.3 关键发现

1. 越大模型,收益越高

模型规模 GPQA-Diamond 提升
7B +1.2%
14B +2.1%
32B +3.0%
72B +3.7%
235B (MoE) +3.9%

这验证了论文的核心假设:模型越大,对齐训练的影响越深,最终层的扰动越严重。 因此,动态选层对大模型的收益也越大。

2. 额外开销极低

  • 延迟增加:< 2%(熵计算是轻量操作)
  • 内存开销:零(不需要存储额外的 KV 缓存)
  • 计算开销:可忽略(只在一个小窗口内计算熵)

3. MoE 模型同样有效

CLD 不仅在密集型 Transformer 上有效,在 Mixture-of-Experts(MoE)模型上也有效。这说明"猜测-精炼-干扰"动态不是架构特定的,而是Transformer 前向传播的普遍现象


七、深入理解:为什么 CLD 有效?

CLD 的成功揭示了一个关于 LLM 的深层真相:模型的不同层承担不同的"认知功能",而且这些功能可能是冲突的。

7.1 层的"专业化"

如果把 Transformer 的层比作一个公司的组织架构:

  • 早期层 = 基层员工:负责收集信息、建立初步联系
  • 中间层 = 中层经理:负责分析、推理、制定方案
  • 最终层 = 高管/合规部门:负责审批、确保符合公司政策

在理想情况下,高管应该信任中层经理的专业判断。但如果高管被训练成"安全第一、避免风险",他就会否决中层经理的方案,即使这个方案是正确的。

CLD 做的事情就是:在高管干预之前,找到中层经理已经完成决策的那一刻,直接采用他的方案。

7.2 "规划" vs "语用"的大脑

论文提出的"规划-语用权衡"(Planning-Pragmatics Trade-off)让我想到人类大脑的两个系统:

  • 系统 1(直觉/快思考):快速、自动、情绪化
  • 系统 2(推理/慢思考):缓慢、逻辑、分析性

在 LLM 中:

  • 中间层像系统 2:一步一步地逻辑推理
  • 最终层像系统 1:快速判断"这个回答是否安全/合适"

对齐训练强化了"系统 1"式的最终层——它学会了快速给出"安全、通用"的回答。但推理任务需要"系统 2"式的中间层——它需要耐心地、一步一步地推导。

CLD 本质上是在说:对于推理任务,我们应该更信任"系统 2"(中间层),而不是"系统 1"(最终层)。

7.3 与之前的论文形成呼应

这篇论文让我想到之前解读过的几篇论文,它们从不同角度触及了同一个问题:

Fable 5 系统提示词泄露:Anthropic 把安全规则、版权合规、输出格式等操作性指令编码到 120KB 的系统提示词中。这些规则本质上就是"对齐训练"的文本化版本——它们确保模型输出符合公司政策和法律要求。但这也意味着模型在生成每个 token 时,都要在"准确回答"和"安全回答"之间做权衡。

EDV(Execute-Distill-Verify):EDV 发现 Agent 的"自我确认陷阱"——执行者同时充当评判者时,会不可避免地得出对自己有利的结论。这和 CLD 发现的"最终层干扰中间层"是同一个结构问题:当一个系统同时负责"推理"和"合规"时,"合规"会压倒"推理"

TAPO(Trial and Error with Preferences for Optimization):TAPO 教 Agent 从错误中学习,通过偏好数据自动纠正。但 CLD 揭示了一个更根本的问题:即使 Agent 学会了正确的策略,最终层的"安全偏向"也可能在推理的最后一步把它拉回"通用回答"

三篇论文合起来看,一个图景浮现:

对齐训练是一把双刃剑。它让模型更安全、更有用,但它也在模型的"认知结构"中植入了一个"安全阀"——这个安全阀在关键时刻会关闭推理通道,确保输出不会"越界"。

CLD 的聪明之处在于:它不需要重新训练模型(像 TAPO 那样),也不需要改变系统提示词(像 Fable 5 那样)。它只需要在解码时"绕开"那个安全阀。


八、局限与边界:CLD 不是万能药

尽管 CLD 的效果令人印象深刻,但它也有自己的适用范围和局限。

8.1 什么时候 CLD 最有效?

CLD 在以下场景效果最好:

  1. 推理密集型任务:数学、代码、科学问答、逻辑谜题
  2. 对齐程度高的模型:经过 RLHF/DPO 充分对齐的模型(对齐税更严重)
  3. 大模型:模型规模越大,最终层扰动越明显,CLD 收益越高
  4. 贪心解码或温度较低的采样:在高温度(随机性高)下,CLD 的效果会减弱,因为噪声会掩盖层之间的差异

8.2 什么时候 CLD 效果有限?

  1. 开放式创意任务:写诗、讲故事、头脑风暴——这些任务没有"唯一正确答案",最终层的"通用化"倾向反而可能有用
  2. 安全性要求极高的场景:如果任务本身就需要模型保守(比如医疗建议、法律意见),跳过最终层可能导致不安全输出
  3. 小模型:小模型的层数少,每层的功能区分不明显,CLD 的搜索空间小,效果有限
  4. 未对齐的基座模型:基座模型没有"对齐扰动",CLD 找不到熵谷,或者熵谷就在最终层

8.3 理论假设的限制

CLD 的理论保证依赖于两个关键假设:

  1. 有界投影噪声:中间层的噪声不能无限大,否则熵谷会被淹没
  2. 主导的对齐扰动:最终层的对齐扰动必须足够大,才能被熵检测识别

在某些模型或某些任务上,这些假设可能不成立。例如:

  • 如果模型的对齐训练非常轻,最终层几乎没有扰动,CLD 的搜索就是浪费计算
  • 如果任务本身就需要高层语义理解(比如阅读理解、摘要),中间层的"精炼"可能还没完成

九、工程实践:如何使用 CLD

论文没有提供官方实现,但 CLD 的算法非常简单,任何开发者都可以在自己的模型上实现。

9.1 基本实现(PyTorch 伪代码)

import torch
import torch.nn.functional as F

def compute_entropy(logits):
    """计算 logits 的熵"""
    probs = F.softmax(logits, dim=-1)
    log_probs = F.log_softmax(logits, dim=-1)
    entropy = -(probs * log_probs).sum(dim=-1)
    return entropy

def confident_layer_decoding(model, input_ids, window_size=5):
    """
    CLD 解码
    
    Args:
        model: Transformer 模型
        input_ids: 输入 token IDs [batch_size, seq_len]
        window_size: 搜索窗口大小
    
    Returns:
        selected_logits: 选中层的 logits
        selected_layer: 选中的层索引
    """
    # 前向传播,获取所有层的 hidden states
    with torch.no_grad():
        outputs = model(input_ids, output_hidden_states=True)
        hidden_states = outputs.hidden_states  # Tuple[Tensor],每层的 hidden state
    
    num_layers = len(hidden_states)
    search_start = max(1, num_layers - window_size)
    
    # 计算每层的 logits 和熵
    entropies = []
    layer_logits = []
    
    for i in range(search_start, num_layers):
        # 使用层的 hidden state 计算 logits(假设模型有 lm_head)
        logits = model.lm_head(hidden_states[i])
        layer_logits.append(logits)
        
        # 取最后一个 token 的 logits 计算熵
        last_token_logits = logits[:, -1, :]  # [batch_size, vocab_size]
        entropy = compute_entropy(last_token_logits)
        entropies.append(entropy.item())
    
    # 从后往前搜索第一个局部熵谷
    selected_idx = len(entropies) - 1  # 默认选择最后一层
    
    for i in range(len(entropies) - 2, 0, -1):
        if entropies[i] < entropies[i + 1] and entropies[i] < entropies[i - 1]:
            selected_idx = i
            break
    
    # 映射回原始层索引
    selected_layer = search_start + selected_idx
    selected_logits = layer_logits[selected_idx]
    
    return selected_logits, selected_layer

# 使用示例
logits, layer = confident_layer_decoding(model, input_ids, window_size=5)
probs = F.softmax(logits[:, -1, :], dim=-1)
next_token = torch.multinomial(probs, num_samples=1)

9.2 关键参数调优

window_size(搜索窗口大小):

  • 默认值 5 在论文中表现最好
  • 太小(如 2-3):可能错过真正的熵谷
  • 太大(如 10+):搜索计算增加,收益递减
  • 建议:根据模型层数调整,通常取总层数的 10-20%

熵计算方法:

  • 论文使用标准 Shannon 熵:\(H = -\sum p(x) \log p(x)\)
  • 也可以尝试其他度量:如 Gini 不纯度、Top-k 概率集中度

回退策略:

  • 如果 CLD 没找到局部熵谷,回退到最终层
  • 可以加入"置信度阈值":如果选中层的熵比最终层高太多,也回退到最终层

9.3 集成到现有框架

CLD 可以集成到任何使用 Transformer 的框架中:

HuggingFace Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-72B")
# 修改模型的 generate 方法,在每次前向传播后调用 CLD

vLLM / TGI:

  • 需要修改推理引擎的解码逻辑
  • Sampler 类中加入 CLD 层选择逻辑

LangChain / LlamaIndex:

  • 可以作为自定义解码策略传入
  • 在 Agent 的 LLM 调用时自动启用

十、深层思考:CLD 对 LLM 架构的启示

CLD 的发现不仅仅是"一个更好的解码策略"。它揭示了一些关于 LLM 架构的深层问题。

10.1 "深层"不等于"更好"

Transformer 的设计假设是:层数越多,表示越 refined。但 CLD 证明:

在推理任务中,中间层往往比最终层更可靠。

这挑战了一个基本假设:我们是否过度依赖"深层"了?MoE 架构(如 Qwen3-235B-A22B)的出现部分是为了解决这个问题——通过稀疏激活,让模型在不增加推理成本的情况下增加容量。但 CLD 提出了另一个角度:

也许我们不需要更深的模型。我们需要的是更聪明的解码策略,让模型已有的能力被充分发挥。

10.2 对齐训练需要重新设计

CLD 暴露了一个核心矛盾:对齐训练是为了让模型"安全",但它损害了模型"准确"的能力。

当前的解决方案(RLHF、DPO)都是"全局"的——它们在整个模型上施加对齐约束。但 CLD 的发现暗示:也许对齐应该是"分层"的:

  • 早期层:不需要对齐,它们只负责建立语义关联
  • 中间层:轻度对齐,确保推理过程不偏离轨道
  • 最终层:重度对齐,但只在特定类型的任务上激活

或者更激进的想法:让模型有多个"输出头",一个用于推理(不受对齐约束),一个用于开放式对话(受对齐约束)。用户可以根据任务类型选择哪个头来解码。

10.3 "涌现能力"的新解释

LLM 的"涌现能力"(emergent abilities)——即模型规模达到某个阈值后突然获得的新能力——一直是个谜。CLD 提供了一个可能的解释:

涌现能力可能不是"突然出现的",而是"一直被干扰掩盖的"。

小模型的最终层扰动小,但推理能力本身也弱。大模型的推理能力强了,但最终层的干扰也强了。这导致了一个"抵消效应":模型越大,对齐税越重,涌现能力被掩盖得越厉害。

CLD 通过"绕开"最终层的干扰,让这些被掩盖的能力重新显现。这也许能解释为什么 CLD 在大模型上的收益更高:大模型有更多的"隐藏能力",只是被对齐训练压制了。


十一、结语:从"信任最终层"到"信任证据"

这篇论文给我最大的启发是:我们应该从"信任最终层"转向"信任证据"。

传统的方法是:模型有 N 层,我们相信第 N 层,因为它"最深"。

CLD 的方法是:我们不预先信任任何一层。我们查看每一层的"置信度证据"(熵),选择证据最强的那一层。

这有点像科学方法:

  • 传统方法:信任权威(最终层)
  • CLD 方法:查看数据(各层熵),让证据说话

在 AI 安全日益重要的今天,这种"证据驱动"的方法尤为重要。它不仅提升了推理性能,还提供了一种可解释性:当我们发现模型给出了错误答案时,我们可以回溯查看:是哪一层被选中了?该层的熵是多少?其他层的熵分布如何?这让调试和对齐变得更加透明。

CLD 也提醒我们:不要迷信"深度"。 在深度学习的黄金十年里,"越深越好"几乎是一个公理。但 CLD 证明,有时候适时的"浅出"比盲目的"深入"更聪明

就像那位钢琴家:最好的演奏不是在最后一个音符上堆砌更多技巧,而是在恰当的时刻,让音乐自然地流淌出来。


参考文献

[1] Zhang, X., Zhoubian, S., Chen, Y., et al. (2026). Deeper is Not Always Better: Mitigating the Alignment Tax via Confident Layer Decoding. arXiv:2606.21906.

[2] Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. NeurIPS.

[3] Rafailov, R., et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS.

标签

#对齐税 #LLM推理 #动态解码 #Qwen #清华大学 #Transformer #对齐训练 #RLHF #DPO #免训练 #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录