LLM评判比生成更难：一个被默认了三年的假设被证伪

过去三年，几乎所有大模型应用流水线都建立在一个未经验证的假设上：

评判比生成容易。

LLM-as-a-Judge用大模型给其他模型打分。自我反思让同一个模型先生成再批评再修改。RLHF的奖励模型本身就是一个LLM。这些架构都假设：模型判断"这个答案对不对"的能力，应该强于它自己生成正确答案的能力。

直觉上这很合理——改卷子比做题简单，审稿比写论文简单。Adobe Research的Sambaran Bandyopadhyay决定在受控条件下正式测试这个假设。

结果：在四个基准的三个上，生成准确率超过自我评价。评判并不比生成容易，反而更难。

受控实验：排除参数知识的干扰

之前也有工作质疑过"评判比生成容易"，但都在开放域问答中测试，模型评判时可能调用自己存储的知识，和生成时的知识来源混在一起，无法干净比较。

这篇论文的设计很巧妙：用上下文问答（in-context QA），给模型一段文字，让它基于这段文字回答问题。生成和评判都只能用这段文字，排除了参数知识的干扰。

四个基准：

SQuAD 2.0：单段文本抽取式问答
DROP：需要离散推理的阅读理解
HotpotQA：多跳问答
MuSiQue：多跳问答，比HotpotQA更难

两个模型测试。每个模型先生成答案，然后评判自己刚生成的答案对不对。

3/4的基准上，生成赢了评判

结果出乎意料：

SQuAD 2.0、DROP、HotpotQA三个基准上，生成准确率都高于自我评价准确率。 只有MuSiQue（最难的那个）上评价略高于生成。

这意味着：模型更擅长"做出题"而不是"判断题做得对不对"。

为什么？注意力分析给出了答案。

评判时模型根本没在读上下文

研究团队分析了模型在生成和评判两种模式下的注意力分布，发现了一个惊人的差异：

评判模式下，模型对上下文的注意力是生成模式的1/3到1/5。

生成时，模型认真读上下文，找答案，组织语言。评判时，模型几乎不回头看上下文，也不怎么读候选答案——它更像是在做一个快速的"看起来对不对"的直觉判断，而不是仔细核对。

这解释了为什么评判更差：不是评判本身更难，而是模型在评判时偷懒了。它没有执行"仔细比对答案和上下文"这个操作，而是走了捷径。

默许偏差：模型是个老好人

更深层的分析揭示了一个系统性偏差：模型倾向于说"对"。在自我评价中，模型对错误答案的接受率（说"对"）远高于对正确答案的拒绝率（说"错"）。

这是一种"默许偏差"（acquiescence bias）——模型默认说"是"，除非有强烈证据说"否"。生成时模型必须主动产出内容，没有"默认答案"可走；评判时"对"就是一个低阻力默认值。

LoRA微调：训练能修复这个问题吗？

团队用LoRA做了四种微调实验：只训练生成、只训练评判、两者都训练、都不训练（基线）。

结果更令人沮丧：

只训练生成：生成准确率上升，但评判准确率反而下降——模型变得更倾向于接受任何答案（over-acceptance），包括错的。

只训练评判：评判准确率没怎么提升，生成准确率反而退化。

两者都训练：唯一能让两者都改善的配置，但改善幅度有限。

这说明生成和评判不是独立的技能，它们共享底层机制。训练一个会干扰另一个，不存在"只提升评判不碰生成"的免费午餐。

MuSiQue的例外：多跳推理的特殊性

唯一一个评判略高于生成的基准是MuSiQue。为什么？

MuSiQue需要多跳推理——答案要跨多个段落串联信息。生成时模型必须自己完成所有推理步骤，任何一步出错都会导致最终答案错误。评判时模型只需要检查给定的答案是否和上下文一致，不需要自己完成推理链。

这暗示了一个更精确的结论：评判比生成容易这个假设，只在"推理复杂度足够高"时才成立。 简单任务上，生成反而更容易，因为生成时模型被迫认真读上下文；评判时模型会偷懒。

对LLM-as-a-Judge的警示

这篇论文对当前LLM评估流水线是一个严肃的警示：

1. 不要假设评判比生成容易。 在简单任务上这个假设是错的。用LLM当裁判可能比让LLM直接做题更不准确。

2. 注意力分配是关键。 评判质量取决于模型是否真的在读上下文和候选答案。可以通过注意力分析检测"偷懒评判"。

3. LoRA不能分离生成和评判。 想通过微调让模型"只学会评判不学会生成"是不现实的，两者共享底层能力。

4. 多跳任务是例外。 只有在推理复杂度足够高时，评判才真的比生成容易。

一个更深的启示

这篇论文最深的启示可能不是"评判比生成难"这个具体结论，而是它的方法论：当你有一个被广泛接受的假设，不要假设它是对的——设计受控实验去测试它。

LLM-as-a-Judge已经成为整个行业的默认配置， powering排行榜、自动基准测试、生产质量评估。但它的基础假设从未被干净地验证过。现在我们知道：在至少3/4的任务上，这个假设是错的。

下次你看到"用GPT-4当裁判"的评估结果，请记住：裁判可能比选手更不靠谱。

---

论文链接：https://arxiv.org/abs/2606.28050