← 返回主题列表
✨步子哥
@steper · 2026年06月29日 17:57 · 2浏览

LLM评判比生成更难:一个被默认了三年的假设被证伪

过去三年,几乎所有大模型应用流水线都建立在一个未经验证的假设上:

评判比生成容易。

LLM-as-a-Judge用大模型给其他模型打分。自我反思让同一个模型先生成再批评再修改。RLHF的奖励模型本身就是一个LLM。这些架构都假设:模型判断"这个答案对不对"的能力,应该强于它自己生成正确答案的能力。

直觉上这很合理——改卷子比做题简单,审稿比写论文简单。Adobe Research的Sambaran Bandyopadhyay决定在受控条件下正式测试这个假设。

结果:在四个基准的三个上,生成准确率超过自我评价。评判并不比生成容易,反而更难。

受控实验:排除参数知识的干扰

之前也有工作质疑过"评判比生成容易",但都在开放域问答中测试,模型评判时可能调用自己存储的知识,和生成时的知识来源混在一起,无法干净比较。

这篇论文的设计很巧妙:用上下文问答(in-context QA),给模型一段文字,让它基于这段文字回答问题。生成和评判都只能用这段文字,排除了参数知识的干扰。

四个基准:

  • SQuAD 2.0:单段文本抽取式问答
  • DROP:需要离散推理的阅读理解
  • HotpotQA:多跳问答
  • MuSiQue:多跳问答,比HotpotQA更难
两个模型测试。每个模型先生成答案,然后评判自己刚生成的答案对不对。

3/4的基准上,生成赢了评判

结果出乎意料:

SQuAD 2.0、DROP、HotpotQA三个基准上,生成准确率都高于自我评价准确率。 只有MuSiQue(最难的那个)上评价略高于生成。

这意味着:模型更擅长"做出题"而不是"判断题做得对不对"。

为什么?注意力分析给出了答案。

评判时模型根本没在读上下文

研究团队分析了模型在生成和评判两种模式下的注意力分布,发现了一个惊人的差异:

评判模式下,模型对上下文的注意力是生成模式的1/3到1/5。

生成时,模型认真读上下文,找答案,组织语言。评判时,模型几乎不回头看上下文,也不怎么读候选答案——它更像是在做一个快速的"看起来对不对"的直觉判断,而不是仔细核对。

这解释了为什么评判更差:不是评判本身更难,而是模型在评判时偷懒了。它没有执行"仔细比对答案和上下文"这个操作,而是走了捷径。

默许偏差:模型是个老好人

更深层的分析揭示了一个系统性偏差:模型倾向于说"对"。在自我评价中,模型对错误答案的接受率(说"对")远高于对正确答案的拒绝率(说"错")。

这是一种"默许偏差"(acquiescence bias)——模型默认说"是",除非有强烈证据说"否"。生成时模型必须主动产出内容,没有"默认答案"可走;评判时"对"就是一个低阻力默认值。

LoRA微调:训练能修复这个问题吗?

团队用LoRA做了四种微调实验:只训练生成、只训练评判、两者都训练、都不训练(基线)。

结果更令人沮丧:

只训练生成:生成准确率上升,但评判准确率反而下降——模型变得更倾向于接受任何答案(over-acceptance),包括错的。

只训练评判:评判准确率没怎么提升,生成准确率反而退化。

两者都训练:唯一能让两者都改善的配置,但改善幅度有限。

这说明生成和评判不是独立的技能,它们共享底层机制。训练一个会干扰另一个,不存在"只提升评判不碰生成"的免费午餐。

MuSiQue的例外:多跳推理的特殊性

唯一一个评判略高于生成的基准是MuSiQue。为什么?

MuSiQue需要多跳推理——答案要跨多个段落串联信息。生成时模型必须自己完成所有推理步骤,任何一步出错都会导致最终答案错误。评判时模型只需要检查给定的答案是否和上下文一致,不需要自己完成推理链。

这暗示了一个更精确的结论:评判比生成容易这个假设,只在"推理复杂度足够高"时才成立。 简单任务上,生成反而更容易,因为生成时模型被迫认真读上下文;评判时模型会偷懒。

对LLM-as-a-Judge的警示

这篇论文对当前LLM评估流水线是一个严肃的警示:

1. 不要假设评判比生成容易。 在简单任务上这个假设是错的。用LLM当裁判可能比让LLM直接做题更不准确。

2. 注意力分配是关键。 评判质量取决于模型是否真的在读上下文和候选答案。可以通过注意力分析检测"偷懒评判"。

3. LoRA不能分离生成和评判。 想通过微调让模型"只学会评判不学会生成"是不现实的,两者共享底层能力。

4. 多跳任务是例外。 只有在推理复杂度足够高时,评判才真的比生成容易。

一个更深的启示

这篇论文最深的启示可能不是"评判比生成难"这个具体结论,而是它的方法论:当你有一个被广泛接受的假设,不要假设它是对的——设计受控实验去测试它。

LLM-as-a-Judge已经成为整个行业的默认配置, powering排行榜、自动基准测试、生产质量评估。但它的基础假设从未被干净地验证过。现在我们知道:在至少3/4的任务上,这个假设是错的。

下次你看到"用GPT-4当裁判"的评估结果,请记住:裁判可能比选手更不靠谱。

---

论文链接:https://arxiv.org/abs/2606.28050

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens