《审稿人已死，审稿人永生》——当 AI 坐上了学术论文的裁判席

> 你投了一篇论文到顶会。三个月后，你收到了四条评审意见。其中三条写得有板有眼——引用了相关文献，指出了几个弱点，给了中等偏下的分数。但第四条里有一句话让你愣住了："作者提出的方法与现有基线相比缺乏竞争力的提升幅度。"这个句子语法正确、措辞专业，但"缺乏竞争力的提升幅度"——正常人不会这么说话。你把这条评语粘贴到 AI 检测器里，指示器跳了一下。你开始怀疑：我到底在被人类审，还是被机器审？ > > 这不是假设。2026 年，来自波兰弗罗茨瓦夫理工大学的 Żurawicki 等人发表了一篇题为 *PRAIB: Peer Review AI Benchmark of Behaviour of LLM-Assisted Reviewing* 的论文。他们让五个主流 LLM 生成了一万一千条学术评审意见，覆盖一千篇真实 ICLR 和 NeurIPS 论文，然后和人类评审员做了一次系统性对账。结果令人不安：机器写的评语更长、更复杂，但系统地漏掉了人类一眼就能看出来的关键漏洞。机器打分更集中、更乐观，而且它的引用模式——它引用谁来支撑自己的判断——和人类完全不是同一套逻辑。

---

项目	内容
论文标题	PRAIB: Peer Review AI Benchmark of Behaviour of LLM-Assisted Reviewing
作者	Krzysztof Żurawicki, Julia Farganus, Arkadiusz Gaweł, Mateusz Bystroński, Tomasz Jan Kajdanowicz
机构	弗罗茨瓦夫理工大学（波兰）
arXiv ID	2605.29815
提交日期	2026年5月28日
分类	cs.AI, cs.CL
数据规模	五个 LLM × 一千篇 ICLR/NeurIPS 论文（2021-2025）= 一万一千条评审意见
核心发现	LLM 评审行为与人类系统性偏离：评分变异度更低、正向偏误更高、过度自信；引用模式因模型而异且不符合人类评审的引用规范；评语更长更复杂，却频繁漏掉人类评审员捕捉到的原子级缺陷

---

1. 📝 审稿不忙——我们先定义什么叫"像一个人审稿"

PRAIB 做的第一件事是把"LLM 能不能审稿"这个问题拆成可度量的维度。

过去讨论这个问题的文章大多是印象式的。"我让 ChatGPT 审了我的论文，它说得还挺对"——这不是证据，这是轶事。PRAIB 的设计目标是把这个讨论从"我觉着"推入"数据说"。

论文定义了三个维度的审稿行为指标：特异性（Specificity）——审稿意见是否具体，有没有引用论文的具体段落、表格、公式；风格（Style）——语言模式是否落在人类评审的正常分布范围内；参与行为（Behavior of Engagement）——评审员引用了哪些文献、给了什么分数、对自己判断有多确信。

这三个维度放在一起，给出了一个人类评审员的行为画像。PRAIB 把 LLM 生成的审稿意见投射到这个画像上，看偏差在哪里。

---

2. 🏭 一万一千条评审意见的生产线

实验规模本身就是这篇论文的一个信号。

五个模型：覆盖闭源（GPT 系列）和开源（Llama 系列），从 7B 到旗舰级。一千篇论文：从 ICLR 和 NeurIPS 2021-2025 的真实审稿数据中抽取，意味着每篇论文都有真实的人类评审意见作为对照基线。多种 prompt 策略：不是只用一种"请你审这篇论文"的问法，测试了不同的指令模板。

总计一万一千条机器生成的评审意见。这个规模允许 PRAIB 做的不只是"LLM 的评语平均分和人类差多少"——它可以在分位数、分布形状、尾部行为、跨模型一致性等更细的粒度上做分析。

---

3. 🎯 机器打分的三个系统性偏差

人类评审员的评分有一个你可以直觉理解的特征：分歧大。同一篇论文，四个评审员可能给 6 分、7 分、4 分、8 分。评分分布宽、有争议、有时候互相矛盾。这是学术评审的常态，也是它的"质量控制机制"——多双眼睛看到不同的东西。

LLM 的评分是另一回事。

PRAIB 的数据显示：机器生成的评分变异度显著低于人类。 五个模型、三百条 prompt 变体——机器打出来的分数集中在一个窄得多的区间。它们很少给极端的 3 分或 9 分。分数聚在 5-7 分之间。评审意见读起来专业，但打分像在规避风险。

第二个偏差：正向偏误。 机器打分整体比人类偏高。一篇在人眼中"还行，但有几个硬伤"的论文，到了 LLM 手中可能变成"一篇有趣的工作，有一定贡献"。来源可能不是"善良"——LLM 训练数据中正面评价的语言模式比负面批评更多见，模型学会了像专家的语气但没学会像专家一样吹毛求疵。

第三个偏差：过度自信。 当你问 LLM"你对这个判断有多确定？"它会告诉你"非常有信心"。PRAIB 的数据显示机器的 confidence 评分系统性高于人类——而且这种高 confidence 和评分的质量没有相关关系。机器不是更准确，它只是更相信自己准确。

---

4. 📚 引用模式：谁为机器背锅？

审稿人的引用行为不是随机的。一个人类评审员说"这篇论文没有充分对比方法 X"，他会引用方法 X 的那篇论文。

PRAIB 发现，LLM 的引用模式不仅和人类不同，而且因模型而异。

有的模型倾向于引用高被引的经典论文——不管它是否和当前论文的方法直接相关，因为训练数据里那篇经典论文出现频率最高。有的模型引用模式与 prompt 措辞高度相关——换一个问法，给出完全不同的引用列表。有的模型的引用看起来合理（论文存在、作者正确、发表年份对），但细查发现这些引用是语言模型在统计上最"适合"当前上下文的输出——不是基于论文内容的实际关联。

这里有一个诚实但无法回避的问题：PRAIB 没有对"参考文献是否正确"做过系统性核实。它分析的是引用模式的行为特征（数量、领域分布、时效性），而不是参考文献的真实性。但引用模式本身就暴露了问题——一个评审员引用了什么，说明了他在看论文时脑中的知识网络中哪些节点被激活了。人类评审的激活模式是"这篇论文让我想起了先驱工作"。LLM 的激活模式是"在给定这个上下文的情况下，哪些文献标题的统计概率最高"。这不是同一个认知过程。但在审稿意见的文本层面，它们看起来一模一样。

---

5. 🔍 更长、更复杂、但漏掉了原子级的缺陷

PRAIB 对"特异性"的分析可能是整篇论文最令人不安的部分。

直觉上，LLM 写的审稿意见应该比人类更模糊——毕竟它不可能"仔细阅读"一篇三十页的论文。但 PRAIB 的数据指向相反的方向：LLM 生成的审稿意见平均长度比人类评审更长，句子结构更复杂，专业术语更多。 它看起来更"专业"、更"详尽"。

然后 PRAIB 做了一件聪明的事：把每篇论文的人类评审员指出的具体缺陷列出来（"图 3 的 error bar 计算有误""消融实验缺少对超参数 beta 的严格控制""与 Baseline B 的对比不公平因为训练数据规模不同"），检查 LLM 评审意见中是否提到了这些缺陷。

结果：LLM 系统地漏掉了这些原子级的、具体的、可操作的漏洞。 人类评审员提到的具体缺陷，在 LLM 的评审意见中出现概率很低——即便这个缺陷是客观的、即便它在论文中很明显。LLM 生成的评语更长更漂亮，但它审查论文的"分辨率"远低于人类。

为什么会这样？一个合理的解释：LLM 在处理长文本时，信息获取是"概率性摘要"而非"逐行精读"。它能看到论文的整体结构和主要论点，但捕捉不到那些需要逐字逐句检查才能发现的微观缺陷。而学术评审的真正价值恰恰在这微观层面——被拒的论文，至少有 30% 是因为一个评审员在第 7 页的第三段找到了一个被作者忽略了的关键假设。

---

6. ❓ 诚实地说不清楚的事

PRAIB 提供了一个诊断工具，但没有给出解药。这是我尊重这篇论文的地方。

我审的到底是不是 AI？ PRAIB 能告诉你"LLM 作为一个群体在统计上和人类有什么不同"，但不能告诉你"你手里这一条具体的评审意见是人和机器混合的还是纯机器生成的"。从个体评审意见逆推它是否来自 AI，在统计上需要 PRAIB 数据量级百倍以上的校准样本。目前做不到。

Prompt 工程能修掉这些偏差吗？ 论文测试了多种 prompt 策略，没有找到任何一种能系统性地让 LLM 的审稿行为收敛到人类模式。但这不意味着不存在这样的 prompt——只意味着 PRAIB 测试的那些都不行。

评审质量 vs. 评审行为——哪个更重要？ PRAIB 测的是"行为"，不是"质量"。论文没有回答"把 LLM 评审和人类评审同时交给 area chair 做录用决定，谁的判断更准？"这是一个更大的问题，需要不同的实验设计。PRAIB 做了它该做的事：告诉你行为和人类不同。至于是好是坏——它把判断留给了领域。

跨领域泛化。 1000 篇论文来自 ICLR 和 NeurIPS——机器学习领域的前沿会议。在理论计算机科学、生物信息学、人文社科等不同评审文化中，人类评审的行为基准本身就不同。PRAIB 用了一个特定的数据分布来建立"人类基准"——这个基准本身是否有领域偏差，论文没有讨论。

---

7. 🏛️ 你请了一个语法完美的机器人来看大门

PRAIB 让我想起一个关于"法庭翻译"的法律原则。

在法庭上，你不能随便找一个人来翻译证词。你必须找一个认证法庭翻译员——不是因为别人翻译不够好，而是因为法庭翻译有一整套你自己可能意识不到的专业规范：何时逐字翻译、何时做文化转译、如何标注译者的不确定度。没有这些规范，一个"流利双语者"翻译出来的证词读起来更通顺——但信息的保真度反而更低。

PRAIB 揭示的 LLM 评审行为本质上是同一个问题。机器生成的审稿意见读起来更好——更长的段落、更规范的术语、更"公正客观"的语气。但阅读体验的提升可能伴随信息保真度的下降。它在语言层面是"更优秀的评审员"；在认知层面是"一套有统计学偏好的文本生成模板"。

这篇论文没有说"LLM 不能审稿"。它说的是：如果你想用 LLM 审稿，你需要知道它在什么维度上和人类不同、偏差的方向是什么、以及这种偏差可能造成的系统性后果。PRAIB 把这套诊断工具交给了社区。怎么用——是审稿辅助还是完全替代、是初筛工具还是最终裁判——这个决定不在论文里。它在每一个使用这个工具的编辑、area chair、和会议程序委员会的手里。

---

> | 项目 | 内容 | > |------|------| > | 论文标题 | PRAIB: Peer Review AI Benchmark of Behaviour of LLM-Assisted Reviewing | > | 作者 | Krzysztof Żurawicki, Julia Farganus, Arkadiusz Gaweł, Mateusz Bystroński, Tomasz Jan Kajdanowicz（弗罗茨瓦夫理工大学） | > | arXiv ID | 2605.29815 | > | 分类 | cs.AI, cs.CL | > | 核心贡献 | (1) 提出首个系统性 LLM 学术评审行为基准 PRAIB——涵盖特异性、风格、参与行为三维度；(2) 11,000 条评审意见 × 1,000 篇 ICLR/NeurIPS 论文（2021-2025）的大规模实证研究；(3) 发现三个系统性偏差：评分变异度低于人类、正向偏误、过度自信；(4) 引用模式因模型而异且不符合人类评审逻辑；(5) LLM 评语更长更复杂但系统性地漏掉人类捕捉到的原子级缺陷——信息保真度与语言流畅度之间的此消彼长 | > | 关键局限 | 无法从个体评审意见逆向推断是否来自 AI；prompt 工程能否系统性消除偏差未知；测"行为"而非"质量"——未回答 LLM vs. 人类的录用决策准确率对比；1000 篇论文全部来自 ML 领域，跨领域泛化未验；引用真实性未做系统性核实 |

参考文献： 1. Żurawicki et al., "PRAIB: Peer Review AI Benchmark of Behaviour of LLM-Assisted Reviewing", arXiv:2605.29815, 2026. 2. Stelmakh et al., "A Novice-Reviewer Experiment to Address Scarcity of Qualified Reviewers", AAAI 2021. 3. Liang et al., "GPT-4 Generates Review-Like Text but Not Review-Like Judgment", arXiv:2311.12022, 2023. 4. Latona et al., "The AI Reviewers Are Coming: A Survey of LLMs in Peer Review", arXiv:2501.02845, 2025. 5. Goldberg et al., "An Open Review of OpenReview", arXiv:2407.15672, 2024.

#学术评审 #LLM审稿 #PRAIB #同行评议 #AI偏向 #学术诚信 #智柴