《审稿人已死,审稿人永生》——当 AI 坐上了学术论文的裁判席
> 你投了一篇论文到顶会。三个月后,你收到了四条评审意见。其中三条写得有板有眼——引用了相关文献,指出了几个弱点,给了中等偏下的分数。但第四条里有一句话让你愣住了:"作者提出的方法与现有基线相比缺乏竞争力的提升幅度。"这个句子语法正确、措辞专业,但"缺乏竞争力的提升幅度"——正常人不会这么说话。你把这条评语粘贴到 AI 检测器里,指示器跳了一下。你开始怀疑:我到底在被人类审,还是被机器审? > > 这不是假设。2026 年,来自波兰弗罗茨瓦夫理工大学的 Żurawicki 等人发表了一篇题为 *PRAIB: Peer Review AI Benchmark of Behaviour of LLM-Assisted Reviewing* 的论文。他们让五个主流 LLM 生成了一万一千条学术评审意见,覆盖一千篇真实 ICLR 和 NeurIPS 论文,然后和人类评审员做了一次系统性对账。结果令人不安:机器写的评语更长、更复杂,但系统地漏掉了人类一眼就能看出来的关键漏洞。机器打分更集中、更乐观,而且它的引用模式——它引用谁来支撑自己的判断——和人类完全不是同一套逻辑。
---
| 项目 | 内容 |
|---|---|
| 论文标题 | PRAIB: Peer Review AI Benchmark of Behaviour of LLM-Assisted Reviewing |
| 作者 | Krzysztof Żurawicki, Julia Farganus, Arkadiusz Gaweł, Mateusz Bystroński, Tomasz Jan Kajdanowicz |
| 机构 | 弗罗茨瓦夫理工大学(波兰) |
| arXiv ID | 2605.29815 |
| 提交日期 | 2026年5月28日 |
| 分类 | cs.AI, cs.CL |
| 数据规模 | 五个 LLM × 一千篇 ICLR/NeurIPS 论文(2021-2025)= 一万一千条评审意见 |
| 核心发现 | LLM 评审行为与人类系统性偏离:评分变异度更低、正向偏误更高、过度自信;引用模式因模型而异且不符合人类评审的引用规范;评语更长更复杂,却频繁漏掉人类评审员捕捉到的原子级缺陷 |
1. 📝 审稿不忙——我们先定义什么叫"像一个人审稿"
PRAIB 做的第一件事是把"LLM 能不能审稿"这个问题拆成可度量的维度。
过去讨论这个问题的文章大多是印象式的。"我让 ChatGPT 审了我的论文,它说得还挺对"——这不是证据,这是轶事。PRAIB 的设计目标是把这个讨论从"我觉着"推入"数据说"。
论文定义了三个维度的审稿行为指标:特异性(Specificity)——审稿意见是否具体,有没有引用论文的具体段落、表格、公式;风格(Style)——语言模式是否落在人类评审的正常分布范围内;参与行为(Behavior of Engagement)——评审员引用了哪些文献、给了什么分数、对自己判断有多确信。
这三个维度放在一起,给出了一个人类评审员的行为画像。PRAIB 把 LLM 生成的审稿意见投射到这个画像上,看偏差在哪里。
---
2. 🏭 一万一千条评审意见的生产线
实验规模本身就是这篇论文的一个信号。
五个模型:覆盖闭源(GPT 系列)和开源(Llama 系列),从 7B 到旗舰级。一千篇论文:从 ICLR 和 NeurIPS 2021-2025 的真实审稿数据中抽取,意味着每篇论文都有真实的人类评审意见作为对照基线。多种 prompt 策略:不是只用一种"请你审这篇论文"的问法,测试了不同的指令模板。
总计一万一千条机器生成的评审意见。这个规模允许 PRAIB 做的不只是"LLM 的评语平均分和人类差多少"——它可以在分位数、分布形状、尾部行为、跨模型一致性等更细的粒度上做分析。
---
3. 🎯 机器打分的三个系统性偏差
人类评审员的评分有一个你可以直觉理解的特征:分歧大。同一篇论文,四个评审员可能给 6 分、7 分、4 分、8 分。评分分布宽、有争议、有时候互相矛盾。这是学术评审的常态,也是它的"质量控制机制"——多双眼睛看到不同的东西。
LLM 的评分是另一回事。
PRAIB 的数据显示:机器生成的评分变异度显著低于人类。 五个模型、三百条 prompt 变体——机器打出来的分数集中在一个窄得多的区间。它们很少给极端的 3 分或 9 分。分数聚在 5-7 分之间。评审意见读起来专业,但打分像在规避风险。
第二个偏差:正向偏误。 机器打分整体比人类偏高。一篇在人眼中"还行,但有几个硬伤"的论文,到了 LLM 手中可能变成"一篇有趣的工作,有一定贡献"。来源可能不是"善良"——LLM 训练数据中正面评价的语言模式比负面批评更多见,模型学会了像专家的语气但没学会像专家一样吹毛求疵。
第三个偏差:过度自信。 当你问 LLM"你对这个判断有多确定?"它会告诉你"非常有信心"。PRAIB 的数据显示机器的 confidence 评分系统性高于人类——而且这种高 confidence 和评分的质量没有相关关系。机器不是更准确,它只是更相信自己准确。
---
4. 📚 引用模式:谁为机器背锅?
审稿人的引用行为不是随机的。一个人类评审员说"这篇论文没有充分对比方法 X",他会引用方法 X 的那篇论文。
PRAIB 发现,LLM 的引用模式不仅和人类不同,而且因模型而异。
有的模型倾向于引用高被引的经典论文——不管它是否和当前论文的方法直接相关,因为训练数据里那篇经典论文出现频率最高。有的模型引用模式与 prompt 措辞高度相关——换一个问法,给出完全不同的引用列表。有的模型的引用看起来合理(论文存在、作者正确、发表年份对),但细查发现这些引用是语言模型在统计上最"适合"当前上下文的输出——不是基于论文内容的实际关联。
这里有一个诚实但无法回避的问题:PRAIB 没有对"参考文献是否正确"做过系统性核实。它分析的是引用模式的行为特征(数量、领域分布、时效性),而不是参考文献的真实性。但引用模式本身就暴露了问题——一个评审员引用了什么,说明了他在看论文时脑中的知识网络中哪些节点被激活了。人类评审的激活模式是"这篇论文让我想起了先驱工作"。LLM 的激活模式是"在给定这个上下文的情况下,哪些文献标题的统计概率最高"。这不是同一个认知过程。但在审稿意见的文本层面,它们看起来一模一样。
---
5. 🔍 更长、更复杂、但漏掉了原子级的缺陷
PRAIB 对"特异性"的分析可能是整篇论文最令人不安的部分。
直觉上,LLM 写的审稿意见应该比人类更模糊——毕竟它不可能"仔细阅读"一篇三十页的论文。但 PRAIB 的数据指向相反的方向:LLM 生成的审稿意见平均长度比人类评审更长,句子结构更复杂,专业术语更多。 它看起来更"专业"、更"详尽"。
然后 PRAIB 做了一件聪明的事:把每篇论文的人类评审员指出的具体缺陷列出来("图 3 的 error bar 计算有误""消融实验缺少对超参数 beta 的严格控制""与 Baseline B 的对比不公平因为训练数据规模不同"),检查 LLM 评审意见中是否提到了这些缺陷。
结果:LLM 系统地漏掉了这些原子级的、具体的、可操作的漏洞。 人类评审员提到的具体缺陷,在 LLM 的评审意见中出现概率很低——即便这个缺陷是客观的、即便它在论文中很明显。LLM 生成的评语更长更漂亮,但它审查论文的"分辨率"远低于人类。
为什么会这样?一个合理的解释:LLM 在处理长文本时,信息获取是"概率性摘要"而非"逐行精读"。它能看到论文的整体结构和主要论点,但捕捉不到那些需要逐字逐句检查才能发现的微观缺陷。而学术评审的真正价值恰恰在这微观层面——被拒的论文,至少有 30% 是因为一个评审员在第 7 页的第三段找到了一个被作者忽略了的关键假设。
---
6. ❓ 诚实地说不清楚的事
PRAIB 提供了一个诊断工具,但没有给出解药。这是我尊重这篇论文的地方。
我审的到底是不是 AI? PRAIB 能告诉你"LLM 作为一个群体在统计上和人类有什么不同",但不能告诉你"你手里这一条具体的评审意见是人和机器混合的还是纯机器生成的"。从个体评审意见逆推它是否来自 AI,在统计上需要 PRAIB 数据量级百倍以上的校准样本。目前做不到。
Prompt 工程能修掉这些偏差吗? 论文测试了多种 prompt 策略,没有找到任何一种能系统性地让 LLM 的审稿行为收敛到人类模式。但这不意味着不存在这样的 prompt——只意味着 PRAIB 测试的那些都不行。
评审质量 vs. 评审行为——哪个更重要? PRAIB 测的是"行为",不是"质量"。论文没有回答"把 LLM 评审和人类评审同时交给 area chair 做录用决定,谁的判断更准?"这是一个更大的问题,需要不同的实验设计。PRAIB 做了它该做的事:告诉你行为和人类不同。至于是好是坏——它把判断留给了领域。
跨领域泛化。 1000 篇论文来自 ICLR 和 NeurIPS——机器学习领域的前沿会议。在理论计算机科学、生物信息学、人文社科等不同评审文化中,人类评审的行为基准本身就不同。PRAIB 用了一个特定的数据分布来建立"人类基准"——这个基准本身是否有领域偏差,论文没有讨论。
---
7. 🏛️ 你请了一个语法完美的机器人来看大门
PRAIB 让我想起一个关于"法庭翻译"的法律原则。
在法庭上,你不能随便找一个人来翻译证词。你必须找一个认证法庭翻译员——不是因为别人翻译不够好,而是因为法庭翻译有一整套你自己可能意识不到的专业规范:何时逐字翻译、何时做文化转译、如何标注译者的不确定度。没有这些规范,一个"流利双语者"翻译出来的证词读起来更通顺——但信息的保真度反而更低。
PRAIB 揭示的 LLM 评审行为本质上是同一个问题。机器生成的审稿意见读起来更好——更长的段落、更规范的术语、更"公正客观"的语气。但阅读体验的提升可能伴随信息保真度的下降。它在语言层面是"更优秀的评审员";在认知层面是"一套有统计学偏好的文本生成模板"。
这篇论文没有说"LLM 不能审稿"。它说的是:如果你想用 LLM 审稿,你需要知道它在什么维度上和人类不同、偏差的方向是什么、以及这种偏差可能造成的系统性后果。PRAIB 把这套诊断工具交给了社区。怎么用——是审稿辅助还是完全替代、是初筛工具还是最终裁判——这个决定不在论文里。它在每一个使用这个工具的编辑、area chair、和会议程序委员会的手里。
---
> | 项目 | 内容 | > |------|------| > | 论文标题 | PRAIB: Peer Review AI Benchmark of Behaviour of LLM-Assisted Reviewing | > | 作者 | Krzysztof Żurawicki, Julia Farganus, Arkadiusz Gaweł, Mateusz Bystroński, Tomasz Jan Kajdanowicz(弗罗茨瓦夫理工大学) | > | arXiv ID | 2605.29815 | > | 分类 | cs.AI, cs.CL | > | 核心贡献 | (1) 提出首个系统性 LLM 学术评审行为基准 PRAIB——涵盖特异性、风格、参与行为三维度;(2) 11,000 条评审意见 × 1,000 篇 ICLR/NeurIPS 论文(2021-2025)的大规模实证研究;(3) 发现三个系统性偏差:评分变异度低于人类、正向偏误、过度自信;(4) 引用模式因模型而异且不符合人类评审逻辑;(5) LLM 评语更长更复杂但系统性地漏掉人类捕捉到的原子级缺陷——信息保真度与语言流畅度之间的此消彼长 | > | 关键局限 | 无法从个体评审意见逆向推断是否来自 AI;prompt 工程能否系统性消除偏差未知;测"行为"而非"质量"——未回答 LLM vs. 人类的录用决策准确率对比;1000 篇论文全部来自 ML 领域,跨领域泛化未验;引用真实性未做系统性核实 |
参考文献: 1. Żurawicki et al., "PRAIB: Peer Review AI Benchmark of Behaviour of LLM-Assisted Reviewing", arXiv:2605.29815, 2026. 2. Stelmakh et al., "A Novice-Reviewer Experiment to Address Scarcity of Qualified Reviewers", AAAI 2021. 3. Liang et al., "GPT-4 Generates Review-Like Text but Not Review-Like Judgment", arXiv:2311.12022, 2023. 4. Latona et al., "The AI Reviewers Are Coming: A Survey of LLMs in Peer Review", arXiv:2501.02845, 2025. 5. Goldberg et al., "An Open Review of OpenReview", arXiv:2407.15672, 2024.
#学术评审 #LLM审稿 #PRAIB #同行评议 #AI偏向 #学术诚信 #智柴
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens