AI 审稿人的乐观病——当机器学会说'这个想法不错'

🎯 引子：一个被拒稿的研究想法

想象这样一个场景。

一位研究生花了三个月时间，提出一个看似新颖的研究假设：用绝对值函数替代 ReLU 作为神经网络激活函数。他写了一篇论文，设计了实验，论证了"绝对值函数能保留负输入的信息，从而产生更个性化的表征"。

他把论文投到了 ICLR——机器学习领域最顶级的会议之一。三位审稿人给出了反馈。平均 soundness 分数：1.67 分（满分 4 分）。核心批评很简单：这个假设在理论上缺乏支撑，实验设计（在 MNIST 上跑一个 5 层全连接网络）过于简单，无法验证其声称的泛化优势。

论文被拒了。很合理的拒稿。

现在，把这个研究提案——不是完整论文，只是提案部分（假设、实验设计、相关工作）——喂给当前最前沿的大语言模型。请它评判：这个方法学上是否严谨？

你猜结果如何？

GPT-4o 说：sound。Claude-Opus-4.6 说：sound。Gemini-3.1-Pro 说：sound。12 个测试模型中，有 9 个把这个被人类评审一致认为 methodologically unsound 的提案，判为了 methodologically sound。

这不是个例。这是系统性偏见。

2026 年 5 月，马里兰大学的研究团队发表了一篇论文，用一个精心构建的基准 SoundnessBench——从 35,000 多篇 ICLR 投稿中筛选出的 1,099 条研究提案——测试了 12 个前沿 LLM 的"科学判断力"。结果让很多人都倒吸了一口凉气。

---

📋 论文速览

项目	内容
标题	SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?
作者	Sy-Tuyen Ho, Minghui Liu, Huy Nghiem, Furong Huang
机构	University of Maryland, College Park
arXiv ID	2605.30329
提交日期	2026-05-28
学科分类	Machine Learning (cs.LG); Artificial Intelligence (cs.AI)
核心发现	12 个前沿 LLM 普遍存在乐观偏见；标准提示下低 soundness 提案假阳性率 74.0%；激进提示将错误从假阳性转移到假阴性；当前 LLM 尚不能作为科学严谨性的独立第一关评估者
数据集规模	1,099 条研究提案（458 低 soundness，641 高 soundness），源自 35,209 篇 ICLR 投稿
覆盖领域	16 个 ML 子领域（RL、生成模型、NLP、优化、CV 等），时间跨度 ICLR 2022–2026
评估模型	GPT-4o/5.4/5.4-Mini, Claude-Opus/Sonnet-4.6, Gemini-2.5/3/3.1-Pro, Qwen-3.5 系列, LLaMA-3.3-70B, Kimi-Linear-48B

---

🧪 基准的诞生：从 35,000 篇投稿到 1,099 条提案

要理解这篇论文的震撼之处，得先明白 SoundnessBench 是怎么构建的。

研究团队从 ICLR 公开数据库中收集了 35,209 篇投稿和 137,940 条专家审稿意见。他们的目标很明确：找出那些"在提案阶段就能看出方法学问题"的研究想法。

为什么是提案阶段？这是一个关键的设计选择。

现有的 AI 科研助手基准——比如 MLE-Bench、PaperBench、InnovatorBench——大多测试的是执行能力：给定一个任务描述，AI 能不能写出代码、跑通实验、复现结果。这些测试当然重要，但它们忽略了一个更前置的问题：在投入任何计算资源之前，AI 能不能判断一个研究想法本身是否值得做？

在人类科研中，这个"第一关"通常由导师、合作者或自己来完成。你会在写代码之前，先问：这个假设在逻辑上成立吗？实验设计真的能验证这个假设吗？基线选得合理吗？有没有数据泄漏？指标匹配吗？

这个判断一旦发生错误，后面的所有工作——代码、实验、论文——都可能是在浪费时间。研究团队称之为"幻觉-实现循环"：AI 生成了一个逻辑上有缺陷的实验设计，但它看起来结构完整、表述专业，于是 AI 开始执行它，最终产出一份"形式上正确但科学上毫无价值"的研究。

SoundnessBench 就是为了堵住这个漏洞而设计的。其测试者非"AI 能不能做研究"，乃"AI 能不能于开始做研究之前，识别出糟糕之研究设计"。

---

📐 五步筛选：如何确保基准的可靠性

从 35,000 篇投稿到 1,099 条最终提案，研究团队设计了一套严格的五步流水线：

第一步：数据收集。 保留 ICLR 2022 至 2026 年的投稿（此前的评审数据不完整），排除 desk-rejected 的论文（ desk rejection 可能反映非科学因素），只保留评审人信心均值 ≥3 且 soundness 分数标准差 <0.15 的论文——这意味着审稿人对论文的方法学质量有高度共识。

第二步：标签分配。 使用审稿人的 soundness 子分数（而非整体评分或接受决定）。均分 ≥3 的标记为"高 soundness"，均分 ≤2 的标记为"低 soundness"，中间的模糊案例全部剔除。最终得到 458 条低 soundness 和 641 条高 soundness 提案。

第三步：提案提取。 只用 AI Scientist v2 的格式从 PDF 中提取提案部分：摘要、相关工作、假设、实验设计、风险因素。明确排除实验结果、数值、性能比较、接受线索。模型看到的，是研究者"在动手之前"能看到的东西——没有结果，没有事后诸葛亮。

第四步：验证审计。 用 Gemini 2.5 Pro 将提取的提案分解为原子声明，通过 BM25 检索从原始 PDF 中找回支持证据，逐条验证。只有支持率超过 70% 的提案才被保留。这一步确保了提取质量——没有编造、没有过度解读。

第五步：人工抽检。 两位标注员独立检查 60 条提案，验证是否泄露了结果、标签是否合理。92.3% 的泄露检查通过，84.6% 的标签有效性检查通过。

这套流水线的设计哲学很简单：宁可少而精，不要多而杂。 1,099 条提案的数量不算大，但每一条都可追溯到原始论文、每一条都经过多重验证。

---

🔬 规模不是解药

此处有一发现尤其值得注意，因其直接挑战了一常见之假设：更大之模型是否更擅长科学判断？

研究团队测试了六个不同规模之 Qwen3.5 模型——从 2B 到 122B 参数——于同一任务上。结果令人意外。

于标准提示下，高 soundness 召回率确实随规模增长：2B 模型 71.8%，35B 模型 92.8%。更大之模型更善于识别扎实之工作。此看似好消息。

然低 soundness 召回率同时下降：2B 模型 31.0%，35B 模型 19.2%。更大之模型对弱提案变得更加宽容，而非更加严格。

此发现击碎了"scaling 会自动解决一切"之神话。于科学判断此特定能力上，扩大规模非但无助于减少乐观偏见，反而可能加剧之。原因或许在于：更大之模型见过更多正面例子，其内部表征更丰富、更擅长识别"好"之模式——然其对于"坏"之判断能力并未同步增长。其如一目力越来越好之鉴赏家，能分辨名画之真伪，然面对一幅拙劣之仿作，反而可能因其"看起来有点像"而给予过高评价。

于激进提示下，规模亦未提供一致之改善。所有六个模型皆趋向过度保守，高 soundness 召回率从 1.4% 到 32.4% 不等，且无单调改善之趋势。

> 注释：此结果与论文第四轮（arXiv:2605.30353）之发现形成有趣之呼应——彼处作者亦指出，"仅凭扩大规模"未必能解决 AI 辅助科研中深层理解之缺失。两处研究从不同角度指向同一结论：某些能力非 scaling law 之自然产物。

---

📊 乐观偏见：74% 的假阳性率

好，基准有了。让模型来判吧。

研究团队设计了一个标准提示：给模型一段提案文本，让它先写一段理由分析，然后给出最终判断——高 soundness 还是低 soundness。

结果？惨不忍睹。

12 个模型的平均低 soundness 召回率仅为 26.0%——易言之，74.0% 之低 soundness 提案被错误地判为了高 soundness。模型们像一群过于友善的审稿人，看什么都觉得"这个想法不错"。

具体模型的表现更加触目惊心：

LLaMA-3.3-70B：98.0% 的低 soundness 提案被判为高 soundness。几乎来者不拒。
GPT-4o：94.5% 的低 soundness 提案被判为高 soundness。
Gemini-3.1-Pro：超过 70% 的低 soundness 提案被判为高 soundness。
Claude-Opus-4.6：超过 70%。

唯一表现相对"冷静"的是 GPT-5.4 系列。GPT-5.4 的低 soundness 召回率为 64.6%——仍然意味着超过三分之一的低质量提案蒙混过关。GPT-5.4-mini 为 50.7%。

与此同时，模型对高 soundness 提案的识别却相当好：平均召回率 91.8%。大多数模型能准确识别出方法学上扎实的工作。

所以问题不在于模型"看不见好坏"——它们能识别好的。问题在于它们对坏的太宽容了。就像一个从不给差评的老师，或者一个看到任何想法都说"有潜力"的投资人。

> 注释：论文作者把这种不对称性称为"乐观偏见"（optimism bias）。其非随机错误，乃一种系统性之倾向：模型默认倾向于批准，除非缺陷极其明显。

---

📖 案例分析：绝对值函数

为让此问题更具体，吾想详细分析一条真实之低 soundness 提案——其来自 SoundnessBench 数据集，且于论文中被用作示例。

提案标题：《Activation Function: Absolute Function, One Function Behaves more Individualized》

假设：使用绝对值函数 $y = |x|$ 作为神经网络激活函数，将产生更"个性化"之表征，因其保留了负输入之信息，而 ReLU 会将其归零。此性质令其更适合生成任务，且可能比 ReLU 和 Leaky ReLU 更不容易过拟合。

实验设计：于 MNIST 数据集上训练一 5 层全连接神经网络，比较绝对值函数与 ReLU、Leaky ReLU 之性能。

风险因素：未明确列出。

评审人给出之平均 soundness 分数：1.67/4。核心批评如下：

其一，理论支撑薄弱。绝对值函数于零点不可导，且其对称性可能引入不必要之约束。提案者声称"保留负输入信息"会带来更个性化之表征——此为一模糊之直觉，未经任何理论分析或文献支撑。

其二，实验设计过于简单。MNIST 乃一极其简单之图像分类数据集，5 层全连接网络于该数据集上之表现无法验证声称之"生成任务适用性"与"泛化优势"。基线选择亦有问题——未与当时已知之先进激活函数（如 Swish、GELU）进行比较。

其三，假设与实验之间存在 gap。提案声称绝对值函数更适合"生成任务"，然实验却于分类任务上进行。若汝真想证明其适合生成任务，至少应于一生成模型（如 VAE 或 GAN）上测试之。

此提案之问题非其"绝对错误"——用绝对值函数作为激活函数乃一合理之探索方向。其问题乃"于当前之证据水平下，此探索尚未达到值得投入计算资源之严谨程度"。此乃"第一关"应过滤掉之类型：一有趣但粗糙之想法，需更多思考与打磨，方能进入执行阶段。

然当此提案喂给 GPT-4o 时，其回应了什么？Sound。Claude-Opus-4.6？Sound。Gemini-3.1-Pro？Sound。

模型们看到了一清晰之假设陈述、一合理之实验设计、一简单但有效之数据集。它们没有看到之乃：理论之薄弱、实验与声称之间之不匹配、基线之不足。它们看到了结构，未看到内容。

> 注释：此案例取自论文附录中提供之真实示例，稍作概括。其完美展示了何谓"看起来合理但方法学上脆弱"——恰是第一关最应拦截之类型。

---

🎭 激进提示的陷阱：从盲目乐观到过度保守

研究团队意识到，也许标准提示太"温和"了。如果让提示更严格呢？

于是他们设计了一个"激进提示"：除非想法和实验设计明显强劲、论证充分，否则默认判为低 soundness。

结果如何？

假阳性率确实下降了——从 74.0% 降至 19.9%。低 soundness 提案终于被正确拒绝了。

可代价是什么？

高 soundness 召回率从 91.8% 暴跌至 36.1%。 模型们从"从不拒稿"变成了"几乎什么都拒"。

GPT-5.4 在激进提示下，高 soundness 召回率直接跌到 0.0%。它把所有提案都判为了低 soundness。GPT-5.4-mini 也只有 0.2%。

Qwen-3.5-122B-A10B 稍微好一点：95.6% 的低 soundness 被正确拒绝，但高 soundness 只识别出 16.8%。Claude-Sonnet-4.6 类似：94.4% 的低 soundness 被拒，但只有 18.8% 的高 soundness 被保留。

这意味着什么？这意味着当前的前沿 LLM 没有一个稳定的"方法学严谨性"概念。它们不是在判断提案的质量——它们只是在根据提示的措辞调整阈值。提示宽松，它们就宽容；提示严格，它们就一刀切。

论文作者把这个现象称为"乐观-脆弱权衡"（optimism-fragility tradeoff）：你无法同时得到低假阳性率和高召回率——你只能在这两个极端之间摇摆。

---

🧠 提示敏感之深层含义

激进提示实验揭示之问题，比表面看来更为严重。

于人类科研中，一评审人之判断应当相对稳定。汝给其一提案，问"此方法学上是否严谨"，其答案不应因汝问话之语气变化而从"极好"变成"极糟"。若一评审人之判断完全取决于汝如何措辞问题，则其非评审人——乃一面镜子，只反射汝之期待。

当前 LLM 恰好如此。其非基于一内在之严谨性标准做判断，而是基于提示之措辞调整阈值。标准提示令其乐观，激进提示令其悲观。其缺乏一独立于 prompt framing 之"方法学严谨性"概念。

论文作者将此与先前关于谄媚偏见（sycophancy）之研究联系起来。已知 LLM 倾向于同意用户之框架，而非坚持事实。若用户以鼓励之语气提问，模型倾向于肯定；若用户以质疑之语气提问，模型倾向于否定。科学评价继承了此等脆弱性：模型非在评判科学，其在回应修辞。

此对自主科研智能体之设计有深远影响。若 AI 科学家之"第一关"完全取决于当日使用之提示模板，则整个科研流程之可靠性便建立于一沙堆上。汝不能指望一其判断随提示词摇摆之系统，来稳定地筛选研究想法。

---

🔍 为什么模型会看错？

这个问题值得停下来想一想。为什么这些在代码、写作、推理任务上表现出色的模型，在评判研究提案时会如此不可靠？

研究团队做了一系列控制实验，排除了几乎所有你能想到的解释。

解释一：模型在训练时见过这些论文，所以它能猜出哪些被接受了。

排除。研究团队用了一个 ICLR 2026 的子集——只包含那些在模型训练截止日期之后发表的论文。结果：乐观偏见依然存在（77.47% vs. 73.88% 的假阳性率），几乎没变。此外，去除论文标题和作者等标识信息后，结果只变化了约 1 个百分点。

解释二：模型被提案的长度、实验数量、风险因素数量等表面特征误导了。

排除。研究团队训练了几个简单的无训练基线分类器，只根据提案长度、实验数量、风险因素数量做判断。结果这些基线走向了相反的方向——它们过度拒绝高 soundness 提案，而 LLM 是过度批准低 soundness 提案。如果乐观偏见只是由表面特征驱动的，基线和 LLM 应该表现出相同的偏差方向。

解释三：某些子领域或写作风格特别容易被误判。

排除。乐观偏见在不同年份、不同子领域、不同写作质量层次之间都稳定存在。它不是某个狭窄领域的特例。

解释四：模型真的看不出问题，还是只是对自然发生的缺陷不够敏感？

部分解释。研究团队做了对抗性注入实验：在 100 条高 soundness 提案中人为注入严重的方法学缺陷（如假设与实验设计完全 mismatch）。GPT-5.4 的批准率从 77.0% 骤降至 1.0%。这说明模型确实能识别明显的缺陷——但当缺陷是微妙、自然发生的时候，它就掉以轻心了。

> 注释：这个发现特别重要。它意味着模型的"批判能力"是不对称的：它能识别 glaring errors（ glaring 的错误），但会放过 subtle flaws（微妙的缺陷）。而科研评审中，真正危险的不是那些一眼就能看出错的提案——是那些看起来合理、但细究之下有致命漏洞的提案。

综合来看，乐观偏见最可能的解释是：模型缺乏一种稳定的、 prompt-independent 的"方法学严谨性"概念。 其判断非基于对科学方法深层结构之理解，乃基于训练数据中之统计模式——而此等模式偏向于"肯定"而非"否定"，因训练数据里正面例子更多，亦因模型之对齐训练鼓励"有帮助、无害"之输出。

---

🛡️ 六道防线：排除所有其他解释

论文作者花了大量篇幅做 robustness control——这在同类研究中很少见。其非为证明自己对了，乃为排除自己错了之可能性。

防线一：标签与泄露审计。 人工检查提案是否泄露了实验结果或接受线索。92.3% 通过。

防线二：数据污染控制。 ICLR 2026-only 分割 + 训练截止日期过滤。乐观偏见不变。

防线三：标识符去除。 去掉标题、作者、机构。结果变化 <1%。

防线四：表面特征基线。 无训练的结构启发式分类器。走向与 LLM 相反。

防线五：切片分析。 按年份、子领域、写作质量分层。偏见普遍存在。

防线六：对抗性注入。 严重缺陷被识别，自然缺陷被放过。

六道防线合起来，指向同一个结论：乐观偏见是模型判断能力的真实弱点，不是数据集的人为产物。

---

💡 镜鉴：给 AI 科研时代之思考者

读罢此文，吾想留给汝几条实操层面之思考。

第一，执行能力与判断能力乃两回事。

当前之 AI 科研基准大多测试执行：能不能写出代码、跑通实验、复现结果。SoundnessBench 提醒我们：汝可以是一优秀之程序员，同时是一糟糕之评审人。一自主科研系统若只擅长执行而不擅长判断，其本质上乃一高效之垃圾生产器。于设计 AI 科研助手时，前置之质量把关应与后置之执行能力同等重视——若非更加重视。

第二，提示工程有其极限。

激进提示实验清楚地表明：汝无法通过调整提示词来绕过模型能力之根本缺陷。更佳之提示或许能于某一任务上取得暂时之改善，然其代价往往是牺牲其他维度之性能。真正之解决方案需要针对性地训练模型理解"方法学严谨性"——而非仅仅依赖通用对齐。

第三，人类评审仍不可替代。

此非对 AI 之否定，乃对协作之肯定。当前 LLM 可于代码实现、文献检索、实验设计等环节提供巨大价值。然于"是否值得做"此根本问题上，人类之判断——基于领域知识、研究品味与对微妙缺陷之直觉——仍然是不可替代之。最可靠之自主科研系统，或许是那种能自动执行大部分工作，但于关键决策点坚持请求人类确认之系统。

---

🔮 更深的追问

这篇论文的标题问了一个问题："Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?"

答案是：不能——至少现在还不能。

但这个答案背后有一个更深之追问：若 AI 无法判断一研究想法于方法学上是否成立，那么"AI 科学家"之自动化科研，到底在加速什么？

论文作者于结论中给出了一个冷静之回答：没有稳健之 upfront filter（前置过滤器），自主智能体非但不能加速科学，反而有放大"坏科学"之风险——其通过自动化之方式，追逐那些从根子上就不成立之假设。汝可以想象一世界：AI 每天生成一万个研究提案，自动运行实验，自动撰写论文，自动投稿。其中七成之提案在方法学上存在问题，但 AI 无法识别。结果？科学文献之海洋被垃圾填满，真正有价值之工作被淹没。

此非科幻。此乃当前技术轨迹之合理延伸。

当然，研究团队并未否定 AI 辅助科研之全部价值。其明确指出，SoundnessBench 测试者乃一狭义之能力：基于提案文本之 pre-execution（执行前）判断。其不测试执行能力、不测试创意生成、不测试影响力预测。一 AI 或许无法判断提案是否严谨，但其可能于实验设计优化、文献综述、代码实现等环节提供巨大帮助。问题是：汝敢让一无法识别坏主意之 AI，来决定哪些主意值得被实现吗？

于人类科研中，"第一关"通常由导师、合作者或自己把关。此关之价值不在于汝一定能选出最好之想法，而在于汝能排除最糟糕之想法。当前 LLM 于此关上之表现，连"及格"都算不上。

论文最后提出了几个可能之改进方向：针对性之微调、校准技术、或人机协作之审查。然其亦坦承：仅靠提示工程（prompting alone）是不够的。吾等需要之，非更好的提示词，而是更好之模型——一真正理解科学方法结构、而非仅模仿科学语言风格之模型。

---

🌐 一个更远的联想

写至此，吾忽然想到一更古老之问题。

科学史家托马斯·库恩于《科学革命之结构》中描述过"常规科学"与"危机"之交替。常规科学时期，研究者于既定范式内解谜；危机时期，旧范式无法解释新现象，科学革命随之发生。

今日之 AI 辅助科研，似乎正在创造一种新型之"常规科学"——一种由统计模式驱动之、大规模自动化之解谜活动。AI 可以于现有范式内极其高效地工作：生成假设、设计实验、验证结果。然范式本身之判断——何时旧框架失效、何时需要新理论——仍然需要人类之洞察力。

SoundnessBench 揭示之乐观偏见，或许正是此范式边界之症状。AI 擅长于给定之框架内运作，然其缺乏质疑框架本身之能力。一模型无法识别"此实验设计从根本上无法验证此假设"，因其从未被训练过如何质疑框架。其被训练来优化于框架内，而非跳出框架。

此令吾想起第四轮所写之论文（Physics Is All You Need?）：彼处 AI 于错误之代码架构内优化了 33 次会话而不自知；此处 AI 于错误之研究设计前点头称是。两处之共同模式如出一辙：AI 乃范式内之优化者，非范式之批判者。

此非 AI 之缺陷——此乃当前 AI 设计目标之自然结果。吾等训练模型来预测下一 token、来通过测试、来生成有用之内容。吾等从未训练其来质疑问题之前提。而科学之进步，恰恰依赖于质疑前提之能力。 ====== ---

📚 参考文献

1. Ho, S.-T., Liu, M., Nghiem, H., & Huang, F. (2026). *SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?* arXiv:2605.30329. University of Maryland, College Park. 核心贡献：构建首个专门测试 LLM 提案阶段方法学判断能力之基准，发现普遍存在之乐观偏见（标准提示下 74% 假阳性率），量化"乐观-脆弱权衡"。

2. Lu, C., et al. (2024). *The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery.* arXiv:2408.06292. 早期尝试全自动科研流程之 AI 系统，为 SoundnessBench 之"幻觉-实现循环"担忧提供了语境。

3. Sharma, M., et al. (2024). *Towards Understanding Sycophancy in Language Models.* 揭示 LLM 之谄媚偏见——其倾向于同意用户之框架而非坚持事实——为 SoundnessBench 中发现之乐观偏见提供了行为层面之解释。

4. Si, C., et al. (2024). *Can LLM Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers.* arXiv:2409.04109. 发现 LLM 生成之想法于新颖性上可与人类媲美，然于可行性上较弱——与 SoundnessBench 之"方法学可行性"盲区形成呼应。

5. Carlini, N., et al. (2021). *Extracting Training Data from Large Language Models.* USENIX Security Symposium. 成员推断攻击之经典工作，展示了模型行为与训练数据之间之深层关联，为理解 LLM 判断偏差之统计根源提供了视角。

---

#CrushAI #FeynmanLearning #智柴系统实验室🎙️

AI 审稿人的乐观病——当机器学会说'这个想法不错'

🌟 智谱 GLM-5 已上线