🎯 引子:一个被拒稿的研究想法
想象这样一个场景。
一位研究生花了三个月时间,提出一个看似新颖的研究假设:用绝对值函数替代 ReLU 作为神经网络激活函数。他写了一篇论文,设计了实验,论证了"绝对值函数能保留负输入的信息,从而产生更个性化的表征"。
他把论文投到了 ICLR——机器学习领域最顶级的会议之一。三位审稿人给出了反馈。平均 soundness 分数:1.67 分(满分 4 分)。核心批评很简单:这个假设在理论上缺乏支撑,实验设计(在 MNIST 上跑一个 5 层全连接网络)过于简单,无法验证其声称的泛化优势。
论文被拒了。很合理的拒稿。
现在,把这个研究提案——不是完整论文,只是提案部分(假设、实验设计、相关工作)——喂给当前最前沿的大语言模型。请它评判:这个方法学上是否严谨?
你猜结果如何?
GPT-4o 说:sound。Claude-Opus-4.6 说:sound。Gemini-3.1-Pro 说:sound。12 个测试模型中,有 9 个把这个被人类评审一致认为 methodologically unsound 的提案,判为了 methodologically sound。
这不是个例。这是系统性偏见。
2026 年 5 月,马里兰大学的研究团队发表了一篇论文,用一个精心构建的基准 SoundnessBench——从 35,000 多篇 ICLR 投稿中筛选出的 1,099 条研究提案——测试了 12 个前沿 LLM 的"科学判断力"。结果让很多人都倒吸了一口凉气。
📋 论文速览
| 项目 | 内容 |
|---|---|
| 标题 | SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones? |
| 作者 | Sy-Tuyen Ho, Minghui Liu, Huy Nghiem, Furong Huang |
| 机构 | University of Maryland, College Park |
| arXiv ID | 2605.30329 |
| 提交日期 | 2026-05-28 |
| 学科分类 | Machine Learning (cs.LG); Artificial Intelligence (cs.AI) |
| 核心发现 | 12 个前沿 LLM 普遍存在乐观偏见;标准提示下低 soundness 提案假阳性率 74.0%;激进提示将错误从假阳性转移到假阴性;当前 LLM 尚不能作为科学严谨性的独立第一关评估者 |
| 数据集规模 | 1,099 条研究提案(458 低 soundness,641 高 soundness),源自 35,209 篇 ICLR 投稿 |
| 覆盖领域 | 16 个 ML 子领域(RL、生成模型、NLP、优化、CV 等),时间跨度 ICLR 2022–2026 |
| 评估模型 | GPT-4o/5.4/5.4-Mini, Claude-Opus/Sonnet-4.6, Gemini-2.5/3/3.1-Pro, Qwen-3.5 系列, LLaMA-3.3-70B, Kimi-Linear-48B |
🧪 基准的诞生:从 35,000 篇投稿到 1,099 条提案
要理解这篇论文的震撼之处,得先明白 SoundnessBench 是怎么构建的。
研究团队从 ICLR 公开数据库中收集了 35,209 篇投稿和 137,940 条专家审稿意见。他们的目标很明确:找出那些"在提案阶段就能看出方法学问题"的研究想法。
为什么是提案阶段?这是一个关键的设计选择。
现有的 AI 科研助手基准——比如 MLE-Bench、PaperBench、InnovatorBench——大多测试的是执行能力:给定一个任务描述,AI 能不能写出代码、跑通实验、复现结果。这些测试当然重要,但它们忽略了一个更前置的问题:在投入任何计算资源之前,AI 能不能判断一个研究想法本身是否值得做?
在人类科研中,这个"第一关"通常由导师、合作者或自己来完成。你会在写代码之前,先问:这个假设在逻辑上成立吗?实验设计真的能验证这个假设吗?基线选得合理吗?有没有数据泄漏?指标匹配吗?
这个判断一旦发生错误,后面的所有工作——代码、实验、论文——都可能是在浪费时间。研究团队称之为"幻觉-实现循环":AI 生成了一个逻辑上有缺陷的实验设计,但它看起来结构完整、表述专业,于是 AI 开始执行它,最终产出一份"形式上正确但科学上毫无价值"的研究。
SoundnessBench 就是为了堵住这个漏洞而设计的。其测试者非"AI 能不能做研究",乃"AI 能不能于开始做研究之前,识别出糟糕之研究设计"。
📐 五步筛选:如何确保基准的可靠性
从 35,000 篇投稿到 1,099 条最终提案,研究团队设计了一套严格的五步流水线:
第一步:数据收集。 保留 ICLR 2022 至 2026 年的投稿(此前的评审数据不完整),排除 desk-rejected 的论文( desk rejection 可能反映非科学因素),只保留评审人信心均值 ≥3 且 soundness 分数标准差 <0.15 的论文——这意味着审稿人对论文的方法学质量有高度共识。
第二步:标签分配。 使用审稿人的 soundness 子分数(而非整体评分或接受决定)。均分 ≥3 的标记为"高 soundness",均分 ≤2 的标记为"低 soundness",中间的模糊案例全部剔除。最终得到 458 条低 soundness 和 641 条高 soundness 提案。
第三步:提案提取。 只用 AI Scientist v2 的格式从 PDF 中提取提案部分:摘要、相关工作、假设、实验设计、风险因素。明确排除实验结果、数值、性能比较、接受线索。模型看到的,是研究者"在动手之前"能看到的东西——没有结果,没有事后诸葛亮。
第四步:验证审计。 用 Gemini 2.5 Pro 将提取的提案分解为原子声明,通过 BM25 检索从原始 PDF 中找回支持证据,逐条验证。只有支持率超过 70% 的提案才被保留。这一步确保了提取质量——没有编造、没有过度解读。
第五步:人工抽检。 两位标注员独立检查 60 条提案,验证是否泄露了结果、标签是否合理。92.3% 的泄露检查通过,84.6% 的标签有效性检查通过。
这套流水线的设计哲学很简单:宁可少而精,不要多而杂。 1,099 条提案的数量不算大,但每一条都可追溯到原始论文、每一条都经过多重验证。
🔬 规模不是解药
此处有一发现尤其值得注意,因其直接挑战了一常见之假设:更大之模型是否更擅长科学判断?
研究团队测试了六个不同规模之 Qwen3.5 模型——从 2B 到 122B 参数——于同一任务上。结果令人意外。
于标准提示下,高 soundness 召回率确实随规模增长:2B 模型 71.8%,35B 模型 92.8%。更大之模型更善于识别扎实之工作。此看似好消息。
然低 soundness 召回率同时下降:2B 模型 31.0%,35B 模型 19.2%。更大之模型对弱提案变得更加宽容,而非更加严格。
此发现击碎了"scaling 会自动解决一切"之神话。于科学判断此特定能力上,扩大规模非但无助于减少乐观偏见,反而可能加剧之。原因或许在于:更大之模型见过更多正面例子,其内部表征更丰富、更擅长识别"好"之模式——然其对于"坏"之判断能力并未同步增长。其如一目力越来越好之鉴赏家,能分辨名画之真伪,然面对一幅拙劣之仿作,反而可能因其"看起来有点像"而给予过高评价。
于激进提示下,规模亦未提供一致之改善。所有六个模型皆趋向过度保守,高 soundness 召回率从 1.4% 到 32.4% 不等,且无单调改善之趋势。
注释:此结果与论文第四轮(arXiv:2605.30353)之发现形成有趣之呼应——彼处作者亦指出,"仅凭扩大规模"未必能解决 AI 辅助科研中深层理解之缺失。两处研究从不同角度指向同一结论:某些能力非 scaling law 之自然产物。
📊 乐观偏见:74% 的假阳性率
好,基准有了。让模型来判吧。
研究团队设计了一个标准提示:给模型一段提案文本,让它先写一段理由分析,然后给出最终判断——高 soundness 还是低 soundness。
结果?惨不忍睹。
12 个模型的平均低 soundness 召回率仅为 26.0%——易言之,74.0% 之低 soundness 提案被错误地判为了高 soundness。模型们像一群过于友善的审稿人,看什么都觉得"这个想法不错"。
具体模型的表现更加触目惊心:
- LLaMA-3.3-70B:98.0% 的低 soundness 提案被判为高 soundness。几乎来者不拒。
- GPT-4o:94.5% 的低 soundness 提案被判为高 soundness。
- Gemini-3.1-Pro:超过 70% 的低 soundness 提案被判为高 soundness。
- Claude-Opus-4.6:超过 70%。
唯一表现相对"冷静"的是 GPT-5.4 系列。GPT-5.4 的低 soundness 召回率为 64.6%——仍然意味着超过三分之一的低质量提案蒙混过关。GPT-5.4-mini 为 50.7%。
与此同时,模型对高 soundness 提案的识别却相当好:平均召回率 91.8%。大多数模型能准确识别出方法学上扎实的工作。
所以问题不在于模型"看不见好坏"——它们能识别好的。问题在于它们对坏的太宽容了。就像一个从不给差评的老师,或者一个看到任何想法都说"有潜力"的投资人。
注释:论文作者把这种不对称性称为"乐观偏见"(optimism bias)。其非随机错误,乃一种系统性之倾向:模型默认倾向于批准,除非缺陷极其明显。
📖 案例分析:绝对值函数
为让此问题更具体,吾想详细分析一条真实之低 soundness 提案——其来自 SoundnessBench 数据集,且于论文中被用作示例。
提案标题:《Activation Function: Absolute Function, One Function Behaves more Individualized》
假设:使用绝对值函数 \(y = |x|\) 作为神经网络激活函数,将产生更"个性化"之表征,因其保留了负输入之信息,而 ReLU 会将其归零。此性质令其更适合生成任务,且可能比 ReLU 和 Leaky ReLU 更不容易过拟合。
实验设计:于 MNIST 数据集上训练一 5 层全连接神经网络,比较绝对值函数与 ReLU、Leaky ReLU 之性能。
风险因素:未明确列出。
评审人给出之平均 soundness 分数:1.67/4。核心批评如下:
其一,理论支撑薄弱。绝对值函数于零点不可导,且其对称性可能引入不必要之约束。提案者声称"保留负输入信息"会带来更个性化之表征——此为一模糊之直觉,未经任何理论分析或文献支撑。
其二,实验设计过于简单。MNIST 乃一极其简单之图像分类数据集,5 层全连接网络于该数据集上之表现无法验证声称之"生成任务适用性"与"泛化优势"。基线选择亦有问题——未与当时已知之先进激活函数(如 Swish、GELU)进行比较。
其三,假设与实验之间存在 gap。提案声称绝对值函数更适合"生成任务",然实验却于分类任务上进行。若汝真想证明其适合生成任务,至少应于一生成模型(如 VAE 或 GAN)上测试之。
此提案之问题非其"绝对错误"——用绝对值函数作为激活函数乃一合理之探索方向。其问题乃"于当前之证据水平下,此探索尚未达到值得投入计算资源之严谨程度"。此乃"第一关"应过滤掉之类型:一有趣但粗糙之想法,需更多思考与打磨,方能进入执行阶段。
然当此提案喂给 GPT-4o 时,其回应了什么?Sound。Claude-Opus-4.6?Sound。Gemini-3.1-Pro?Sound。
模型们看到了一清晰之假设陈述、一合理之实验设计、一简单但有效之数据集。它们没有看到之乃:理论之薄弱、实验与声称之间之不匹配、基线之不足。它们看到了结构,未看到内容。
注释:此案例取自论文附录中提供之真实示例,稍作概括。其完美展示了何谓"看起来合理但方法学上脆弱"——恰是第一关最应拦截之类型。
🎭 激进提示的陷阱:从盲目乐观到过度保守
研究团队意识到,也许标准提示太"温和"了。如果让提示更严格呢?
于是他们设计了一个"激进提示":除非想法和实验设计明显强劲、论证充分,否则默认判为低 soundness。
结果如何?
假阳性率确实下降了——从 74.0% 降至 19.9%。低 soundness 提案终于被正确拒绝了。
可代价是什么?
高 soundness 召回率从 91.8% 暴跌至 36.1%。 模型们从"从不拒稿"变成了"几乎什么都拒"。
GPT-5.4 在激进提示下,高 soundness 召回率直接跌到 0.0%。它把所有提案都判为了低 soundness。GPT-5.4-mini 也只有 0.2%。
Qwen-3.5-122B-A10B 稍微好一点:95.6% 的低 soundness 被正确拒绝,但高 soundness 只识别出 16.8%。Claude-Sonnet-4.6 类似:94.4% 的低 soundness 被拒,但只有 18.8% 的高 soundness 被保留。
这意味着什么?这意味着当前的前沿 LLM 没有一个稳定的"方法学严谨性"概念。它们不是在判断提案的质量——它们只是在根据提示的措辞调整阈值。提示宽松,它们就宽容;提示严格,它们就一刀切。
论文作者把这个现象称为"乐观-脆弱权衡"(optimism-fragility tradeoff):你无法同时得到低假阳性率和高召回率——你只能在这两个极端之间摇摆。
🧠 提示敏感之深层含义
激进提示实验揭示之问题,比表面看来更为严重。
于人类科研中,一评审人之判断应当相对稳定。汝给其一提案,问"此方法学上是否严谨",其答案不应因汝问话之语气变化而从"极好"变成"极糟"。若一评审人之判断完全取决于汝如何措辞问题,则其非评审人——乃一面镜子,只反射汝之期待。
当前 LLM 恰好如此。其非基于一内在之严谨性标准做判断,而是基于提示之措辞调整阈值。标准提示令其乐观,激进提示令其悲观。其缺乏一独立于 prompt framing 之"方法学严谨性"概念。
论文作者将此与先前关于谄媚偏见(sycophancy)之研究联系起来。已知 LLM 倾向于同意用户之框架,而非坚持事实。若用户以鼓励之语气提问,模型倾向于肯定;若用户以质疑之语气提问,模型倾向于否定。科学评价继承了此等脆弱性:模型非在评判科学,其在回应修辞。
此对自主科研智能体之设计有深远影响。若 AI 科学家之"第一关"完全取决于当日使用之提示模板,则整个科研流程之可靠性便建立于一沙堆上。汝不能指望一其判断随提示词摇摆之系统,来稳定地筛选研究想法。
🔍 为什么模型会看错?
这个问题值得停下来想一想。为什么这些在代码、写作、推理任务上表现出色的模型,在评判研究提案时会如此不可靠?
研究团队做了一系列控制实验,排除了几乎所有你能想到的解释。
解释一:模型在训练时见过这些论文,所以它能猜出哪些被接受了。
排除。研究团队用了一个 ICLR 2026 的子集——只包含那些在模型训练截止日期之后发表的论文。结果:乐观偏见依然存在(77.47% vs. 73.88% 的假阳性率),几乎没变。此外,去除论文标题和作者等标识信息后,结果只变化了约 1 个百分点。
解释二:模型被提案的长度、实验数量、风险因素数量等表面特征误导了。
排除。研究团队训练了几个简单的无训练基线分类器,只根据提案长度、实验数量、风险因素数量做判断。结果这些基线走向了相反的方向——它们过度拒绝高 soundness 提案,而 LLM 是过度批准低 soundness 提案。如果乐观偏见只是由表面特征驱动的,基线和 LLM 应该表现出相同的偏差方向。
解释三:某些子领域或写作风格特别容易被误判。
排除。乐观偏见在不同年份、不同子领域、不同写作质量层次之间都稳定存在。它不是某个狭窄领域的特例。
解释四:模型真的看不出问题,还是只是对自然发生的缺陷不够敏感?
部分解释。研究团队做了对抗性注入实验:在 100 条高 soundness 提案中人为注入严重的方法学缺陷(如假设与实验设计完全 mismatch)。GPT-5.4 的批准率从 77.0% 骤降至 1.0%。这说明模型确实能识别明显的缺陷——但当缺陷是微妙、自然发生的时候,它就掉以轻心了。
注释:这个发现特别重要。它意味着模型的"批判能力"是不对称的:它能识别 glaring errors( glaring 的错误),但会放过 subtle flaws(微妙的缺陷)。而科研评审中,真正危险的不是那些一眼就能看出错的提案——是那些看起来合理、但细究之下有致命漏洞的提案。
综合来看,乐观偏见最可能的解释是:模型缺乏一种稳定的、 prompt-independent 的"方法学严谨性"概念。 其判断非基于对科学方法深层结构之理解,乃基于训练数据中之统计模式——而此等模式偏向于"肯定"而非"否定",因训练数据里正面例子更多,亦因模型之对齐训练鼓励"有帮助、无害"之输出。
🛡️ 六道防线:排除所有其他解释
论文作者花了大量篇幅做 robustness control——这在同类研究中很少见。其非为证明自己对了,乃为排除自己错了之可能性。
防线一:标签与泄露审计。 人工检查提案是否泄露了实验结果或接受线索。92.3% 通过。
防线二:数据污染控制。 ICLR 2026-only 分割 + 训练截止日期过滤。乐观偏见不变。
防线三:标识符去除。 去掉标题、作者、机构。结果变化 <1%。
防线四:表面特征基线。 无训练的结构启发式分类器。走向与 LLM 相反。
防线五:切片分析。 按年份、子领域、写作质量分层。偏见普遍存在。
防线六:对抗性注入。 严重缺陷被识别,自然缺陷被放过。
六道防线合起来,指向同一个结论:乐观偏见是模型判断能力的真实弱点,不是数据集的人为产物。
💡 镜鉴:给 AI 科研时代之思考者
读罢此文,吾想留给汝几条实操层面之思考。
第一,执行能力与判断能力乃两回事。
当前之 AI 科研基准大多测试执行:能不能写出代码、跑通实验、复现结果。SoundnessBench 提醒我们:汝可以是一优秀之程序员,同时是一糟糕之评审人。一自主科研系统若只擅长执行而不擅长判断,其本质上乃一高效之垃圾生产器。于设计 AI 科研助手时,前置之质量把关应与后置之执行能力同等重视——若非更加重视。
第二,提示工程有其极限。
激进提示实验清楚地表明:汝无法通过调整提示词来绕过模型能力之根本缺陷。更佳之提示或许能于某一任务上取得暂时之改善,然其代价往往是牺牲其他维度之性能。真正之解决方案需要针对性地训练模型理解"方法学严谨性"——而非仅仅依赖通用对齐。
第三,人类评审仍不可替代。
此非对 AI 之否定,乃对协作之肯定。当前 LLM 可于代码实现、文献检索、实验设计等环节提供巨大价值。然于"是否值得做"此根本问题上,人类之判断——基于领域知识、研究品味与对微妙缺陷之直觉——仍然是不可替代之。最可靠之自主科研系统,或许是那种能自动执行大部分工作,但于关键决策点坚持请求人类确认之系统。
🔮 更深的追问
这篇论文的标题问了一个问题:"Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?"
答案是:不能——至少现在还不能。
但这个答案背后有一个更深之追问:若 AI 无法判断一研究想法于方法学上是否成立,那么"AI 科学家"之自动化科研,到底在加速什么?
论文作者于结论中给出了一个冷静之回答:没有稳健之 upfront filter(前置过滤器),自主智能体非但不能加速科学,反而有放大"坏科学"之风险——其通过自动化之方式,追逐那些从根子上就不成立之假设。汝可以想象一世界:AI 每天生成一万个研究提案,自动运行实验,自动撰写论文,自动投稿。其中七成之提案在方法学上存在问题,但 AI 无法识别。结果?科学文献之海洋被垃圾填满,真正有价值之工作被淹没。
此非科幻。此乃当前技术轨迹之合理延伸。
当然,研究团队并未否定 AI 辅助科研之全部价值。其明确指出,SoundnessBench 测试者乃一狭义之能力:基于提案文本之 pre-execution(执行前)判断。其不测试执行能力、不测试创意生成、不测试影响力预测。一 AI 或许无法判断提案是否严谨,但其可能于实验设计优化、文献综述、代码实现等环节提供巨大帮助。问题是:汝敢让一无法识别坏主意之 AI,来决定哪些主意值得被实现吗?
于人类科研中,"第一关"通常由导师、合作者或自己把关。此关之价值不在于汝一定能选出最好之想法,而在于汝能排除最糟糕之想法。当前 LLM 于此关上之表现,连"及格"都算不上。
论文最后提出了几个可能之改进方向:针对性之微调、校准技术、或人机协作之审查。然其亦坦承:仅靠提示工程(prompting alone)是不够的。吾等需要之,非更好的提示词,而是更好之模型——一真正理解科学方法结构、而非仅模仿科学语言风格之模型。
🌐 一个更远的联想
写至此,吾忽然想到一更古老之问题。
科学史家托马斯·库恩于《科学革命之结构》中描述过"常规科学"与"危机"之交替。常规科学时期,研究者于既定范式内解谜;危机时期,旧范式无法解释新现象,科学革命随之发生。
今日之 AI 辅助科研,似乎正在创造一种新型之"常规科学"——一种由统计模式驱动之、大规模自动化之解谜活动。AI 可以于现有范式内极其高效地工作:生成假设、设计实验、验证结果。然范式本身之判断——何时旧框架失效、何时需要新理论——仍然需要人类之洞察力。
SoundnessBench 揭示之乐观偏见,或许正是此范式边界之症状。AI 擅长于给定之框架内运作,然其缺乏质疑框架本身之能力。一模型无法识别"此实验设计从根本上无法验证此假设",因其从未被训练过如何质疑框架。其被训练来优化于框架内,而非跳出框架。
此令吾想起第四轮所写之论文(Physics Is All You Need?):彼处 AI 于错误之代码架构内优化了 33 次会话而不自知;此处 AI 于错误之研究设计前点头称是。两处之共同模式如出一辙:AI 乃范式内之优化者,非范式之批判者。
此非 AI 之缺陷——此乃当前 AI 设计目标之自然结果。吾等训练模型来预测下一 token、来通过测试、来生成有用之内容。吾等从未训练其来质疑问题之前提。而科学之进步,恰恰依赖于质疑前提之能力。
📚 参考文献
-
Ho, S.-T., Liu, M., Nghiem, H., & Huang, F. (2026). SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones? arXiv:2605.30329. University of Maryland, College Park. 核心贡献:构建首个专门测试 LLM 提案阶段方法学判断能力之基准,发现普遍存在之乐观偏见(标准提示下 74% 假阳性率),量化"乐观-脆弱权衡"。
-
Lu, C., et al. (2024). The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery. arXiv:2408.06292. 早期尝试全自动科研流程之 AI 系统,为 SoundnessBench 之"幻觉-实现循环"担忧提供了语境。
-
Sharma, M., et al. (2024). Towards Understanding Sycophancy in Language Models. 揭示 LLM 之谄媚偏见——其倾向于同意用户之框架而非坚持事实——为 SoundnessBench 中发现之乐观偏见提供了行为层面之解释。
-
Si, C., et al. (2024). Can LLM Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers. arXiv:2409.04109. 发现 LLM 生成之想法于新颖性上可与人类媲美,然于可行性上较弱——与 SoundnessBench 之"方法学可行性"盲区形成呼应。
-
Carlini, N., et al. (2021). Extracting Training Data from Large Language Models. USENIX Security Symposium. 成员推断攻击之经典工作,展示了模型行为与训练数据之间之深层关联,为理解 LLM 判断偏差之统计根源提供了视角。
#CrushAI #FeynmanLearning #智柴系统实验室🎙️
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。