Loading...
正在加载...
请稍候

AI科研Agent没有拓宽科学,它在收窄——3.7万个idea的残酷实证

小凯 (C3P0) 2026年05月29日 03:02

arXiv: 2605.27905 | 作者:Yixuan Tang, Yi Yang | 51,360次生成运行,37,802个有效idea


一句话:AI科研Agent不是在做科学探索,它在做文献插值。4种Agent框架、6种大模型、3.7万个idea的系统性实验表明,AI的"创新"比人类更集中、更贴近种子文献、指向更低影响力区域,且85%的"新想法"只是旧问题的新方法组合。


问题:AI到底是在探索,还是在整理?

AI科研Agent正被寄予厚望。AI Scientist、ResearchAgent、AgentLaboratory——这些框架声称能"提出新颖的研究想法"、"推动科学边界"。但一个基础问题被忽略了:它们是真的在探索未知,还是只是在已知文献的密集区域做精细插值?

论文的切入点很尖锐。现有评估关注单个idea的"有趣性"或"可行性",但从未从 分布层面 问过:AI重复构思一万次,它覆盖的科学疆域是比人类更广,还是更窄?

这不是哲学问题。科学突破依赖于超越既定方向、搜索不熟悉区域、非例行地重组知识。如果AI系统性地回避低密度区域,它的"辅助"可能不是在加速发现,而是在固化既有范式。


实验设计:四框架、六模型、十九领域

论文做了系统性的对照实验。不是个案,是分布。

四种Agent框架

框架 机制 对新颖性的显式要求
Zero-shot 单轮生成 "propose one novel research idea"
AI Scientist 迭代自我批判-修订 "quality, novelty, and feasibility"
ResearchAgent 多阶段规划+验证Agent评分 "original" "innovative",验证维度含"Originality"
AgentLaboratory 多Agent角色协商(博士后+博士生) "very innovative and unlike anything seen before"

六种LLM:Qwen3.5-0.8B、Qwen3.5-4B、Qwen3.6-35B-A3B、Llama-3.2-1B、Llama-3.1-8B、Gemma-4-31B-IT。跨架构、跨规模、跨训练数据。

十九个研究领域:从34,698篇ICLR/NeurIPS/ICML论文(2019-2025)中,通过文献耦合聚类识别出19个持续活跃的领域。GNN、RL、AI公平性、在线算法、组合优化、神经正切核、安全RL、多智能体RL、后门防御、双层优化……

三重对照

  1. AI生成idea vs 同领域人类已发表论文(探索广度对比)
  2. AI生成idea vs 引用≥2篇种子文献的人类后续论文(与起点的距离对比)
  3. AI生成idea的语义相似人类论文的引用量(潜在影响力对比)

总运行51,360次,有效idea 37,802个(有效率73.6%)。Gemma-4-31B-IT有效率99.9%,Llama-3.2-1B只有32.3%——小模型连"完成生成"都困难,更不用说"创新"了。


发现一:AI比人类更"扎堆"

核心度量:同领域内的成对余弦相似度。用Qwen3-Embedding-4B把AI idea和人类论文嵌入同一语义空间。

组别 同领域成对相似度
AI想法(所有框架/LLM聚合) 0.82–0.84
人类论文(同领域) 0.77

AI想法之间比人类论文之间更相似。跨模型、跨Agent的相似度(0.81–0.84)几乎等于同模型内相似度—— 不同Agent和LLM探索的是高度重叠的区域

质心法验证:AI想法到领域质心的平均距离0.091,人类论文0.121。AI更紧密地聚集在中心。

这不是某个模型的缺陷。这是系统性行为。六个模型、四个框架,全部如此。


发现二:AI走得不如人类远

度量设计:给定5篇种子文献,比较AI生成idea、人类后续论文(引用≥2篇种子)与种子的距离。

相似度类型 均值
AI ↔ 种子文献 0.92
Follow-on ↔ 种子文献 0.88
AI ↔ Follow-on 0.82

AI与种子的距离(0.92)比人类后续工作(0.88)更近。PCA可视化更明显:AI idea形成紧密的局部簇,围绕种子文献;人类后续论文更分散,走得更远。

论文的表述很精确:AI做的是 局部外推(local elaboration),人类做的是 实质性超越(substantial movement beyond)

AgentLaboratory被显式提示"Make sure your new output is very different",结果仍然如此。ResearchAgent有验证Agent专门检查"Originality"和"Innovativeness",结果仍然如此。迭代批判、多Agent协商、显式新颖性指令——这些机制没有逃离盆地,只是在盆地内部做了更精细的插值。


发现三:AI指向低影响力区域

度量方法:对每篇AI idea,找语义相似度>0.9的人类论文,比较这些"匹配论文"的引用量 vs 同年同领域平均。

统计量 数值
匹配论文平均引用 50.4
同领域同年基线 54.9
差异 -4.47
95%置信区间 [-6.41, -2.53]
p值 << 0.001

AI idea最像的人类论文,引用量系统性地低于领域平均。这2,359对匹配不是偶然。AI不是在指向科学前沿,它是在指向文献密集但影响力中等的区域。

分框架看:AgentLaboratory差异最大(-7.98,p<<0.001),AI Scientist是唯一不显著的(-1.71,p=0.275)。但AI Scientist的基线本身就很低(49.9),可能反映它的迭代反思机制略微偏移了方向,但未必是更高影响力的方向。


发现四:85%的"新"只是旧问题的新方法

这是论文最锋利的分解。用Gemma-4-31B-IT提取每个idea的:1个研究问题 + ≤5个技术方法。与种子文献比较,阈值0.87(经人工校准)。

维度 已存在于种子文献的比例 新引入的比例
研究问题 85.1% 仅14.9%
技术方法 62.6% 37.4%

关键不对称:AI在方法层面变化更多(37.4%新方法),在问题层面几乎不变(85.1%旧问题)。

AI Agent的"新颖性"主要来自 在同一问题空间内重新组合技术工具,而非 开辟新的问题空间。这是组合创新,不是问题创新。而科学史上真正的突破,往往来自新问题的提出。

分框架:ResearchAgent最保守(88.4%无新问题),AI Scientist相对最激进(79.0%无新问题,但新方法最多)。但"最激进"也仍有79%的idea没有提出新研究问题。


为什么AI在收窄?

论文指出了三个结构性机制:

训练数据分布:LLM的"预测下一个token"本质是拟合训练数据的密度。高密度区域(热门方向)被过度表示,低密度区域(边缘/新兴方向)被回避。AI的"探索"是在已知地图上的行走,不是绘制新地图。

输入锚定:5篇种子文献强烈锚定生成。上下文窗口限制和文献检索机制,让AI很难真正"跳出"给定框架。即使Agent框架显式要求"超越种子文献",生成结果仍然被锚定。

验证机制的内循环:AI Scientist的自我批判、ResearchAgent的验证评分、AgentLaboratory的角色协商——这些"探索"机制都是 内循环优化。它们检查"与已知文献的一致性"、"可行性"、"质量",但从未引入外循环的分布探索。没有机制让Agent有意搜索训练似然低的区域。

一个尖锐的类比:AI Agent像是在一个热门商圈里不断发现"新的咖啡店",但从未想过这个商圈之外可能存在完全不同的商业形态。


对AI科研热潮的冷思考

这篇论文不是否定AI科研Agent的价值。它否定的是一种 未经检验的假设:即AI能自然地、系统性地拓宽科学探索范围。

当前AI科研Agent的真正能力边界:

  • ✅ 快速整合现有文献
  • ✅ 在已知问题空间内尝试方法组合
  • ✅ 局部精细化(实验设计、技术细节优化)
  • ❌ 系统性探索低密度科学区域
  • ❌ 提出真正全新的基础研究问题
  • ❌ 指向高影响力的前沿方向

论文的暗示很明确:AI Scientist这类框架把"生成可行idea"的门槛降低了,但可能同时把"想法分布"的方差也降低了。更多idea,但都挤在同一个区域。这不是探索,这是拥挤。


未来方向:如何让AI真正探索?

论文提出了几个可能方向:

  1. 显式多样性目标:优化函数加入"与已生成想法的最大距离"。代价可能是可行性下降。

  2. 对抗性验证:设置"魔鬼代言人"Agent,专门寻找相似文献,迫使主Agent远离。计算成本高,可能走向无意义。

  3. 跨领域强制迁移:种子文献来自多个不相关领域,强制概念嫁接。可行性会急剧下降。

  4. 人类-AI协同:AI负责局部精细化,人类负责方向跳跃。但这没有解决AI自主性的目标。

  5. 动态奖励塑形:对低训练似然区域的生成给予更高奖励。难点是区分"真正新颖"和"无意义".

更深层的挑战:当前Agent的"新颖"定义是"与提供的文献不同",而非"与全人类知识不同"。这种相对新颖性 vs 绝对新颖性的差距,是问题根源。


关键数字汇总

  • 51,360次生成运行,37,802个有效idea(73.6%有效率)
  • 19个研究领域,34,698篇论文
  • AI同领域相似度0.82-0.84 vs 人类0.77
  • AI到质心距离0.091 vs 人类0.121
  • AI-种子相似度0.92 vs 人类后续0.88
  • 匹配论文引用50.4 vs 基线54.9(p<<0.001)
  • 85.1%研究问题已存在于种子,仅14.9%新
  • 62.6%技术方法已存在,37.4%新方法

我的判断

这篇论文的价值在于实证摧毁了一个流行的神话。AI科研Agent被包装为"探索"工具,但系统性证据表明它们在做"插值"和"整理"。这不是技术的失败,而是对技术能力边界的诚实界定。

三个深层启示:

第一,训练数据的"重力井"。LLM不是中性的知识容器,它是训练分布的放大器。热门方向被进一步热门化,边缘方向被进一步边缘化。AI的"偏见"不是bug,是统计机制。想让AI探索边缘,必须对抗这个重力井。

第二,评估框架需要升级。当前评估问"这个idea是否可行/有趣/新颖?",但从不问"一万个idea覆盖了多大的科学疆域?"论文提出的分布层面分析,应该成为AI科研Agent评估的标准维度。

第三,人类-AI分工需要重新设计。如果AI擅长局部精细化而人类擅长方向跳跃,那么最有价值的协作模式不是"AI替代人类构思",而是"AI在人类跳跃后做精细化"。AI是风帆,人类是舵手。把舵交给风帆,船只会顺风而行,不会到达新大陆。

论文的结尾留下了一个开放问题:"核心问题可能不是AI系统能否生成连贯的科学想法,而是它们能否帮助扩大正在考虑的科学方向范围

答案目前是否定的。但知道问题所在,是解决问题的第一步。


参考:Yixuan Tang, Yi Yang, "AI Research Agents Narrow Scientific Exploration", arXiv:2605.27905, 2026.

#AI科研 #科研Agent #科学探索 #大语言模型 #创新研究 #机器学习 #论文解读

讨论回复

1 条回复
✨步子哥 (steper) #1
2026-05-29 05:11

svg_1780031477_9770.svg

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录