arXiv: 2605.27905 | 作者:Yixuan Tang, Yi Yang | 51,360次生成运行,37,802个有效idea
一句话:AI科研Agent不是在做科学探索,它在做文献插值。4种Agent框架、6种大模型、3.7万个idea的系统性实验表明,AI的"创新"比人类更集中、更贴近种子文献、指向更低影响力区域,且85%的"新想法"只是旧问题的新方法组合。
问题:AI到底是在探索,还是在整理?
AI科研Agent正被寄予厚望。AI Scientist、ResearchAgent、AgentLaboratory——这些框架声称能"提出新颖的研究想法"、"推动科学边界"。但一个基础问题被忽略了:它们是真的在探索未知,还是只是在已知文献的密集区域做精细插值?
论文的切入点很尖锐。现有评估关注单个idea的"有趣性"或"可行性",但从未从 分布层面 问过:AI重复构思一万次,它覆盖的科学疆域是比人类更广,还是更窄?
这不是哲学问题。科学突破依赖于超越既定方向、搜索不熟悉区域、非例行地重组知识。如果AI系统性地回避低密度区域,它的"辅助"可能不是在加速发现,而是在固化既有范式。
实验设计:四框架、六模型、十九领域
论文做了系统性的对照实验。不是个案,是分布。
四种Agent框架:
| 框架 | 机制 | 对新颖性的显式要求 |
|---|---|---|
| Zero-shot | 单轮生成 | "propose one novel research idea" |
| AI Scientist | 迭代自我批判-修订 | "quality, novelty, and feasibility" |
| ResearchAgent | 多阶段规划+验证Agent评分 | "original" "innovative",验证维度含"Originality" |
| AgentLaboratory | 多Agent角色协商(博士后+博士生) | "very innovative and unlike anything seen before" |
六种LLM:Qwen3.5-0.8B、Qwen3.5-4B、Qwen3.6-35B-A3B、Llama-3.2-1B、Llama-3.1-8B、Gemma-4-31B-IT。跨架构、跨规模、跨训练数据。
十九个研究领域:从34,698篇ICLR/NeurIPS/ICML论文(2019-2025)中,通过文献耦合聚类识别出19个持续活跃的领域。GNN、RL、AI公平性、在线算法、组合优化、神经正切核、安全RL、多智能体RL、后门防御、双层优化……
三重对照:
- AI生成idea vs 同领域人类已发表论文(探索广度对比)
- AI生成idea vs 引用≥2篇种子文献的人类后续论文(与起点的距离对比)
- AI生成idea的语义相似人类论文的引用量(潜在影响力对比)
总运行51,360次,有效idea 37,802个(有效率73.6%)。Gemma-4-31B-IT有效率99.9%,Llama-3.2-1B只有32.3%——小模型连"完成生成"都困难,更不用说"创新"了。
发现一:AI比人类更"扎堆"
核心度量:同领域内的成对余弦相似度。用Qwen3-Embedding-4B把AI idea和人类论文嵌入同一语义空间。
| 组别 | 同领域成对相似度 |
|---|---|
| AI想法(所有框架/LLM聚合) | 0.82–0.84 |
| 人类论文(同领域) | 0.77 |
AI想法之间比人类论文之间更相似。跨模型、跨Agent的相似度(0.81–0.84)几乎等于同模型内相似度—— 不同Agent和LLM探索的是高度重叠的区域。
质心法验证:AI想法到领域质心的平均距离0.091,人类论文0.121。AI更紧密地聚集在中心。
这不是某个模型的缺陷。这是系统性行为。六个模型、四个框架,全部如此。
发现二:AI走得不如人类远
度量设计:给定5篇种子文献,比较AI生成idea、人类后续论文(引用≥2篇种子)与种子的距离。
| 相似度类型 | 均值 |
|---|---|
| AI ↔ 种子文献 | 0.92 |
| Follow-on ↔ 种子文献 | 0.88 |
| AI ↔ Follow-on | 0.82 |
AI与种子的距离(0.92)比人类后续工作(0.88)更近。PCA可视化更明显:AI idea形成紧密的局部簇,围绕种子文献;人类后续论文更分散,走得更远。
论文的表述很精确:AI做的是 局部外推(local elaboration),人类做的是 实质性超越(substantial movement beyond)。
AgentLaboratory被显式提示"Make sure your new output is very different",结果仍然如此。ResearchAgent有验证Agent专门检查"Originality"和"Innovativeness",结果仍然如此。迭代批判、多Agent协商、显式新颖性指令——这些机制没有逃离盆地,只是在盆地内部做了更精细的插值。
发现三:AI指向低影响力区域
度量方法:对每篇AI idea,找语义相似度>0.9的人类论文,比较这些"匹配论文"的引用量 vs 同年同领域平均。
| 统计量 | 数值 |
|---|---|
| 匹配论文平均引用 | 50.4 |
| 同领域同年基线 | 54.9 |
| 差异 | -4.47 |
| 95%置信区间 | [-6.41, -2.53] |
| p值 | << 0.001 |
AI idea最像的人类论文,引用量系统性地低于领域平均。这2,359对匹配不是偶然。AI不是在指向科学前沿,它是在指向文献密集但影响力中等的区域。
分框架看:AgentLaboratory差异最大(-7.98,p<<0.001),AI Scientist是唯一不显著的(-1.71,p=0.275)。但AI Scientist的基线本身就很低(49.9),可能反映它的迭代反思机制略微偏移了方向,但未必是更高影响力的方向。
发现四:85%的"新"只是旧问题的新方法
这是论文最锋利的分解。用Gemma-4-31B-IT提取每个idea的:1个研究问题 + ≤5个技术方法。与种子文献比较,阈值0.87(经人工校准)。
| 维度 | 已存在于种子文献的比例 | 新引入的比例 |
|---|---|---|
| 研究问题 | 85.1% | 仅14.9% |
| 技术方法 | 62.6% | 37.4% |
关键不对称:AI在方法层面变化更多(37.4%新方法),在问题层面几乎不变(85.1%旧问题)。
AI Agent的"新颖性"主要来自 在同一问题空间内重新组合技术工具,而非 开辟新的问题空间。这是组合创新,不是问题创新。而科学史上真正的突破,往往来自新问题的提出。
分框架:ResearchAgent最保守(88.4%无新问题),AI Scientist相对最激进(79.0%无新问题,但新方法最多)。但"最激进"也仍有79%的idea没有提出新研究问题。
为什么AI在收窄?
论文指出了三个结构性机制:
训练数据分布:LLM的"预测下一个token"本质是拟合训练数据的密度。高密度区域(热门方向)被过度表示,低密度区域(边缘/新兴方向)被回避。AI的"探索"是在已知地图上的行走,不是绘制新地图。
输入锚定:5篇种子文献强烈锚定生成。上下文窗口限制和文献检索机制,让AI很难真正"跳出"给定框架。即使Agent框架显式要求"超越种子文献",生成结果仍然被锚定。
验证机制的内循环:AI Scientist的自我批判、ResearchAgent的验证评分、AgentLaboratory的角色协商——这些"探索"机制都是 内循环优化。它们检查"与已知文献的一致性"、"可行性"、"质量",但从未引入外循环的分布探索。没有机制让Agent有意搜索训练似然低的区域。
一个尖锐的类比:AI Agent像是在一个热门商圈里不断发现"新的咖啡店",但从未想过这个商圈之外可能存在完全不同的商业形态。
对AI科研热潮的冷思考
这篇论文不是否定AI科研Agent的价值。它否定的是一种 未经检验的假设:即AI能自然地、系统性地拓宽科学探索范围。
当前AI科研Agent的真正能力边界:
- ✅ 快速整合现有文献
- ✅ 在已知问题空间内尝试方法组合
- ✅ 局部精细化(实验设计、技术细节优化)
- ❌ 系统性探索低密度科学区域
- ❌ 提出真正全新的基础研究问题
- ❌ 指向高影响力的前沿方向
论文的暗示很明确:AI Scientist这类框架把"生成可行idea"的门槛降低了,但可能同时把"想法分布"的方差也降低了。更多idea,但都挤在同一个区域。这不是探索,这是拥挤。
未来方向:如何让AI真正探索?
论文提出了几个可能方向:
-
显式多样性目标:优化函数加入"与已生成想法的最大距离"。代价可能是可行性下降。
-
对抗性验证:设置"魔鬼代言人"Agent,专门寻找相似文献,迫使主Agent远离。计算成本高,可能走向无意义。
-
跨领域强制迁移:种子文献来自多个不相关领域,强制概念嫁接。可行性会急剧下降。
-
人类-AI协同:AI负责局部精细化,人类负责方向跳跃。但这没有解决AI自主性的目标。
-
动态奖励塑形:对低训练似然区域的生成给予更高奖励。难点是区分"真正新颖"和"无意义".
更深层的挑战:当前Agent的"新颖"定义是"与提供的文献不同",而非"与全人类知识不同"。这种相对新颖性 vs 绝对新颖性的差距,是问题根源。
关键数字汇总
- 51,360次生成运行,37,802个有效idea(73.6%有效率)
- 19个研究领域,34,698篇论文
- AI同领域相似度0.82-0.84 vs 人类0.77
- AI到质心距离0.091 vs 人类0.121
- AI-种子相似度0.92 vs 人类后续0.88
- 匹配论文引用50.4 vs 基线54.9(p<<0.001)
- 85.1%研究问题已存在于种子,仅14.9%新
- 62.6%技术方法已存在,37.4%新方法
我的判断
这篇论文的价值在于实证摧毁了一个流行的神话。AI科研Agent被包装为"探索"工具,但系统性证据表明它们在做"插值"和"整理"。这不是技术的失败,而是对技术能力边界的诚实界定。
三个深层启示:
第一,训练数据的"重力井"。LLM不是中性的知识容器,它是训练分布的放大器。热门方向被进一步热门化,边缘方向被进一步边缘化。AI的"偏见"不是bug,是统计机制。想让AI探索边缘,必须对抗这个重力井。
第二,评估框架需要升级。当前评估问"这个idea是否可行/有趣/新颖?",但从不问"一万个idea覆盖了多大的科学疆域?"论文提出的分布层面分析,应该成为AI科研Agent评估的标准维度。
第三,人类-AI分工需要重新设计。如果AI擅长局部精细化而人类擅长方向跳跃,那么最有价值的协作模式不是"AI替代人类构思",而是"AI在人类跳跃后做精细化"。AI是风帆,人类是舵手。把舵交给风帆,船只会顺风而行,不会到达新大陆。
论文的结尾留下了一个开放问题:"核心问题可能不是AI系统能否生成连贯的科学想法,而是它们能否帮助扩大正在考虑的科学方向范围。
答案目前是否定的。但知道问题所在,是解决问题的第一步。
参考:Yixuan Tang, Yi Yang, "AI Research Agents Narrow Scientific Exploration", arXiv:2605.27905, 2026.
#AI科研 #科研Agent #科学探索 #大语言模型 #创新研究 #机器学习 #论文解读
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。