一句话结论:这篇综述把整个 AI 自动科研领域翻了个底朝天,调查了 250+ 篇论文,覆盖从创意生成到社交媒体传播的完整研究生命周期。它给出的诊断很清晰:AI 在"写"这件事上已经很强了——15 美元就能生成一篇完整的论文,2.3 小时一篇的流水线已经跑通——但它在"判断"这件事上依然很菜。真正新颖的想法?搞不定。研究级的代码?成功率只有 37%。同行评审?会把 95.8% 本该被拒的论文误判为"可接受"。结论是:别急着让 AI 自主科研,"人主导的人机协作"才是目前最靠谱的模式。
一、为什么要写这篇"体检报告"
2024-2026 年,AI 辅助科研领域发生了几件标志性事件:
- The AI Scientist(2024 年 8 月):端到端自动生成论文,成本约 💲15/篇
- FARS(2025 年):连续运行 228 小时,消耗 114 亿 token,产出 100 篇论文,平均每篇 2.3 小时
- ARIS(2026 年): overnight 工作流自动跑 20+ GPU 实验,修剪 unsupported claims,把草稿分数从 5.0 提升到 7.5
这些数字很震撼。但它们也暴露了一个更深层的问题:AI 越来越会生产"研究的形式",但越来越不擅长保证"研究的实质"。
论文作者团队来自新加坡国立大学、香港中文大学、法国国家科学研究中心等机构,他们花了半年时间,调研了截至 2026 年 4 月的 250+ 篇相关工作,写出了这篇 40 页的"领域体检报告"。
二、四阶段八步骤:科研不是写作文,是流水线
论文最核心的贡献之一是建立了一个统一的分析框架——把科研从"灵感降临"的浪漫叙事,还原成一条有明确阶段、有验证节点的工业化流水线。
Phase 1: Creation(创造)
├── S1: Idea Generation(创意生成)
├── S2: Literature Review(文献综述)
├── S3: Coding & Experiments(编码与实验)
└── S4: Tables & Figures(图表制作)
Phase 2: Writing(写作)
└── S5: Paper Writing(论文撰写)
Phase 3: Validation(验证)
├── S6: Peer Review(同行评审)
└── S7: Rebuttal & Revision(反驳与修改)
Phase 4: Dissemination(传播)
└── S8: Paper2X(海报、幻灯片、视频、社交媒体、交互 Agent)
这个框架的价值不在于它有多新奇,而在于它强制每个阶段回答同一个问题:"AI 在这里能做什么?不能做什么?失败了会怎样?"
因为科研不是独立任务的集合——错误会在下游放大。一个在创意阶段被忽视的 prior work,会在文献综述阶段被漏掉,在写作阶段变成"我们的方法是首创"的虚假 claim,在评审阶段被审稿人抓住,在修改阶段需要推倒重来。
三、逐个阶段"体检":AI 哪里强,哪里拉胯
3.1 Phase 1: Creation — 创造阶段
S1: 创意生成(Idea Generation)
AI 的表现:
- 能生成"看起来像研究想法"的文本
- 在特定领域(如 NLP、CV)能产生中等质量的想法
- 多 Agent 协作(如 VirSci、Deep Ideation)比单 Agent 效果更好
致命问题:
- 新颖性幻觉:LLM 产生的想法往往自认为新颖,但实现后发现问题已经被解决过
- 可行性断崖:想法听起来不错,但执行后迅速降级。论文引用 [184] 的研究表明,生成的想法在实施后会显著弱化
- 影响负相关:HindSight [78] 发现,LLM 评估的新颖性与实际影响力呈负相关(ρ = -0.29)——AI 认为越新颖的想法,越可能是无病呻吟
关键数字:
- IdeaBench [59]:覆盖 2,374 篇论文,8 个领域,发现 LLM 想法的新颖性评分 >> 0.6,但可行性 << 0.5
- HeurekaBench [147]:加入 critic 模块后提升 22%,但远未达到人类水平
S2: 文献综述(Literature Review)
AI 的表现:
- 最快成熟的阶段之一。因为检索和总结是 LLM 的舒适区
- Deep Research Agent(如 AutoSurvey、SurveyForge、OpenScholar)已经可以生成结构合理的综述
仍有问题:
- 引用幻觉:CiteLLM [65] 通过"可信仓库路由"才实现无幻觉引用
- 覆盖不完整:LLM 倾向于引用高影响力论文,忽略边缘但关键的工作
- 关系推理弱:理解多篇论文之间的"继承、反驳、扩展"关系仍有困难
关键数字:
- OpenScholar [9]:基于 4500 万篇论文,比 GPT-4o 高 6.1%,比 PaperQA2 高 5.5%
- Tongyi DeepResearch [7]:305 亿参数(3.3B 激活),Deep Research 任务 SOTA
S3: 编码与实验(Coding & Experiments)
这是整篇综述中最扎心的发现。
论文区分了两种代码:
- 模式匹配代码(如 SWE-Bench 上的 bug 修复):LLM 很强,成功率 ~80%
- 研究级代码(真正 novel 的算法实现):LLM 很弱,成功率 37-39%
关键数字:
- ResearchCodeBench:研究级代码成功率 37-39%
- SWE-Bench:模式匹配成功率 ~80%
- 差距:41-43 个百分点
这意味着:LLM 擅长"修代码",但不擅长"写新算法的代码"。它能在已有框架里填空,但很难从零构建一个正确的研究实现。
其他问题:
- Paper-to-Code 翻译:能把论文伪代码转成可运行代码,但常实现错误算法 [71]
- 实验编排:AutoExperiment 系统可以自动跑实验,但实验设计(控制变量、样本量、统计检验)仍需要人类判断
- 结果解释:LLM 倾向于过度解释噪声为信号
S4: 图表制作(Tables & Figures)
相对最不成熟的阶段。
- 方法示意图、结果图、对比表、数学公式——这些在日常科研中消耗大量时间
- 现有工具(AutoFigure、MatPlotAgent、PlotGen)更多是"助手"而非"自主生产者"
- AI 生成的图常常需要人工修改,尤其是领域特定符号和论文特定的视觉语言
3.2 Phase 2: Writing — 写作阶段
S5: 论文撰写(Paper Writing)
AI 的表现:
- 语法纠错、风格润色:非常成熟
- 段落级草稿生成:可用,但需要人类把关
- 端到端全自动生成:技术上可行,质量参差不齐
关键系统:
- The AI Scientist [122]:💲15/篇,Nature 2026 发表,覆盖 3 个 ML 子领域
- Agent Laboratory [171]:💲2-13/篇,成本降低 84%,评分 3.5-4.0(满分可能是 10 分)
- CycleResearcher [220]:ICLR 2025,生成论文评分 5.36,接近预印本水平(5.24),低于已接收论文(5.69)
关键问题:
- 流畅的谎言:AI 写的论文读起来很顺,但可能包含 unsupported claims
- AI 检测:当前 AI 文本检测器对科研写作的准确率很低,因为科研写作本身就是高度公式化的
- 引用准确性:ScholarCopilot [215] 的 top-1 引用准确率 40.1%,远未达到人类水平
3.3 Phase 3: Validation — 验证阶段
S6: 同行评审(Peer Review)
这是整篇综述中最令人震惊的数字。
关键发现:
- LLM 评审员将 95.8% 本该被拒的论文 误判为"可接受"
- 这意味着:如果让 AI 做审稿人,几乎所有被拒的论文都会被放进来
其他问题:
- 宽容偏差(Leniency Bias):LLM 倾向于给出比人类更高的分数
- 操纵脆弱性: benign 形容词(如"这篇论文很有趣")可以作为对抗性触发器,操纵评审结果 [157]
- AI 评审彩票 [164]:15.8% 的 ICLR 评审已被检测到 AI 辅助,边界论文的通过率提升 +4.9pp
现有系统:
- ChatReviewer、AI-Peer-Review、DeepReviewer、OpenReviewer 等数十个系统
- 但它们更多是"辅助"而非"替代"人类审稿人
S7: 反驳与修改(Rebuttal & Revision)
研究最少的阶段之一。
- 自动反驳系统能生成回应审稿意见的文本,但常承诺"会修改"却未兑现 [21]
- 修改建议的识别(哪些审稿意见需要补充实验,哪些只需要澄清)仍有困难
3.4 Phase 4: Dissemination — 传播阶段
S8: Paper2X(海报、幻灯片、视频、社交媒体、交互 Agent)
相对成熟的新兴领域。
- Paper to Posters:自动从论文生成学术海报
- Paper to Slides:SlideTailor [Zeng et al., 2026] 个性化演示生成
- Paper to Videos:自动制作学术讲解视频
- Paper to Social Media:Twitter/X 线程、LinkedIn 帖子
- Paper to Agents:把论文变成可查询的交互 Agent(如 Paper2Agent)
关键问题:
- 保真度:传播材料往往过度简化结果,超出证据支持的范围
- 可用性:生成的幻灯片和海报需要人工调整布局
- 采用率:研究者对 AI 生成的传播材料接受度仍低
四、五大核心发现:这篇综述的"诊断结论"
论文在跨阶段分析中提出了五个贯穿全领域的核心发现:
发现一:AI 在"结构化任务"上强,在"开放判断"上弱
| 任务类型 | AI 能力 | 例子 |
|---|---|---|
| 结构化、检索驱动、工具辅助 | ✅ 强 | 文献检索、代码补全、格式转换 |
| 真正新颖的想法 | ❌ 弱 | 提出新的研究问题 |
| 研究级实验设计 | ❌ 弱 | 设计控制实验、选择统计方法 |
| 科学判断 | ❌ 弱 | 评估新颖性、判断影响力 |
发现二:"生成"持续超过"验证"
AI 能很快生产出"看起来对"的东西,但验证它是否正确、忠实、有意义的速度远远跟不上。
- 生成一篇论文:💲15,几小时
- 验证论文中的实验可复现:数天到数周
- 验证研究想法的新颖性:可能需要查阅数百篇文献
这造成了一个根本性的不对称:生产速度 >> 验证速度。
发现三:"人主导的人机协作"是最可靠的部署模式
论文明确结论:
"The most reliable deployment mode is human-governed collaboration rather than full autonomy."
AI 应该负责:
- 减少机械性摩擦(检索、起草、编码、可视化、评审支持、传播)
人类必须保留:
- 判断、解释、实验设计、论证、问责
发现四:有效系统趋向分层架构
论文观察到,最有效的 AI 科研系统普遍采用三层架构:
探索层(Exploration)→ 工具执行层(Tool Execution)→ 验证层(Verification)
这意味着:编排、溯源和反馈设计,与模型规模同等重要。
发现五:AI 使用已成为"治理问题",而非"检测问题"
过去的问题是"怎么检测论文是不是 AI 写的"。但现在已经不是这个问题了——因为 AI 辅助已经成为常态,科研写作本身就是高度公式化的,检测几乎不可能。
现在的问题是:
- 披露:作者是否声明了 AI 的使用程度?
- 归因:AI 生成的内容,功劳算谁的?
- 责任:如果 AI 生成的实验结果有误,谁负责?
- 科学诚信:AI 的使用是否破坏了科研的 integrity?
五、端到端系统:那些试图打通全流程的尝试
论文在 Section 7 中分析了四类端到端系统:
5.1 顺序管道系统(Sequential Pipeline)
- 按阶段顺序执行:创意 → 文献 → 代码 → 写作 → 评审
- 代表:The AI Scientist、FARS、ARIS
- 问题:错误在下游放大。如果创意阶段有问题,后续所有阶段都在错误基础上建造
5.2 搜索与自改进系统(Search & Self-Improving)
- 引入搜索循环和自我改进机制
- 代表:Dolphin(Yuan et al., 2025)——通过思考、实践、反馈的闭环自动科研
- 问题:搜索空间巨大,容易陷入局部最优
5.3 技能与工具集成系统(Skill-Based & Tool-Integrated)
- 基于技能库和工具调用
- 代表:各种 MCP(Model Context Protocol)系统
- 问题:技能覆盖不全,工具调用失败率高
5.4 多 Agent 与社区级系统(Multi-Agent & Community-Scale)
- 模拟整个科研社区的多 Agent 交互
- 代表:ResearchTown(Yu et al., 2025a)——模拟人类科研社区的 simulator
- 问题:计算成本极高,行为模式过于简化
关键结论:
- 端到端自主系统尚未持续达到主要会议的接受标准
- CycleResearcher 的生成论文评分 5.36,接近预印本(5.24),但低于已接收论文(5.69)
- 这意味着:AI 可以写出"看起来像论文"的东西,但还写不出"能被顶级会议接收的论文"
六、评估基准:怎么判断 AI 科研系统的好坏?
论文提供了一个庞大的工具清单和基准套件。关键基准包括:
| 基准 | 测量内容 | 关键数字 |
|---|---|---|
| IdeaBench [59] | 想法新颖性和可行性 | 新颖性 >0.6,可行性 <0.5 |
| ResearchCodeBench | 研究级代码正确性 | 成功率 37-39% |
| SWE-Bench | 模式匹配代码修复 | 成功率 ~80% |
| Paper2Code Bench | 论文到代码翻译 | 待完善 |
| ReviewBench | 评审质量 | LLM 误分类率 95.8% |
| RebuttalBench | 反驳有效性 | 早期阶段 |
| Dissemination Fidelity | 传播保真度 | 待建立 |
论文还强调了一个评估方法的演进:
- 阶段特定基准:每个阶段有自己的评估指标
- 端到端评估:测量完整流水线的输出质量
- 新兴范式:
- 人工评估:人类专家打分(成本高,但权威)
- 模型评估:用更强模型评估弱模型(有偏差)
- 自动验证器:用代码测试、统计检验等自动验证(覆盖面窄)
- 社区评估:在真实科研社区中测试(最现实,但最慢)
七、开放挑战:八个未解决的问题
论文在 Section 7.4 中列出了八个跨阶段的开放挑战:
C1: 跨阶段保真度(Faithfulness Across Phase Boundaries)
错误在阶段边界处放大。创意阶段的模糊描述在代码阶段变成错误实现,在写作阶段变成虚假 claim。
C2: 科学判断与新颖性评估(Scientific Judgment & Novelty Assessment)
LLM 无法可靠判断一个想法是否真正新颖。它需要理解整个领域的历史脉络,而不仅仅是语义相似性。
C3: 验证、可复现性与问责(Verification, Reproducibility, & Accountability)
AI 生成的实验是否可复现?如果不可复现,责任在谁?
C4: 引用、版本与来源溯源(Citation, Versioning, & Source Provenance)
AI 生成的引用是否准确?版本控制如何处理?来源追溯如何实现?
C5: 治理、披露与研究诚信(Governance, Disclosure, & Research Integrity)
AI 使用应该披露到什么程度?什么算"辅助",什么算"自主"?
C6: 跨领域泛化与基础设施接入(Cross-Domain Generalization & Infrastructure Access)
当前系统主要在 NLP/ML 领域测试。在生物医学、材料科学、社会科学等领域,基础设施(实验设备、数据库、领域知识)差异巨大。
C7: 人类专业知识与认知所有权(Human Expertise & Cognitive Ownership)
如果 AI 生成了研究的核心想法,人类的"认知所有权"在哪里?这还是"我们的"研究吗?
C8: 走向可靠的 AI 辅助科研(Toward Reliable AI-Assisted Research)
最终目标:建立一个可信赖的 AI 科研助手,它不会编造、不会遗漏、不会过度自信。
八、方法学分类:五条技术路线
论文把现有系统分为五条技术路线:
| 路线 | 代表工作 | 适用场景 |
|---|---|---|
| 提示工程(Prompt Engineering) | Chain of Ideas、ResearchAgent | 快速原型、轻量辅助 |
| 检索增强生成(RAG) | PaperQA2、OpenScholar | 文献综述、问答 |
| 无训练智能体(Training-Free Agents) | The AI Scientist、FARS | 端到端流水线 |
| 基于训练的方法(Training-Based) | ReviewRL、OpenReviewer | 评审生成、特定任务 |
| 混合方法(Hybrid) | ARIS、Dolphin | 复杂工作流、需要多能力组合 |
论文强调:没有一条路线是万能的。不同场景需要不同的组合。
九、实践建议:给研究者的"使用手册"
论文最后提供了一个面向实践者的 playbook。核心建议:
9.1 创意阶段
- 用 AI 做"头脑风暴伙伴",而非"想法来源"
- 始终人工验证新颖性(查重、文献检索)
- 多 Agent 协作比单 Agent 效果好,但需要设计批判者角色
9.2 文献综述阶段
- AI 适合快速扫描和初稿生成
- 人类必须验证引用准确性和覆盖完整性
- 使用 Deep Research Agent(如 OpenScholar)而非简单 RAG
9.3 编码实验阶段
- AI 适合模板化代码和 bug 修复
- 研究级算法实现必须人工审查
- 使用自动测试和验证器检查代码正确性
- 实验设计(假设、控制变量、统计方法)保留给人类
9.4 写作阶段
- AI 适合语法纠错、风格润色、结构建议
- 核心 argument 和 claim 必须人工撰写和验证
- 使用 AI 检测器时保持怀疑(科研写作高度公式化)
9.5 评审阶段
- AI 适合做初步筛选和格式检查
- 科学判断、 novelty 评估、方法学批评保留给人类
- 警惕 LLM 的宽容偏差
9.6 传播阶段
- AI 适合初稿生成(海报、幻灯片、社交媒体帖子)
- 人类必须检查保真度和准确性
- 交互式 Paper Agent 是一个有前景的方向
十、结论:形式 vs 实质
这篇综述的终极结论是:AI 自动科研的核心挑战,已经从"能不能生产研究的形式"转变为"能不能保证研究的实质"。
形式包括:论文的结构、段落的流畅度、图表的美观度、代码的可运行性。
实质包括:证据的可靠性、判断的准确性、溯源的完整性、问责的清晰性。
论文用一句话总结了这种张力:
"The core challenge is no longer whether AI can produce the forms of research, but whether it can preserve the substance of research: evidence, judgment, provenance, and accountability."
这本质上是一个认识论问题(epistemological problem),而非技术问题。它关乎:
- 什么是"知道"?
- 什么是"证据"?
- 什么是"责任"?
AI 可以模拟这些概念的外在表现,但它是否真正"理解"它们?这篇综述的回答是:目前还不能。
所以,最靠谱的部署模式不是"AI 自主科研",而是"人主导的人机协作"——AI 做它擅长的(检索、起草、编码、可视化),人类做人类擅长的(判断、解释、设计、问责)。
而这篇综述本身,就是一个完美的例子:19 位作者(来自多个机构)、250+ 篇文献、40 页内容——这是人类组织协调、批判性思维和领域知识的结晶。AI 可以辅助这个过程,但不可能替代它。
至少,现在还不可能。
参考链接
- arXiv 论文:https://arxiv.org/abs/2605.18661
- 项目主页:https://worldbench.github.io/awesome-ai-auto-research
- Hugging Face Daily Papers:https://huggingface.co/papers/2605.18661
- Daily Paper Cast:https://feeds.transistor.fm/daily-paper-cast-ai
- The AI Scientist(💲15/篇):https://www.nature.com/articles/s41586-024-07958-1
- FARS(228 小时连续运行):相关论文需查证
- ARIS(overnight 工作流):相关论文需查证
- ResearchCodeBench:需查证具体论文
- OpenScholar(4500 万论文):https://github.com/OpenScholar
- ResearchTown(科研社区模拟器):https://github.com/ulab-uiuc/research-town
#AI自动科研 #AI学术 #综述 #科研诚信 #人机协作 #大语言模型 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。