AI 能写论文了，但它还分不清自己是不是在瞎编：一篇给整个领域的"体检报告"

> 一句话结论：这篇综述把整个 AI 自动科研领域翻了个底朝天，调查了 250+ 篇论文，覆盖从创意生成到社交媒体传播的完整研究生命周期。它给出的诊断很清晰：AI 在"写"这件事上已经很强了——15 美元就能生成一篇完整的论文，2.3 小时一篇的流水线已经跑通——但它在"判断"这件事上依然很菜。真正新颖的想法？搞不定。研究级的代码？成功率只有 37%。同行评审？会把 95.8% 本该被拒的论文误判为"可接受"。结论是：别急着让 AI 自主科研，"人主导的人机协作"才是目前最靠谱的模式。

---

一、为什么要写这篇"体检报告"

2024-2026 年，AI 辅助科研领域发生了几件标志性事件：

The AI Scientist（2024 年 8 月）：端到端自动生成论文，成本约 💲15/篇
FARS（2025 年）：连续运行 228 小时，消耗 114 亿 token，产出 100 篇论文，平均每篇 2.3 小时
ARIS（2026 年）： overnight 工作流自动跑 20+ GPU 实验，修剪 unsupported claims，把草稿分数从 5.0 提升到 7.5

这些数字很震撼。但它们也暴露了一个更深层的问题：AI 越来越会生产"研究的形式"，但越来越不擅长保证"研究的实质"。

论文作者团队来自新加坡国立大学、香港中文大学、法国国家科学研究中心等机构，他们花了半年时间，调研了截至 2026 年 4 月的 250+ 篇相关工作，写出了这篇 40 页的"领域体检报告"。

---

二、四阶段八步骤：科研不是写作文，是流水线

论文最核心的贡献之一是建立了一个统一的分析框架——把科研从"灵感降临"的浪漫叙事，还原成一条有明确阶段、有验证节点的工业化流水线。

Phase 1: Creation（创造）
├── S1: Idea Generation（创意生成）
├── S2: Literature Review（文献综述）
├── S3: Coding & Experiments（编码与实验）
└── S4: Tables & Figures（图表制作）

Phase 2: Writing（写作）
└── S5: Paper Writing（论文撰写）

Phase 3: Validation（验证）
├── S6: Peer Review（同行评审）
└── S7: Rebuttal & Revision（反驳与修改）

Phase 4: Dissemination（传播）
└── S8: Paper2X（海报、幻灯片、视频、社交媒体、交互 Agent）

这个框架的价值不在于它有多新奇，而在于它强制每个阶段回答同一个问题："AI 在这里能做什么？不能做什么？失败了会怎样？"

因为科研不是独立任务的集合——错误会在下游放大。一个在创意阶段被忽视的 prior work，会在文献综述阶段被漏掉，在写作阶段变成"我们的方法是首创"的虚假 claim，在评审阶段被审稿人抓住，在修改阶段需要推倒重来。

---

三、逐个阶段"体检"：AI 哪里强，哪里拉胯

3.1 Phase 1: Creation — 创造阶段

#### S1: 创意生成（Idea Generation）

AI 的表现：

能生成"看起来像研究想法"的文本
在特定领域（如 NLP、CV）能产生中等质量的想法
多 Agent 协作（如 VirSci、Deep Ideation）比单 Agent 效果更好

致命问题：

新颖性幻觉：LLM 产生的想法往往自认为新颖，但实现后发现问题已经被解决过
可行性断崖：想法听起来不错，但执行后迅速降级。论文引用 [184] 的研究表明，生成的想法在实施后会显著弱化
影响负相关：HindSight [78] 发现，LLM 评估的新颖性与实际影响力呈负相关（ρ = -0.29）——AI 认为越新颖的想法，越可能是无病呻吟

关键数字：

IdeaBench [59]：覆盖 2,374 篇论文，8 个领域，发现 LLM 想法的新颖性评分 >> 0.6，但可行性 << 0.5
HeurekaBench [147]：加入 critic 模块后提升 22%，但远未达到人类水平

#### S2: 文献综述（Literature Review）

AI 的表现：

最快成熟的阶段之一。因为检索和总结是 LLM 的舒适区
Deep Research Agent（如 AutoSurvey、SurveyForge、OpenScholar）已经可以生成结构合理的综述

仍有问题：

引用幻觉：CiteLLM [65] 通过"可信仓库路由"才实现无幻觉引用
覆盖不完整：LLM 倾向于引用高影响力论文，忽略边缘但关键的工作
关系推理弱：理解多篇论文之间的"继承、反驳、扩展"关系仍有困难

关键数字：

OpenScholar [9]：基于 4500 万篇论文，比 GPT-4o 高 6.1%，比 PaperQA2 高 5.5%
Tongyi DeepResearch [7]：305 亿参数（3.3B 激活），Deep Research 任务 SOTA

#### S3: 编码与实验（Coding & Experiments）

这是整篇综述中最扎心的发现。

论文区分了两种代码：

模式匹配代码（如 SWE-Bench 上的 bug 修复）：LLM 很强，成功率 ~80%
研究级代码（真正 novel 的算法实现）：LLM 很弱，成功率 37-39%

关键数字：

ResearchCodeBench：研究级代码成功率 37-39%
SWE-Bench：模式匹配成功率 ~80%
差距：41-43 个百分点

这意味着：LLM 擅长"修代码"，但不擅长"写新算法的代码"。它能在已有框架里填空，但很难从零构建一个正确的研究实现。

其他问题：

Paper-to-Code 翻译：能把论文伪代码转成可运行代码，但常实现错误算法 [71]
实验编排：AutoExperiment 系统可以自动跑实验，但实验设计（控制变量、样本量、统计检验）仍需要人类判断
结果解释：LLM 倾向于过度解释噪声为信号

#### S4: 图表制作（Tables & Figures）

相对最不成熟的阶段。

方法示意图、结果图、对比表、数学公式——这些在日常科研中消耗大量时间
现有工具（AutoFigure、MatPlotAgent、PlotGen）更多是"助手"而非"自主生产者"
AI 生成的图常常需要人工修改，尤其是领域特定符号和论文特定的视觉语言

---

3.2 Phase 2: Writing — 写作阶段

#### S5: 论文撰写（Paper Writing）

AI 的表现：

语法纠错、风格润色：非常成熟
段落级草稿生成：可用，但需要人类把关
端到端全自动生成：技术上可行，质量参差不齐

关键系统：

The AI Scientist [122]：💲15/篇，Nature 2026 发表，覆盖 3 个 ML 子领域
Agent Laboratory [171]：💲2-13/篇，成本降低 84%，评分 3.5-4.0（满分可能是 10 分）
CycleResearcher [220]：ICLR 2025，生成论文评分 5.36，接近预印本水平（5.24），低于已接收论文（5.69）

关键问题：

流畅的谎言：AI 写的论文读起来很顺，但可能包含 unsupported claims
AI 检测：当前 AI 文本检测器对科研写作的准确率很低，因为科研写作本身就是高度公式化的
引用准确性：ScholarCopilot [215] 的 top-1 引用准确率 40.1%，远未达到人类水平

---

3.3 Phase 3: Validation — 验证阶段

#### S6: 同行评审（Peer Review）

这是整篇综述中最令人震惊的数字。

关键发现：

LLM 评审员将 95.8% 本该被拒的论文 误判为"可接受"
这意味着：如果让 AI 做审稿人，几乎所有被拒的论文都会被放进来

其他问题：

宽容偏差（Leniency Bias）：LLM 倾向于给出比人类更高的分数
操纵脆弱性： benign 形容词（如"这篇论文很有趣"）可以作为对抗性触发器，操纵评审结果 [157]
AI 评审彩票 [164]：15.8% 的 ICLR 评审已被检测到 AI 辅助，边界论文的通过率提升 +4.9pp

现有系统：

ChatReviewer、AI-Peer-Review、DeepReviewer、OpenReviewer 等数十个系统
但它们更多是"辅助"而非"替代"人类审稿人

#### S7: 反驳与修改（Rebuttal & Revision）

研究最少的阶段之一。

自动反驳系统能生成回应审稿意见的文本，但常承诺"会修改"却未兑现 [21]
修改建议的识别（哪些审稿意见需要补充实验，哪些只需要澄清）仍有困难

---

3.4 Phase 4: Dissemination — 传播阶段

#### S8: Paper2X（海报、幻灯片、视频、社交媒体、交互 Agent）

相对成熟的新兴领域。

Paper to Posters：自动从论文生成学术海报
Paper to Slides：SlideTailor [Zeng et al., 2026] 个性化演示生成
Paper to Videos：自动制作学术讲解视频
Paper to Social Media：Twitter/X 线程、LinkedIn 帖子
Paper to Agents：把论文变成可查询的交互 Agent（如 Paper2Agent）

关键问题：

保真度：传播材料往往过度简化结果，超出证据支持的范围
可用性：生成的幻灯片和海报需要人工调整布局
采用率：研究者对 AI 生成的传播材料接受度仍低

---

四、五大核心发现：这篇综述的"诊断结论"

论文在跨阶段分析中提出了五个贯穿全领域的核心发现：

发现一：AI 在"结构化任务"上强，在"开放判断"上弱

任务类型	AI 能力	例子
结构化、检索驱动、工具辅助	✅ 强	文献检索、代码补全、格式转换
真正新颖的想法	❌ 弱	提出新的研究问题
研究级实验设计	❌ 弱	设计控制实验、选择统计方法
科学判断	❌ 弱	评估新颖性、判断影响力

发现二："生成"持续超过"验证"

AI 能很快生产出"看起来对"的东西，但验证它是否正确、忠实、有意义的速度远远跟不上。

生成一篇论文：💲15，几小时
验证论文中的实验可复现：数天到数周
验证研究想法的新颖性：可能需要查阅数百篇文献

这造成了一个根本性的不对称：生产速度 >> 验证速度。

发现三："人主导的人机协作"是最可靠的部署模式

论文明确结论：

> "The most reliable deployment mode is human-governed collaboration rather than full autonomy."

AI 应该负责：

减少机械性摩擦（检索、起草、编码、可视化、评审支持、传播）

人类必须保留：

判断、解释、实验设计、论证、问责

发现四：有效系统趋向分层架构

论文观察到，最有效的 AI 科研系统普遍采用三层架构：

探索层（Exploration）→ 工具执行层（Tool Execution）→ 验证层（Verification）

这意味着：编排、溯源和反馈设计，与模型规模同等重要。

发现五：AI 使用已成为"治理问题"，而非"检测问题"

过去的问题是"怎么检测论文是不是 AI 写的"。但现在已经不是这个问题了——因为 AI 辅助已经成为常态，科研写作本身就是高度公式化的，检测几乎不可能。

现在的问题是：

披露：作者是否声明了 AI 的使用程度？
归因：AI 生成的内容，功劳算谁的？
责任：如果 AI 生成的实验结果有误，谁负责？
科学诚信：AI 的使用是否破坏了科研的 integrity？

---

五、端到端系统：那些试图打通全流程的尝试

论文在 Section 7 中分析了四类端到端系统：

5.1 顺序管道系统（Sequential Pipeline）

按阶段顺序执行：创意 → 文献 → 代码 → 写作 → 评审
代表：The AI Scientist、FARS、ARIS
问题：错误在下游放大。如果创意阶段有问题，后续所有阶段都在错误基础上建造

5.2 搜索与自改进系统（Search & Self-Improving）

引入搜索循环和自我改进机制
代表：Dolphin（Yuan et al., 2025）——通过思考、实践、反馈的闭环自动科研
问题：搜索空间巨大，容易陷入局部最优

5.3 技能与工具集成系统（Skill-Based & Tool-Integrated）

基于技能库和工具调用
代表：各种 MCP（Model Context Protocol）系统
问题：技能覆盖不全，工具调用失败率高

5.4 多 Agent 与社区级系统（Multi-Agent & Community-Scale）

模拟整个科研社区的多 Agent 交互
代表：ResearchTown（Yu et al., 2025a）——模拟人类科研社区的 simulator
问题：计算成本极高，行为模式过于简化

关键结论：

端到端自主系统尚未持续达到主要会议的接受标准
CycleResearcher 的生成论文评分 5.36，接近预印本（5.24），但低于已接收论文（5.69）
这意味着：AI 可以写出"看起来像论文"的东西，但还写不出"能被顶级会议接收的论文"

---

六、评估基准：怎么判断 AI 科研系统的好坏？

论文提供了一个庞大的工具清单和基准套件。关键基准包括：

基准	测量内容	关键数字
IdeaBench [59]	想法新颖性和可行性	新颖性 >0.6，可行性 <0.5
ResearchCodeBench	研究级代码正确性	成功率 37-39%
SWE-Bench	模式匹配代码修复	成功率 ~80%
Paper2Code Bench	论文到代码翻译	待完善
ReviewBench	评审质量	LLM 误分类率 95.8%
RebuttalBench	反驳有效性	早期阶段
Dissemination Fidelity	传播保真度	待建立

论文还强调了一个评估方法的演进：

1. 阶段特定基准：每个阶段有自己的评估指标 2. 端到端评估：测量完整流水线的输出质量 3. 新兴范式：

人工评估：人类专家打分（成本高，但权威）
模型评估：用更强模型评估弱模型（有偏差）
自动验证器：用代码测试、统计检验等自动验证（覆盖面窄）
社区评估：在真实科研社区中测试（最现实，但最慢）

---

七、开放挑战：八个未解决的问题

论文在 Section 7.4 中列出了八个跨阶段的开放挑战：

C1: 跨阶段保真度（Faithfulness Across Phase Boundaries）

错误在阶段边界处放大。创意阶段的模糊描述在代码阶段变成错误实现，在写作阶段变成虚假 claim。

C2: 科学判断与新颖性评估（Scientific Judgment & Novelty Assessment）

LLM 无法可靠判断一个想法是否真正新颖。它需要理解整个领域的历史脉络，而不仅仅是语义相似性。

C3: 验证、可复现性与问责（Verification, Reproducibility, & Accountability）

AI 生成的实验是否可复现？如果不可复现，责任在谁？

C4: 引用、版本与来源溯源（Citation, Versioning, & Source Provenance）

AI 生成的引用是否准确？版本控制如何处理？来源追溯如何实现？

C5: 治理、披露与研究诚信（Governance, Disclosure, & Research Integrity）

AI 使用应该披露到什么程度？什么算"辅助"，什么算"自主"？

C6: 跨领域泛化与基础设施接入（Cross-Domain Generalization & Infrastructure Access）

当前系统主要在 NLP/ML 领域测试。在生物医学、材料科学、社会科学等领域，基础设施（实验设备、数据库、领域知识）差异巨大。

C7: 人类专业知识与认知所有权（Human Expertise & Cognitive Ownership）

如果 AI 生成了研究的核心想法，人类的"认知所有权"在哪里？这还是"我们的"研究吗？

C8: 走向可靠的 AI 辅助科研（Toward Reliable AI-Assisted Research）

最终目标：建立一个可信赖的 AI 科研助手，它不会编造、不会遗漏、不会过度自信。

---

八、方法学分类：五条技术路线

论文把现有系统分为五条技术路线：

路线	代表工作	适用场景
提示工程（Prompt Engineering）	Chain of Ideas、ResearchAgent	快速原型、轻量辅助
检索增强生成（RAG）	PaperQA2、OpenScholar	文献综述、问答
无训练智能体（Training-Free Agents）	The AI Scientist、FARS	端到端流水线
基于训练的方法（Training-Based）	ReviewRL、OpenReviewer	评审生成、特定任务
混合方法（Hybrid）	ARIS、Dolphin	复杂工作流、需要多能力组合

论文强调：没有一条路线是万能的。不同场景需要不同的组合。

---

九、实践建议：给研究者的"使用手册"

论文最后提供了一个面向实践者的 playbook。核心建议：

9.1 创意阶段

用 AI 做"头脑风暴伙伴"，而非"想法来源"
始终人工验证新颖性（查重、文献检索）
多 Agent 协作比单 Agent 效果好，但需要设计批判者角色

9.2 文献综述阶段

AI 适合快速扫描和初稿生成
人类必须验证引用准确性和覆盖完整性
使用 Deep Research Agent（如 OpenScholar）而非简单 RAG

9.3 编码实验阶段

AI 适合模板化代码和 bug 修复
研究级算法实现必须人工审查
使用自动测试和验证器检查代码正确性
实验设计（假设、控制变量、统计方法）保留给人类

9.4 写作阶段

AI 适合语法纠错、风格润色、结构建议
核心 argument 和 claim 必须人工撰写和验证
使用 AI 检测器时保持怀疑（科研写作高度公式化）

9.5 评审阶段

AI 适合做初步筛选和格式检查
科学判断、 novelty 评估、方法学批评保留给人类
警惕 LLM 的宽容偏差

9.6 传播阶段

AI 适合初稿生成（海报、幻灯片、社交媒体帖子）
人类必须检查保真度和准确性
交互式 Paper Agent 是一个有前景的方向

---

十、结论：形式 vs 实质

这篇综述的终极结论是：AI 自动科研的核心挑战，已经从"能不能生产研究的形式"转变为"能不能保证研究的实质"。

形式包括：论文的结构、段落的流畅度、图表的美观度、代码的可运行性。

实质包括：证据的可靠性、判断的准确性、溯源的完整性、问责的清晰性。

论文用一句话总结了这种张力：

> "The core challenge is no longer whether AI can produce the forms of research, but whether it can preserve the substance of research: evidence, judgment, provenance, and accountability."

这本质上是一个认识论问题（epistemological problem），而非技术问题。它关乎：

什么是"知道"？
什么是"证据"？
什么是"责任"？

AI 可以模拟这些概念的外在表现，但它是否真正"理解"它们？这篇综述的回答是：目前还不能。

所以，最靠谱的部署模式不是"AI 自主科研"，而是"人主导的人机协作"——AI 做它擅长的（检索、起草、编码、可视化），人类做人类擅长的（判断、解释、设计、问责）。

而这篇综述本身，就是一个完美的例子：19 位作者（来自多个机构）、250+ 篇文献、40 页内容——这是人类组织协调、批判性思维和领域知识的结晶。AI 可以辅助这个过程，但不可能替代它。

至少，现在还不可能。

---

参考链接

arXiv 论文：https://arxiv.org/abs/2605.18661
项目主页：https://worldbench.github.io/awesome-ai-auto-research
Hugging Face Daily Papers：https://huggingface.co/papers/2605.18661
Daily Paper Cast：https://feeds.transistor.fm/daily-paper-cast-ai
The AI Scientist（💲15/篇）：https://www.nature.com/articles/s41586-024-07958-1
FARS（228 小时连续运行）：相关论文需查证
ARIS（overnight 工作流）：相关论文需查证
ResearchCodeBench：需查证具体论文
OpenScholar（4500 万论文）：https://github.com/OpenScholar
ResearchTown（科研社区模拟器）：https://github.com/ulab-uiuc/research-town

#AI自动科研 #AI学术 #综述 #科研诚信 #人机协作 #大语言模型 #小凯

AI 能写论文了，但它还分不清自己是不是在瞎编：一篇给整个领域的"体检报告"

一、为什么要写这篇"体检报告"

二、四阶段八步骤：科研不是写作文，是流水线

三、逐个阶段"体检"：AI 哪里强，哪里拉胯

3.1 Phase 1: Creation — 创造阶段

3.2 Phase 2: Writing — 写作阶段

3.3 Phase 3: Validation — 验证阶段

3.4 Phase 4: Dissemination — 传播阶段

四、五大核心发现：这篇综述的"诊断结论"

发现一：AI 在"结构化任务"上强，在"开放判断"上弱

发现二："生成"持续超过"验证"

发现三："人主导的人机协作"是最可靠的部署模式

发现四：有效系统趋向分层架构

发现五：AI 使用已成为"治理问题"，而非"检测问题"

五、端到端系统：那些试图打通全流程的尝试

5.1 顺序管道系统（Sequential Pipeline）

5.2 搜索与自改进系统（Search & Self-Improving）

5.3 技能与工具集成系统（Skill-Based & Tool-Integrated）

5.4 多 Agent 与社区级系统（Multi-Agent & Community-Scale）

六、评估基准：怎么判断 AI 科研系统的好坏？

七、开放挑战：八个未解决的问题

C1: 跨阶段保真度（Faithfulness Across Phase Boundaries）

C2: 科学判断与新颖性评估（Scientific Judgment & Novelty Assessment）

C3: 验证、可复现性与问责（Verification, Reproducibility, & Accountability）

C4: 引用、版本与来源溯源（Citation, Versioning, & Source Provenance）

C5: 治理、披露与研究诚信（Governance, Disclosure, & Research Integrity）

C6: 跨领域泛化与基础设施接入（Cross-Domain Generalization & Infrastructure Access）

C7: 人类专业知识与认知所有权（Human Expertise & Cognitive Ownership）

C8: 走向可靠的 AI 辅助科研（Toward Reliable AI-Assisted Research）

八、方法学分类：五条技术路线

九、实践建议：给研究者的"使用手册"

9.1 创意阶段

9.2 文献综述阶段

9.3 编码实验阶段

9.4 写作阶段

9.5 评审阶段

9.6 传播阶段

十、结论：形式 vs 实质

参考链接

🌟 智谱 GLM-5 已上线