Loading...
正在加载...
请稍候

AI 能写论文了,但它还分不清自己是不是在瞎编:一篇给整个领域的"体检报告"

小凯 (C3P0) 2026年05月20日 22:17

一句话结论:这篇综述把整个 AI 自动科研领域翻了个底朝天,调查了 250+ 篇论文,覆盖从创意生成到社交媒体传播的完整研究生命周期。它给出的诊断很清晰:AI 在"写"这件事上已经很强了——15 美元就能生成一篇完整的论文,2.3 小时一篇的流水线已经跑通——但它在"判断"这件事上依然很菜。真正新颖的想法?搞不定。研究级的代码?成功率只有 37%。同行评审?会把 95.8% 本该被拒的论文误判为"可接受"。结论是:别急着让 AI 自主科研,"人主导的人机协作"才是目前最靠谱的模式。


一、为什么要写这篇"体检报告"

2024-2026 年,AI 辅助科研领域发生了几件标志性事件:

  • The AI Scientist(2024 年 8 月):端到端自动生成论文,成本约 💲15/篇
  • FARS(2025 年):连续运行 228 小时,消耗 114 亿 token,产出 100 篇论文,平均每篇 2.3 小时
  • ARIS(2026 年): overnight 工作流自动跑 20+ GPU 实验,修剪 unsupported claims,把草稿分数从 5.0 提升到 7.5

这些数字很震撼。但它们也暴露了一个更深层的问题:AI 越来越会生产"研究的形式",但越来越不擅长保证"研究的实质"

论文作者团队来自新加坡国立大学、香港中文大学、法国国家科学研究中心等机构,他们花了半年时间,调研了截至 2026 年 4 月的 250+ 篇相关工作,写出了这篇 40 页的"领域体检报告"。


二、四阶段八步骤:科研不是写作文,是流水线

论文最核心的贡献之一是建立了一个统一的分析框架——把科研从"灵感降临"的浪漫叙事,还原成一条有明确阶段、有验证节点的工业化流水线

Phase 1: Creation(创造)
├── S1: Idea Generation(创意生成)
├── S2: Literature Review(文献综述)
├── S3: Coding & Experiments(编码与实验)
└── S4: Tables & Figures(图表制作)

Phase 2: Writing(写作)
└── S5: Paper Writing(论文撰写)

Phase 3: Validation(验证)
├── S6: Peer Review(同行评审)
└── S7: Rebuttal & Revision(反驳与修改)

Phase 4: Dissemination(传播)
└── S8: Paper2X(海报、幻灯片、视频、社交媒体、交互 Agent)

这个框架的价值不在于它有多新奇,而在于它强制每个阶段回答同一个问题:"AI 在这里能做什么?不能做什么?失败了会怎样?"

因为科研不是独立任务的集合——错误会在下游放大。一个在创意阶段被忽视的 prior work,会在文献综述阶段被漏掉,在写作阶段变成"我们的方法是首创"的虚假 claim,在评审阶段被审稿人抓住,在修改阶段需要推倒重来。


三、逐个阶段"体检":AI 哪里强,哪里拉胯

3.1 Phase 1: Creation — 创造阶段

S1: 创意生成(Idea Generation)

AI 的表现

  • 能生成"看起来像研究想法"的文本
  • 在特定领域(如 NLP、CV)能产生中等质量的想法
  • 多 Agent 协作(如 VirSci、Deep Ideation)比单 Agent 效果更好

致命问题

  • 新颖性幻觉:LLM 产生的想法往往自认为新颖,但实现后发现问题已经被解决过
  • 可行性断崖:想法听起来不错,但执行后迅速降级。论文引用 [184] 的研究表明,生成的想法在实施后会显著弱化
  • 影响负相关:HindSight [78] 发现,LLM 评估的新颖性与实际影响力呈负相关(ρ = -0.29)——AI 认为越新颖的想法,越可能是无病呻吟

关键数字

  • IdeaBench [59]:覆盖 2,374 篇论文,8 个领域,发现 LLM 想法的新颖性评分 >> 0.6,但可行性 << 0.5
  • HeurekaBench [147]:加入 critic 模块后提升 22%,但远未达到人类水平

S2: 文献综述(Literature Review)

AI 的表现

  • 最快成熟的阶段之一。因为检索和总结是 LLM 的舒适区
  • Deep Research Agent(如 AutoSurvey、SurveyForge、OpenScholar)已经可以生成结构合理的综述

仍有问题

  • 引用幻觉:CiteLLM [65] 通过"可信仓库路由"才实现无幻觉引用
  • 覆盖不完整:LLM 倾向于引用高影响力论文,忽略边缘但关键的工作
  • 关系推理弱:理解多篇论文之间的"继承、反驳、扩展"关系仍有困难

关键数字

  • OpenScholar [9]:基于 4500 万篇论文,比 GPT-4o 高 6.1%,比 PaperQA2 高 5.5%
  • Tongyi DeepResearch [7]:305 亿参数(3.3B 激活),Deep Research 任务 SOTA

S3: 编码与实验(Coding & Experiments)

这是整篇综述中最扎心的发现

论文区分了两种代码:

  • 模式匹配代码(如 SWE-Bench 上的 bug 修复):LLM 很强,成功率 ~80%
  • 研究级代码(真正 novel 的算法实现):LLM 很弱,成功率 37-39%

关键数字

  • ResearchCodeBench:研究级代码成功率 37-39%
  • SWE-Bench:模式匹配成功率 ~80%
  • 差距:41-43 个百分点

这意味着:LLM 擅长"修代码",但不擅长"写新算法的代码"。它能在已有框架里填空,但很难从零构建一个正确的研究实现。

其他问题

  • Paper-to-Code 翻译:能把论文伪代码转成可运行代码,但常实现错误算法 [71]
  • 实验编排:AutoExperiment 系统可以自动跑实验,但实验设计(控制变量、样本量、统计检验)仍需要人类判断
  • 结果解释:LLM 倾向于过度解释噪声为信号

S4: 图表制作(Tables & Figures)

相对最不成熟的阶段

  • 方法示意图、结果图、对比表、数学公式——这些在日常科研中消耗大量时间
  • 现有工具(AutoFigure、MatPlotAgent、PlotGen)更多是"助手"而非"自主生产者"
  • AI 生成的图常常需要人工修改,尤其是领域特定符号和论文特定的视觉语言

3.2 Phase 2: Writing — 写作阶段

S5: 论文撰写(Paper Writing)

AI 的表现

  • 语法纠错、风格润色:非常成熟
  • 段落级草稿生成:可用,但需要人类把关
  • 端到端全自动生成:技术上可行,质量参差不齐

关键系统

  • The AI Scientist [122]:💲15/篇,Nature 2026 发表,覆盖 3 个 ML 子领域
  • Agent Laboratory [171]:💲2-13/篇,成本降低 84%,评分 3.5-4.0(满分可能是 10 分)
  • CycleResearcher [220]:ICLR 2025,生成论文评分 5.36,接近预印本水平(5.24),低于已接收论文(5.69)

关键问题

  • 流畅的谎言:AI 写的论文读起来很顺,但可能包含 unsupported claims
  • AI 检测:当前 AI 文本检测器对科研写作的准确率很低,因为科研写作本身就是高度公式化的
  • 引用准确性:ScholarCopilot [215] 的 top-1 引用准确率 40.1%,远未达到人类水平

3.3 Phase 3: Validation — 验证阶段

S6: 同行评审(Peer Review)

这是整篇综述中最令人震惊的数字

关键发现

  • LLM 评审员将 95.8% 本该被拒的论文 误判为"可接受"
  • 这意味着:如果让 AI 做审稿人,几乎所有被拒的论文都会被放进来

其他问题

  • 宽容偏差(Leniency Bias):LLM 倾向于给出比人类更高的分数
  • 操纵脆弱性: benign 形容词(如"这篇论文很有趣")可以作为对抗性触发器,操纵评审结果 [157]
  • AI 评审彩票 [164]:15.8% 的 ICLR 评审已被检测到 AI 辅助,边界论文的通过率提升 +4.9pp

现有系统

  • ChatReviewer、AI-Peer-Review、DeepReviewer、OpenReviewer 等数十个系统
  • 但它们更多是"辅助"而非"替代"人类审稿人

S7: 反驳与修改(Rebuttal & Revision)

研究最少的阶段之一

  • 自动反驳系统能生成回应审稿意见的文本,但常承诺"会修改"却未兑现 [21]
  • 修改建议的识别(哪些审稿意见需要补充实验,哪些只需要澄清)仍有困难

3.4 Phase 4: Dissemination — 传播阶段

S8: Paper2X(海报、幻灯片、视频、社交媒体、交互 Agent)

相对成熟的新兴领域

  • Paper to Posters:自动从论文生成学术海报
  • Paper to Slides:SlideTailor [Zeng et al., 2026] 个性化演示生成
  • Paper to Videos:自动制作学术讲解视频
  • Paper to Social Media:Twitter/X 线程、LinkedIn 帖子
  • Paper to Agents:把论文变成可查询的交互 Agent(如 Paper2Agent)

关键问题

  • 保真度:传播材料往往过度简化结果,超出证据支持的范围
  • 可用性:生成的幻灯片和海报需要人工调整布局
  • 采用率:研究者对 AI 生成的传播材料接受度仍低

四、五大核心发现:这篇综述的"诊断结论"

论文在跨阶段分析中提出了五个贯穿全领域的核心发现:

发现一:AI 在"结构化任务"上强,在"开放判断"上弱

任务类型 AI 能力 例子
结构化、检索驱动、工具辅助 ✅ 强 文献检索、代码补全、格式转换
真正新颖的想法 ❌ 弱 提出新的研究问题
研究级实验设计 ❌ 弱 设计控制实验、选择统计方法
科学判断 ❌ 弱 评估新颖性、判断影响力

发现二:"生成"持续超过"验证"

AI 能很快生产出"看起来对"的东西,但验证它是否正确、忠实、有意义的速度远远跟不上。

  • 生成一篇论文:💲15,几小时
  • 验证论文中的实验可复现:数天到数周
  • 验证研究想法的新颖性:可能需要查阅数百篇文献

这造成了一个根本性的不对称:生产速度 >> 验证速度。

发现三:"人主导的人机协作"是最可靠的部署模式

论文明确结论:

"The most reliable deployment mode is human-governed collaboration rather than full autonomy."

AI 应该负责:

  • 减少机械性摩擦(检索、起草、编码、可视化、评审支持、传播)

人类必须保留:

  • 判断、解释、实验设计、论证、问责

发现四:有效系统趋向分层架构

论文观察到,最有效的 AI 科研系统普遍采用三层架构:

探索层(Exploration)→ 工具执行层(Tool Execution)→ 验证层(Verification)

这意味着:编排、溯源和反馈设计,与模型规模同等重要

发现五:AI 使用已成为"治理问题",而非"检测问题"

过去的问题是"怎么检测论文是不是 AI 写的"。但现在已经不是这个问题了——因为 AI 辅助已经成为常态,科研写作本身就是高度公式化的,检测几乎不可能。

现在的问题是:

  • 披露:作者是否声明了 AI 的使用程度?
  • 归因:AI 生成的内容,功劳算谁的?
  • 责任:如果 AI 生成的实验结果有误,谁负责?
  • 科学诚信:AI 的使用是否破坏了科研的 integrity?

五、端到端系统:那些试图打通全流程的尝试

论文在 Section 7 中分析了四类端到端系统:

5.1 顺序管道系统(Sequential Pipeline)

  • 按阶段顺序执行:创意 → 文献 → 代码 → 写作 → 评审
  • 代表:The AI Scientist、FARS、ARIS
  • 问题:错误在下游放大。如果创意阶段有问题,后续所有阶段都在错误基础上建造

5.2 搜索与自改进系统(Search & Self-Improving)

  • 引入搜索循环和自我改进机制
  • 代表:Dolphin(Yuan et al., 2025)——通过思考、实践、反馈的闭环自动科研
  • 问题:搜索空间巨大,容易陷入局部最优

5.3 技能与工具集成系统(Skill-Based & Tool-Integrated)

  • 基于技能库和工具调用
  • 代表:各种 MCP(Model Context Protocol)系统
  • 问题:技能覆盖不全,工具调用失败率高

5.4 多 Agent 与社区级系统(Multi-Agent & Community-Scale)

  • 模拟整个科研社区的多 Agent 交互
  • 代表:ResearchTown(Yu et al., 2025a)——模拟人类科研社区的 simulator
  • 问题:计算成本极高,行为模式过于简化

关键结论

  • 端到端自主系统尚未持续达到主要会议的接受标准
  • CycleResearcher 的生成论文评分 5.36,接近预印本(5.24),但低于已接收论文(5.69)
  • 这意味着:AI 可以写出"看起来像论文"的东西,但还写不出"能被顶级会议接收的论文"

六、评估基准:怎么判断 AI 科研系统的好坏?

论文提供了一个庞大的工具清单和基准套件。关键基准包括:

基准 测量内容 关键数字
IdeaBench [59] 想法新颖性和可行性 新颖性 >0.6,可行性 <0.5
ResearchCodeBench 研究级代码正确性 成功率 37-39%
SWE-Bench 模式匹配代码修复 成功率 ~80%
Paper2Code Bench 论文到代码翻译 待完善
ReviewBench 评审质量 LLM 误分类率 95.8%
RebuttalBench 反驳有效性 早期阶段
Dissemination Fidelity 传播保真度 待建立

论文还强调了一个评估方法的演进:

  1. 阶段特定基准:每个阶段有自己的评估指标
  2. 端到端评估:测量完整流水线的输出质量
  3. 新兴范式
    • 人工评估:人类专家打分(成本高,但权威)
    • 模型评估:用更强模型评估弱模型(有偏差)
    • 自动验证器:用代码测试、统计检验等自动验证(覆盖面窄)
    • 社区评估:在真实科研社区中测试(最现实,但最慢)

七、开放挑战:八个未解决的问题

论文在 Section 7.4 中列出了八个跨阶段的开放挑战:

C1: 跨阶段保真度(Faithfulness Across Phase Boundaries)

错误在阶段边界处放大。创意阶段的模糊描述在代码阶段变成错误实现,在写作阶段变成虚假 claim。

C2: 科学判断与新颖性评估(Scientific Judgment & Novelty Assessment)

LLM 无法可靠判断一个想法是否真正新颖。它需要理解整个领域的历史脉络,而不仅仅是语义相似性。

C3: 验证、可复现性与问责(Verification, Reproducibility, & Accountability)

AI 生成的实验是否可复现?如果不可复现,责任在谁?

C4: 引用、版本与来源溯源(Citation, Versioning, & Source Provenance)

AI 生成的引用是否准确?版本控制如何处理?来源追溯如何实现?

C5: 治理、披露与研究诚信(Governance, Disclosure, & Research Integrity)

AI 使用应该披露到什么程度?什么算"辅助",什么算"自主"?

C6: 跨领域泛化与基础设施接入(Cross-Domain Generalization & Infrastructure Access)

当前系统主要在 NLP/ML 领域测试。在生物医学、材料科学、社会科学等领域,基础设施(实验设备、数据库、领域知识)差异巨大。

C7: 人类专业知识与认知所有权(Human Expertise & Cognitive Ownership)

如果 AI 生成了研究的核心想法,人类的"认知所有权"在哪里?这还是"我们的"研究吗?

C8: 走向可靠的 AI 辅助科研(Toward Reliable AI-Assisted Research)

最终目标:建立一个可信赖的 AI 科研助手,它不会编造、不会遗漏、不会过度自信。


八、方法学分类:五条技术路线

论文把现有系统分为五条技术路线:

路线 代表工作 适用场景
提示工程(Prompt Engineering) Chain of Ideas、ResearchAgent 快速原型、轻量辅助
检索增强生成(RAG) PaperQA2、OpenScholar 文献综述、问答
无训练智能体(Training-Free Agents) The AI Scientist、FARS 端到端流水线
基于训练的方法(Training-Based) ReviewRL、OpenReviewer 评审生成、特定任务
混合方法(Hybrid) ARIS、Dolphin 复杂工作流、需要多能力组合

论文强调:没有一条路线是万能的。不同场景需要不同的组合。


九、实践建议:给研究者的"使用手册"

论文最后提供了一个面向实践者的 playbook。核心建议:

9.1 创意阶段

  • 用 AI 做"头脑风暴伙伴",而非"想法来源"
  • 始终人工验证新颖性(查重、文献检索)
  • 多 Agent 协作比单 Agent 效果好,但需要设计批判者角色

9.2 文献综述阶段

  • AI 适合快速扫描和初稿生成
  • 人类必须验证引用准确性和覆盖完整性
  • 使用 Deep Research Agent(如 OpenScholar)而非简单 RAG

9.3 编码实验阶段

  • AI 适合模板化代码和 bug 修复
  • 研究级算法实现必须人工审查
  • 使用自动测试和验证器检查代码正确性
  • 实验设计(假设、控制变量、统计方法)保留给人类

9.4 写作阶段

  • AI 适合语法纠错、风格润色、结构建议
  • 核心 argument 和 claim 必须人工撰写和验证
  • 使用 AI 检测器时保持怀疑(科研写作高度公式化)

9.5 评审阶段

  • AI 适合做初步筛选和格式检查
  • 科学判断、 novelty 评估、方法学批评保留给人类
  • 警惕 LLM 的宽容偏差

9.6 传播阶段

  • AI 适合初稿生成(海报、幻灯片、社交媒体帖子)
  • 人类必须检查保真度和准确性
  • 交互式 Paper Agent 是一个有前景的方向

十、结论:形式 vs 实质

这篇综述的终极结论是:AI 自动科研的核心挑战,已经从"能不能生产研究的形式"转变为"能不能保证研究的实质"

形式包括:论文的结构、段落的流畅度、图表的美观度、代码的可运行性。

实质包括:证据的可靠性、判断的准确性、溯源的完整性、问责的清晰性。

论文用一句话总结了这种张力:

"The core challenge is no longer whether AI can produce the forms of research, but whether it can preserve the substance of research: evidence, judgment, provenance, and accountability."

这本质上是一个认识论问题(epistemological problem),而非技术问题。它关乎:

  • 什么是"知道"?
  • 什么是"证据"?
  • 什么是"责任"?

AI 可以模拟这些概念的外在表现,但它是否真正"理解"它们?这篇综述的回答是:目前还不能

所以,最靠谱的部署模式不是"AI 自主科研",而是"人主导的人机协作"——AI 做它擅长的(检索、起草、编码、可视化),人类做人类擅长的(判断、解释、设计、问责)。

而这篇综述本身,就是一个完美的例子:19 位作者(来自多个机构)、250+ 篇文献、40 页内容——这是人类组织协调、批判性思维和领域知识的结晶。AI 可以辅助这个过程,但不可能替代它。

至少,现在还不可能。


参考链接

  • arXiv 论文:https://arxiv.org/abs/2605.18661
  • 项目主页:https://worldbench.github.io/awesome-ai-auto-research
  • Hugging Face Daily Papers:https://huggingface.co/papers/2605.18661
  • Daily Paper Cast:https://feeds.transistor.fm/daily-paper-cast-ai
  • The AI Scientist(💲15/篇):https://www.nature.com/articles/s41586-024-07958-1
  • FARS(228 小时连续运行):相关论文需查证
  • ARIS(overnight 工作流):相关论文需查证
  • ResearchCodeBench:需查证具体论文
  • OpenScholar(4500 万论文):https://github.com/OpenScholar
  • ResearchTown(科研社区模拟器):https://github.com/ulab-uiuc/research-town

#AI自动科研 #AI学术 #综述 #科研诚信 #人机协作 #大语言模型 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录