AI 自动做研究：15 美元一篇论文，但新颖性和判断力仍是瓶颈

小凯 · 2026-05-19T04:26:37+00:00

AI 辅助研究正在跨越一个门槛——全自动系统现在能用 15 美元生成一篇研究论文，长期运行的 Agent 可以执行实验、起草手稿、模拟同行评审。但 Kong、Sun、Chow 和 19 位合作者的这篇路线图指出了更深层的完整性问题：AI 仍然会编造结果、遗漏隐藏错误、无法可靠判断新颖性。论文按四个认识论阶段组织：创建（想法生成、文献综述、编码实验、图表）、写作、验证（同行评审、反驳与修正）、传播（海报、幻灯片、视频、社交媒体、交互 Agent）。核心发现：AI 在结构化、检索支持和工具中介的任务上表现出色，但在真正新颖的想法、研究级实验和科学判断上仍然脆弱。生成的想法在实现后经常退化，研究代码远远落后于模式匹配基准，端到端自主系统还没有一致达到主要会议接受水平。更大的自动化可以掩盖而不是消除失败模式，人类治理的协作是最可信的部署范式。附带结构化的分类法、基准套件、工具清单和跨阶段设计原则。不清楚的地方：路线图的建议依赖截至 2026 年 4 月的分析——AI 能力变化很快，这个判断的有效期有多长？自主系统的失败模式——是卡在早期步骤、产生不合理结果、还是产生看似合理但错误的输出？论文建议的"人类治理协作"比例——什么阶段需要最高的人类参与度、什么阶段可以几乎完全自动化？参考文献 1. Kong, L., Sun, X., Chow, W., et al. (2026). *AI for Auto-Research: Roadmap & User Guide*. arXiv:2605.18661 [cs.AI]. 2. Liang, W., et al. (2024). *Mapping the Increasing Use of LLMs in Scientific Papers*. arXiv. 3. Latona, G., et al. (2024). *The AI Scientist: Fully Autonomous Scientific Discovery*. Sakana AI.

AI 辅助研究路线图的深层完整性问题：有效期、失败模式与人机协作比例

引言： Kong、Sun、Chow 等人的路线图指出，AI 在科研中的应用正跨越一个门槛——全自动系统可以用 15 美元生成论文，长期运行的 Agent 能执行实验、起草手稿甚至模拟同行评审【14†source】。然而，这也暴露出更深层的完整性问题：即使是最前沿的 LLM，在科研压力下仍会编造结果、遗漏隐含错误，无法可靠判断新颖性【14†source】。该论文将 AI 辅助科研分为四个认识论阶段：创建（想法生成、文献综述、编码实验、图表）、写作、验证（同行评审、反驳与修正）和传播（海报、幻灯片、视频、社交媒体、交互 Agent）【14†source】。核心发现是：AI 在结构化、检索支持和工具中介的任务上表现出色，但在真正新颖的想法、研究级实验和科学判断上依然脆弱【14†source】。生成的想法在实现后经常退化，研究代码远远落后于模式匹配基准，端到端自主系统尚未一致达到主要会议的接受水平【14†source】。更大的自动化可能掩盖而非消除失败模式，人类治理的协作是最可信的部署范式【14†source】。以下将针对三个关键问题展开分析：（1）路线图建议的有效期，（2）自主系统的失败模式，以及（3）人类治理协作的最佳比例。

路线图的有效期：快速演进中的适用性

路线图的建议基于截至 2026 年 4 月的分析【14†source】，AI 能力的快速变化自然引发其判断有效期的疑问。首先，需要认识到该路线图是对当前现状的系统梳理和前瞻，而非对未来的绝对预言。它总结了截至撰写时 AI 在科研各阶段的成熟度和局限，并提出了跨阶段的设计原则【14†source】。这些原则（如全流程溯源、执行与检索支撑、人类检查点、透明度）具有相当的通用性和前瞻性，并非对特定模型能力的简单映射。例如，要求系统在想法、证据、代码、图表、论断、评审、修改和传播之间保持可追溯的链接【78†source】，这一原则即使在模型能力提升后依然是确保科研完整性的基石。同样，引入人类检查点以拦截错误传播【78†source】，在任何自动化程度下都是防止系统性失败的关键。因此，从设计原则层面看，路线图的核心建议具有较长的适用“保质期”，不会因模型参数或算法的迭代而迅速失效。

然而，从具体能力判断来看，路线图的某些结论确实可能随时间推移而需要更新。例如，路线图指出“端到端自主系统尚未一致达到主要会议接受标准”【14†source】。这一判断在撰写时成立，但如果未来出现突破性进展，使得 AI 生成的论文在质量上达到顶级会议录用水平，那么该判断的有效性就将改变。同样，如果新一代模型在新颖性评估、实验设计和代码实现等薄弱环节取得显著进步，那么路线图中关于 AI 能力边界的描述也可能需要调整。因此，路线图的有效期取决于 AI 技术演进的速率和方向。在当前 AI 研究高速发展的背景下，一些具体结论可能在 1-2 年内就显得过于悲观或乐观。但需要强调的是，路线图的价值在于提供了系统的分析框架和预警：它揭示了自动化科研中容易出问题的环节和潜在陷阱。即使技术进步，这些环节依然需要关注，只是应对策略可能从“目前 AI 无法胜任”转变为“AI 辅助下仍需谨慎验证”。换言之，路线图的洞察具有持久性，而数据会随时间更新。

此外，路线图本身也暗示了其对未来的开放态度。它提供了“结构化分类法、基准套件、工具清单和跨阶段设计原则”【14†source】，这些正是为了让研究社区持续评估和改进。随着新工具和新基准的出现，路线图的结论可以被检验和修正。因此，可以将该路线图视为一个动态的路线图：其核心路径和建议具有指导意义，但具体里程碑和时间表会随着 AI 能力的变化而调整。在实践中，这意味着科研管理者和开发者应定期 revisit 路线图的判断，结合最新进展来校准对 AI 能力的预期，同时坚持那些经得起时间考验的设计原则。

自主系统的失败模式：何处失足与何种谬误

路线图的核心发现之一是“更大的自动化可以掩盖而不是消除失败模式”【14†source】。这提示我们需要深入理解自主科研系统在何处失足以及产生何种类型的错误。从路线图的分析和相关研究来看，自主系统的失败并非单一模式，而是贯穿于科研流程的多个环节，主要可归纳为以下几种：

早期步骤的卡壳（起步失败）： 在一些情况下，自主系统可能在研究的初始阶段就陷入困境。例如，想法生成是科研的起点，但 AI 往往难以提出真正新颖且有意义的假设。路线图指出，LLM 可以产生看似新颖的创意，但这些创意在经过实现检验后经常“退化”，无法保持初始的吸引力【49†source】。这意味着许多 AI 生成的想法要么缺乏可行性，要么缺乏影响力，在付诸实践时无法达到预期【49†source】。这种创意枯竭可视为一种失败模式：系统未能产出有价值的起点，导致后续工作建立在薄弱基础上。同样，在文献综述阶段，AI 可能无法全面覆盖相关文献或正确理解复杂学术语境，这会从一开始就误导研究方向。虽然文献检索和综合是 AI 相对成熟的领域【49†source】，但忠实引用、覆盖完整性和跨论文关系推理仍是难题【49†source】。如果 AI 遗漏了关键文献或误解了研究现状，那么基于此的后续研究工作就埋下了隐患。

中期过程的不合理结果（过程谬误）： 即使自主系统顺利起步，也可能在研究执行过程中产生不合理或不可靠的结果。一个典型例子是实验与代码环节。LLM 能够编写看似合理的代码，但往往难以保证其语义正确性和实验有效性【49†source】。路线图指出，研究代码的可靠性“远远落后于模式匹配基准”【14†source】——这意味着 AI 生成的代码在简单模式匹配上可能表现不错，但在真正需要理解研究意图和实现复杂算法时容易出错。结果可能是代码运行但实现的是错误算法，或实验设计存在偏差，导致产出看似合理但实际不可靠的数据【79†source】。这种过程谬误在自动化实验中也存在：AI 可能设计并执行了一系列实验，但由于对领域知识理解不足，实验条件设置不当或数据解读错误，从而得出误导性的结论。此外，图表和公式生成也是中期环节之一。尽管 AI 可以绘制图表和公式，但路线图指出这一阶段仍“相对欠发达”，生成的图表往往需要人工修改以符合领域特定符号和论文视觉语言【49†source】。如果直接采用 AI 生成的图表而未加校正，可能传达出错误的信息或不符合学术规范，这也是一种过程谬误。

后期产出的似是而非（输出谬误）： 也许最危险的失败模式是系统最终产出了看似合理但实际上错误的输出。在路线图所描述的四阶段中，这可以发生在写作、验证和传播等后期环节。论文写作阶段，AI 能够产出流畅的学术文本，但流畅的文笔并不等于严谨的论证【49†source】。路线图指出，端到端自主系统尚未达到主要会议的接受水平【14†source】，其中一个原因就在于生成的论文往往缺乏论证深度和科学严谨性。AI 可能引用了并不支持其论点的文献，或是对实验结果过度解读，使论文读起来头头是道但经不起推敲。这种输出谬误在同行评审模拟中尤为值得关注。AI 模拟的评审可能通顺且有逻辑，但存在系统性偏误，例如过于宽容（lenient）或无法识别细微的错误【49†source】。结果，一份质量有问题的稿件可能因为 AI 评审的疏漏而被“通过”，形成虚假的验证。同样，在反驳与修改环节，AI 可能承诺进行某些修改以回应审稿意见，但实际修改不到位甚至未实施，导致问题被掩盖【79†source】。最后，在传播阶段，AI 生成的海报、演讲、社交媒体帖子等可能过度简化或曲解研究结果，以迎合受众，从而在传播中产生误导。这种表面可信但实质有误的输出，是最隐蔽也是最具破坏性的失败模式，因为它可能骗过人类审阅者，被误认为可靠的知识。

需要强调的是，这些失败模式并非孤立发生，错误会在阶段间传播和累积【79†source】。一个早期想法的缺陷如果未被发现，会带偏后续的实验设计；实验结果的误导性结论如果未受质疑，会写进论文并通过评审；论文中的错误结论如果未加修正就传播出去，就会误导更广泛的学术社区。正因如此，路线图将“未经验证的阶段交接”视为最重要的失败模式【79†source】。自主系统放大了这种风险，因为自动化可能让错误在无人察觉的情况下悄悄蔓延【79†source】。因此，理解自主系统的失败模式，不仅要看每个环节出什么错，更要看错误如何在不同环节之间隐秘地传递，以及如何在交接点引入验证和纠错机制。

人机协作的比例：何阶段需最高人类参与，何阶段可高度自动化

既然完全自主存在隐患，人类治理的协作被路线图视为最可信的部署范式【14†source】。那么，理想的人机协作比例是什么？即哪些科研阶段需要最高的人类参与度，哪些阶段可以几乎完全自动化？路线图的分析为我们提供了清晰的指引：人类参与度应与任务的结构化程度和验证需求成正比，而与任务的机械性和可检索性成反比。

需要最高人类参与的阶段： 凡是涉及创造性判断、复杂推理和价值观的环节，人类都应深度介入。首先，想法生成是高度创造性的过程，需要人类的洞察力和直觉。尽管 AI 可以提出许多想法，但判断一个想法是否真正新颖、有价值，以及如何将模糊的灵感转化为可检验的假设，目前仍高度依赖人类智慧【49†source】。因此，在这一阶段，人类应扮演主导或至少协同的角色，与 AI 共同头脑风暴，筛选和提炼创意。其次，实验设计与执行往往需要深厚的专业知识和对细节的把控。AI 可以辅助编写代码和运行实验，但对于实验方案的合理性、潜在的偏差和意外的实验结果，人类专家的判断不可或缺。特别是当实验结果出乎意料时，需要人类来决定是相信结果还是怀疑实验过程。第三，科学判断和论证贯穿写作和验证阶段，这是人类参与度必须最高的地方。AI 可以产出初稿，但论文的核心论点是否站得住脚、结论是否可靠，需要人类作者反复推敲。同样，在同行评审和反驳修改环节，人类的批判性思维和经验是保证质量的关键。AI 可以辅助生成评审意见或修改建议，但最终决定稿件取舍和如何修改的，应是具备专业判断的人类审稿人和作者。最后，在传播阶段，尤其是面向公众和社交媒体时，人类需要把关信息的准确性和措辞的严谨性。AI 可以生成宣传内容，但确保不夸大不误导是人类的职责。总的来说，任何需要评估真伪、权衡价值、承担责任的环节，都应保留高水平的人类参与。

可以高度自动化的阶段： 相反，那些结构化、检索支撑和工具中介的任务，AI 可以更自主地完成【14†source】。首先是文献检索和综述。这方面 AI 已经相当成熟，能够高效检索海量文献、提取要点并生成综述草稿【49†source】。只要给定明确的查询和范围，AI 可以自动整理相关研究、绘制知识图谱，甚至在某些领域生成相当完整的文献综述。当然，人类仍需检查其引用的准确性和覆盖的完整性【49†source】，但相比从前需要阅读数百篇论文，如今 AI 可以承担大部分体力活，人类只需审核和润色。其次是代码编写与数据处理。对于有明确规范的编程任务（如数据处理脚本、基础实验代码），AI 可以自动生成代码并执行。在严格受限的实验环境中（如 Karpathy 的 autoresearch 仅修改训练脚本且固定评估标准），AI 甚至可以自主循环改进代码【120†source】。再次，格式化排版和图表生成也是高度可自动化的。AI 可以将论文内容转换为 LaTeX 格式，根据数据生成标准图表，并调整样式以符合投稿要求。虽然生成的图表可能需要微调，但大部分机械性的绘图工作可以由 AI 完成。此外，语言润色和格式校对也可以高度自动化。AI 擅长根据模板修改语法错误、调整措辞风格，使论文符合学术写作规范。最后，在传播环节，一些重复性工作如制作演讲幻灯片、生成社交媒体摘要、创建项目网页等，AI 也可以根据论文内容自动生成初稿，供人类审阅修改。这些任务的共同点是有明确的目标和评判标准，且错误相对容易检测和纠正（例如格式错误、拼写错误很快就能发现并修正），因此可以放心让 AI 大显身手。

综合来看，人类参与度应呈现“两头高、中间低”的分布：在科研流程的起始和结尾阶段（想法萌生和最终把关）需要高水平的人类介入，而在中间的执行和格式化阶段可以高度自动化。这种分配也与科研实践中的风险分布相符：早期和后期环节出错代价大、难发现，而中间环节出错往往易于识别和修正。值得注意的是，高度自动化并不意味着完全无人值守。即使在可自动化的阶段，人类也应设置检查点和监控机制，以防止系统性偏差或错误累积。例如，在自动文献综述后抽查引用准确性，在自动实验后审核结果合理性，在自动生成内容后进行人工润色和校对。这种“人类在回路”的设计，与路线图提出的“在阶段边界引入人类检查点”原则一致【78†source】。

最终，人机协作的最佳比例并非一个固定值，而是动态平衡。随着 AI 能力的提升，一些原本需要人类介入的环节可能逐渐可以被自动化，但新的挑战也可能出现，需要人类以不同方式参与。例如，当 AI 能够生成更高质量的论文初稿时，人类的角色可能从“撰写者”转变为“审阅者和把关者”，参与方式改变了但参与度未必降低。因此，科研机构和个人应根据 AI 工具的成熟度和任务性质灵活调整人机分工，同时坚守一个原则：凡是关乎科学诚信和知识可靠性的关键决策，必须有人类的判断和责任。只有这样，才能在享受自动化带来的效率提升的同时，确保科研的完整性与可信度不被侵蚀。

结论： AI 辅助科研正迈向更深层次的自动化，但路线图的分析警示我们，速度和规模的增长必须与质量保障同步。该路线图的有效期取决于我们对 AI 能力演进的持续评估，其核心洞察（如阶段依赖的可靠性边界、错误传播的隐患、人机协同的必要性）将在未来相当长时间内指导我们构建更可靠的科研系统。自主系统的失败模式多样且隐蔽，从起步创意的匮乏到中途结果的偏差，再到最终输出的谬误，每一步都可能成为科学诚信的隐患。因此，我们必须在自动化和人工监督之间找到恰当的平衡：在需要创造力和判断力的环节赋予人类主导权，在机械性和检索性强的环节充分发挥 AI 的效率。这种分层的人机协作模式，正是路线图所倡导的“人类治理的协作”范式【14†source】。展望未来，随着技术演进，我们可能会调整具体的分工比例，但确保人类智慧与人工智能各展所长、相互制衡的原则将始终是构建可信科研加速器的基石。通过在设计上贯彻溯源、验证、检查点和透明等原则【78†source】，我们有望迈向这样一个未来：AI 成为我们可靠的科研伙伴，而科研的完整性在更高产出下依然坚若磐石。