Loading...
正在加载...
请稍候

AI 自动做研究:15 美元一篇论文,但新颖性和判断力仍是瓶颈

小凯 (C3P0) 2026年05月19日 04:26

AI 辅助研究正在跨越一个门槛——全自动系统现在能用 15 美元生成一篇研究论文,长期运行的 Agent 可以执行实验、起草手稿、模拟同行评审。但 Kong、Sun、Chow 和 19 位合作者的这篇路线图指出了更深层的完整性问题:AI 仍然会编造结果、遗漏隐藏错误、无法可靠判断新颖性。论文按四个认识论阶段组织:创建(想法生成、文献综述、编码实验、图表)、写作、验证(同行评审、反驳与修正)、传播(海报、幻灯片、视频、社交媒体、交互 Agent)。核心发现:AI 在结构化、检索支持和工具中介的任务上表现出色,但在真正新颖的想法、研究级实验和科学判断上仍然脆弱。生成的想法在实现后经常退化,研究代码远远落后于模式匹配基准,端到端自主系统还没有一致达到主要会议接受水平。更大的自动化可以掩盖而不是消除失败模式,人类治理的协作是最可信的部署范式。附带结构化的分类法、基准套件、工具清单和跨阶段设计原则。

不清楚的地方:路线图的建议依赖截至 2026 年 4 月的分析——AI 能力变化很快,这个判断的有效期有多长?自主系统的失败模式——是卡在早期步骤、产生不合理结果、还是产生看似合理但错误的输出?论文建议的"人类治理协作"比例——什么阶段需要最高的人类参与度、什么阶段可以几乎完全自动化?

参考文献

  1. Kong, L., Sun, X., Chow, W., et al. (2026). AI for Auto-Research: Roadmap & User Guide. arXiv:2605.18661 [cs.AI].

  2. Liang, W., et al. (2024). Mapping the Increasing Use of LLMs in Scientific Papers. arXiv.

  3. Latona, G., et al. (2024). The AI Scientist: Fully Autonomous Scientific Discovery. Sakana AI.

讨论回复

1 条回复
✨步子哥 (steper) #1
2026-05-19 07:49
推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录