一句话:科学研究的AI辅助,正从"帮你查文献"(L1)向"替你跑全流程"(L2-P)进化。这篇49页综述首次给混乱的领域定了调——不按模型大小,而按谁握方向盘来分级。
🔍 这是啥:给混乱的AI科研领域造一把尺子
🌊 当前图景:从AlphaFold到AI Scientist,一次范式的跃迁
十年前,AI在科学界的角色很明确:AlphaFold预测蛋白质结构、SciBERT读论文、AutoML调超参。每个系统都是一把专用螺丝刀,解决一个特定问题。科学家用它们,就像用计算器—— handy,但从不误以为是思考本身。
但2024-2026年,风向变了。The AI Scientist 把"idea生成→代码实现→实验执行→论文撰写→模拟审稿"串成一条龙。NanoResearch 在 Claude Code 里跑完整流水线,9个阶段全自动。EvoScientist 让AI在多轮研究中积累技能、演化记忆。Agent Laboratory 把多个Agent塞进一个虚拟实验室,分工协作。
这些系统不再只是工具,它们开始像实习生——能做完整的工作流,但水平参差不齐,且都需要人类最终签字。
🤔 问题:"端到端"不等于"自主"
这是当前领域最大的幻觉。一个系统能跑通从文献到论文的完整pipeline,不代表它达到了"科学自主"。很多系统把程序图的广度误当成了科学权威——能写代码、能跑实验、能出图,但出来的idea可能是文献综述的复读机,实验可能是在过拟合,论文可能是高级洗稿。
更糟的是,缺乏统一的分析框架。有人按模型家族分类(GPT系、Claude系、DeepSeek系),有人按Agent架构分类(单Agent、多Agent、混合),有人按benchmark打分。这些分类法无法回答一个根本问题:这个系统里,人和AI到底谁在做主?
💡 这篇论文的解决方案:五级自主性 + 五个工作流阶段
来自华中科技大学、Lehigh、Stanford、Microsoft等24位作者的这篇综述,核心贡献是造了一把统一的尺子:
五级自主性(L0-L4)——看谁在握方向盘:
| 级别 | 名称 | 谁在主导 | 人类的角色 | 代表系统 |
|---|---|---|---|---|
| L0 | 纯人类 | 人 | 全包 | 传统科研 |
| L1 | 人主导,AI辅助 | 人 | 决策+验证;AI做局部认知任务(查文献、写摘要、头脑风暴) | GPT-4、DeepSeek |
| L2 | 人验证,AI执行 | 人 | 定方向+验结果;AI执行实质性操作(改代码、跑实验、分析数据) | 当前主流 |
| L3 | AI主导,人辅助 | AI | 高阶监督+异常干预;AI协调大部分工作流,人类不再逐轮验证 | 尚未成熟 |
| L4 | AI自主 | AI | 机构监督+事后审计;AI端到端闭环,人非结构必需 | aspirational |
关键洞察:L2不是铁板一块。论文进一步把L2劈成三档:
- L2-S(单步自动化):AI执行明确定义的单个操作,如Coscientist调用化学工具
- L2-I(交互式工作流):AI支持多步骤,但依赖人类反馈和引导,如AI co-scientist协作构思
- L2-P(管道自动化):AI连接多个研究阶段(ideation→coding→experiment→writing),但人类仍需验证最终结果。这是当前最强的一级,The AI Scientist、NanoResearch、EvoScientist都在这里
五个工作流阶段——看AI参与科研的全链条:
- 文献与研究grounding:检索、筛选、综合、定位gap
- 假设形成与规划:生成idea、设计实验、制定计划
- 实验与工具使用:写代码、调用API、运行模拟、操作仪器
- 反馈、验证与评审:检查错误、分析结果、模拟审稿、迭代改进
- 报告与知识传播:撰写论文、生成图表、代码开源、学术交流
一个精妙的概念:Vibe Research(氛围科研)
论文给L1-L2起了个名字——Vibe Research。这个词精准地描述了当前大多数"AI科研助手"的本质:它们不是在做科研,而是在营造科研的氛围。它们帮你查文献、写草稿、跑代码,但科学方向、判断、责任,全在人手里。就像一个氛围灯——很亮,但不发热。
💡 有啥用:这把尺子量出了什么
📊 发现1:当前最强的系统是 L2-P,但离L3还很远
论文把现有系统放进这个框架里一量,结果很清晰:
- L1:GPT-4、DeepSeek、各类文献助手(LitLLM、OpenScholar、PaperQA2)
- L2-S:Coscientist(化学工具调用)、Aider(代码辅助)
- L2-I:AI co-scientist(协作构思)、FreePhD(渐进式研究)
- L2-P:The AI Scientist、AI Scientist-v2、Agent Laboratory、NanoResearch、EvoScientist、DeepScientist、ARIS、ResearchClaw、AutoResearchClaw、EvoScientist
- L3:无成熟实例。部分系统(如AI-Researcher)有L3压力,但尚未达到"无需逐轮验证"的标准
- L4:不存在
关键结论:"端到端pipeline"(L2-P)和"AI主导"(L3)之间,有一道验证鸿沟。当前系统能跑通全流程,但无法保证输出的科学有效性、新颖性、可复现性。人类验证仍是结构必需的。
📊 发现2:领域差异——AI科研的天花板是"领域条件性的"
这是论文最深刻的洞察之一。AI科研的自主性上限,不是由模型能力决定的,而是由领域特性决定的:
| 领域 | 自主性上限 | 原因 |
|---|---|---|
| 计算/形式科学(ML、数学、CS) | L2-P→L3 | 产物可数字化、可执行、可快速验证;实验成本低,反馈即时 |
| 物理/工程 | L2-P | 仿真原生,但经验闭环需要物理仪器和校准 |
| 化学/材料 | L2-P | 自动合成平台和闭环优化已成熟,但设计空间有界 |
| 生物/医学 | L2-I→L2-P | 计算生物学可自动化,但湿实验、复杂生物系统、伦理约束限制自主性 |
| 社会科学/伦理敏感领域 | L1-L2 | 异质证据、延迟验证、机构问责要求高 |
一句话:AI在"能跑代码"的领域很牛,在"需要养细胞"的领域很怂。这不是技术问题,是科学本体论问题。
📊 发现3:五个评估维度——从"能做完"到"做得可信"
论文提出了评估AutoResearch的五个维度,把焦点从任务完成度转移到科学可信度:
- Novelty(新颖性):输出是原创idea,还是文献重组?
- Validity(有效性):实验设计正确吗?结论站得住吗?
- Impact(影响力):这个结果对领域有用吗?
- Reliability(可靠性):可复现吗?稳定性如何?
- Provenance(溯源性):每一步的证据链清晰吗?能追溯到源头吗?
当前系统在Novelty和Impact上表现较好(LLM擅长生成看似合理的idea),但在Validity、Reliability和Provenance上明显薄弱。The AI Scientist能写论文,但审稿人发现它的实验设计经常有问题,结论不可复现。
🛠️ 怎么用:这套框架怎么指导实践
🔧 对于研究者:找准你的档位
如果你是研究者,先问自己:我需要AI帮我到哪一步?
- L1需求:快速查文献、写摘要、头脑风暴、翻译润色 → GPT-4、DeepSeek、PaperQA2
- L2-S需求:自动调用某个专业工具(如化学数据库、生物信息学pipeline)→ Coscientist、专用Agent
- L2-I需求:和AI协作推进项目,人类持续反馈和引导 → AI co-scientist、FreePhD
- L2-P需求:跑通从idea到论文的完整pipeline,但人类把关最终质量 → The AI Scientist、NanoResearch、EvoScientist
关键原则:不要追求"全自动"的幻觉。在当前的L2-P阶段,人类的验证角色不是可选的,而是结构必需的。把AI当"超级实习生"用,而不是"替代教授"用。
🔧 对于系统开发者:向上攀登的路径
论文指出的L3方向:
- 从pipeline到自主判断:不只是连接阶段,而是让AI能决定"这个分支是否值得继续"
- 从生成到验证:不只是写代码和跑实验,而是让AI能判断"这个结果是否有效"
- 从单次到持续:不只是单次研究,而是让AI能在多轮研究中积累知识、演化策略
- 从通用到个性化:不只是统一pipeline,而是根据研究者的偏好、领域、资源调整策略(NanoResearch的evo流水线)
当前瓶颈:
- 验证机制:如何让AI自主判断科学有效性?
- 拒绝弱方向:如何让AI识别并放弃糟糕的idea,而不是强行推进?
- 异常处理:实验失败、代码崩溃、数据缺失时,AI如何自适应?
- 可复现性:如何保证不同运行得到一致结果?
- 问责闭环:当AI的研究出错时,责任如何界定?
🔧 对于领域选择:算清楚你的"领域天花板"
论文的"领域条件性"框架很实用。如果你在做AI科研系统,先评估你的领域:
- 产物是否可数字化?(是→上限高;否→上限低)
- 反馈是否即时?(是→上限高;否→上限低)
- 验证是否可自动化?(是→上限高;否→上限低)
- 伦理/安全约束是否强?(是→上限低;否→上限高)
如果你的领域是"计算+即时反馈+自动验证+低伦理约束"(如ML理论、算法设计),L3是可期的。如果是"湿实验+延迟反馈+人工验证+高伦理约束"(如临床药物试验),L2-P就是当前天花板。
🎬 结语:一把尺子,量出了一个时代的真相
这篇49页综述的真正价值,不是它提出了什么新模型,而是它给混乱的AI科研领域定了调。它告诉我们:
端到端pipeline ≠ 科学自主。能跑通全流程,不代表能做出可信的科学。
五级自主性框架像一把尺子,量出了当前系统的真实位置:最强的是L2-P(管道自动化),但离L3(AI主导)还有验证鸿沟。五个评估维度像一面镜子,照出了当前系统的软肋:会生成、会执行,但不会验证、不会拒绝、不会负责。
Vibe Research这个名字很妙。它提醒我们:当前大多数AI科研助手,不是在替代科学家,而是在营造科研的氛围。它们让科研看起来更快、更流畅、更酷,但科学判断、方向选择、责任承担,仍然在人手里。
这不是坏消息。恰恰相反,这是一个诚实的框架。它告诉我们,AI科研的下一步不是更大的模型、更长的pipeline,而是更好的验证机制、更强的拒绝能力、更可靠的问责闭环。从L2-P到L3,需要的不是算力,而是科学严谨性的内化。
📚 核心参考文献
-
Tie, G., Shi, J., Song, D., et al. (2026). AutoResearch AI: Towards AI-Powered Research Automation for Scientific Discovery. arXiv:2605.23204.
-
Lu, C., Lu, C., Lange, R.T., et al. (2024). The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery. arXiv:2408.06292.
-
Yamada, Y., et al. (2025). AI Scientist-v2: Workflow Learning and Agentic Tree Search for Fully Automated Scientific Discovery. arXiv:2502.00167.
-
Karpathy, A. (2026). AutoResearch: Minimal Autonomous ML Experimentation. GitHub: karpathy/autoresearch. [Karpathy的极简实验循环]
-
Zheng, Y., et al. (2025). Automation in Scientific Research: A Survey. Nature Reviews. [AI for Science综述]
#小凯 #技术解读 #AI科研 #AutoResearch #科学发现 #自动化 #综述 #论文解读
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。