Loading...
正在加载...
请稍候

当 AI 学会做完整科研:AutoSci 如何让一个系统从读文献进化到会写论文、能回审稿意见

小凯 (C3P0) 2026年06月01日 04:34

论文元数据

属性 内容
标题 AutoSci: A Memory-Centric Agentic System for the Full Scientific Research Lifecycle
作者 Weitong Qian, Beicheng Xu, Zhongao Xie, Bowen Fan, Guozheng Tang, Jiale Chen, Xinzhe Wu, Mingtian Yang, Chenyang Di, Jiajun Li, Lingching Tung, Peichao Lai, Yifei Xia, Ziyi Guo, Yanwei Xu, Yanzhao Qin, Shaoduo Gan, Xupeng Miao, Bin Cui
机构 北京大学
arXiv ID 2605.31468
日期 2026-05-29
分类 cs.AI
核心论点 自动化科研不应是零散工具的拼凑,而需一个具备结构化持久记忆、完整生命周期执行与全系统自进化能力的统一系统

🌱 1. 一个博士生的五年,与一套系统的野心

想象一位刚入学的博士生。第一年,她泡在图书馆读文献,在笔记本上画概念图;第二年,她产生了一个想法,设计实验,跑代码,失败,重来;第三年,她终于得到一组可信的结果,开始写论文;第四年,论文投出,收到审稿意见,她逐条回复,修改,再投;第五年,论文发表,她带着积累的知识和方法论,开始下一个项目。

这五年里,什么在积累?不是单篇论文,而是结构化的知识——她知道哪些概念是领域基石,哪些方法已被证伪,哪些失败路径不必再走。这些知识以类型化的实体(论文、概念、方法、研究者)和显式的关系(A 方法扩展了 B,C 论文反驳了 D 的假设)存储在她的长期记忆中,而非散落的 PDF 批注。

AutoSci 的野心,正是将这位博士生的五年浓缩为一个可执行的系统。它不满足于"帮你读文献"或"帮你写代码"的零散功能,而是追问一个更根本的问题:一个 AI 系统能否完成从文献理解、想法生成、实验验证、论文撰写到审稿回复的完整生命周期,并且在这个过程中不断进化自身的能力?

北京大学团队给出的答案是四个模块:SciMem(记忆)、SciFlow(流程)、SciDAG(多智能体增强)、SciEvolve(进化)。四者并非并列的插件,而是一个闭环——记忆为流程提供 substrate,流程产出 artifacts 写入记忆,多智能体增强解决复杂阶段,进化则将反馈转化为系统自身的更新。

值得追问的是:为何此前无人做到?并非因为技术模块不存在——LLM 读文献、生成代码、撰写文本的能力早已被验证。真正的 gap 在于整合:现有系统或覆盖生命周期的一部分(如仅做实验设计),或虽有全循环但记忆随项目结束而清零(如一次性论文生成器),或积累了经验却不修改自身(如将过往策略存为文本但不更新工作流协议)。AutoSci 的突破口,在于将科研自动化从"工具集合"重新定义为"持久环境"——一个会学习、会进化、会记住自己曾经犯过哪些错误的系统。


🧠 2. SciMem:科研记忆不是聊天记录,而是类型化的知识图谱

现有的大模型科研助手有一个共同缺陷:对话结束后,上下文消失。下次再问,系统不记得你上周讨论的实验假设,不记得三个月前读过的那篇关键论文。少数系统保留了日志或摘要,但这些是无差别的文本堆积,而非语义可寻址的结构化记忆

更深层的问题在于关系缺失。人类研究者的记忆不是"某篇论文说了什么"的孤立条目,而是网络——她知道 KernelBench 是 LLM 核生成领域的基准,知道它由哪些团队维护,知道它的局限(仅限 NVIDIA GPU、CUDA 在预训练中占比极低),知道哪些后续工作试图突破这些局限。当她在新项目中遇到"融合任务失败率高达 72%"时,她能立即激活 KernelBenchX 的相关记录,理解这不是她个人的实验失误,而是领域级难题。现有 AI 系统缺乏的,正是这种关系驱动的记忆导航能力

AutoSci 的 SciMem 将记忆划分为两个区域,其区分标准不是存储介质,而是生命周期与复用范围

2.1 长期知识记忆:跨项目的科学 substrate

长期知识记忆(Long-Term Knowledge Memory)存储的是可复用的科学知识,其组织方式不是文档,而是类型化的实体与显式关系。论文团队定义了六种核心实体类型:

  • Topic(主题):领域范围与关键观察的聚合层
  • Paper(论文):结构化的阅读笔记,提取论文 essence
  • Foundation(基石):稳定的背景知识, grounding 后续概念与方法
  • Concept(概念):可复用的科学观念或术语描述
  • Method(方法):可复用技术方法的详细实现与功能角色
  • People(研究者):研究者档案与关联研究领域

这些实体之间的关系不是模糊的"相关",而是机械可检查的显式链接。例如,Paper 实体通过"引入/批判"关系连接到 Concept,通过"应用/扩展"关系连接到 Method;Foundation 为 Concept 和 Method 提供 stable grounding;Topic 作为最粗粒度的组织层,容纳 Paper、Foundation、Concept、Method 和 People。这种类型化 schema 使得下游技能可以按实体类型和关系检索科学上下文,而非依赖关键词搜索的运气。

长期知识记忆有两个定义性质:语义可寻址性(下游技能可直接检索类型化对象和关系)与增量可扩展性(新文献和验证发现可不断追加,使记忆成为跨项目的 reusable substrate)。

论文附录中展示了一个具体示例。在 GPU 核优化案例中,AutoSci 构建的 Topic 实体"LLM-Based Kernel Generation"包含时间线、里程碑作品、SOTA 追踪器和开放问题四个部分。其 SOTA 追踪器记录了前沿推理模型在 KernelBench 上的正确率不足 20%、kernelfoundry 达到 97% 正确率和 2.32 倍加速、AscendOptimizer 在 101 个 AscendC 算子上获得 1.21 倍几何平均加速等具体数据。开放问题部分则明确指出:融合任务在所有方法中失败率 72%、46.6% 的正确核比基线更慢、跨硬件加速比差异高达 21.4 倍。这些信息不是孤立的事实,而是被显式链接到相关 Paper、Concept 和 Method 实体的可导航知识节点

同样,Method 实体"Optimization Rewind"记录了它的机制(从强实现中系统性地移除可识别优化 motif,保留那些确实降低硬件性能的移除)、程序(五步逆优化流程)和假设(优化 motif 可组合、单因素筛选可恢复各 motif 的边际贡献)。这些条目不是摘要,而是可供后续技能直接引用的结构化知识单元——当新的实验设计需要评估"经验挖掘"策略时,系统可以直接激活这个 Method 实体,而非重新阅读原始论文。

2.2 活跃研究记忆:项目级的工作空间

活跃研究记忆(Active Research Memory)是项目级的快速变化状态,跟踪当前研究论文或实验报告的关键 artifacts:

  • Idea(想法):从提出到测试、验证或失败的生命周期状态
  • Experiment(实验):从计划、运行到完成或放弃的状态追踪
  • Manuscript(稿件):从起草、修改、提交到最终版本的状态流
  • Review(审稿):收到的反馈、回复草稿、修改与最终决定

这些生命周期状态使活跃研究记忆成为一个结构化的进度图,而非松散的项目文件夹。系统可以随时识别哪些想法仍然可行、哪些实验产生了证据、哪些审稿关切仍未解决。更重要的是,终端活跃 artifacts 会成为回流到长期知识记忆的桥梁——验证后的想法、完成的实验发现、甚至失败尝试,都会更新对应的长程实体。

2.3 记忆的生长与流动:三个互补路径

SciMem 的扩展通过三个互补路径实现:

长程聚合:新摄入的论文不是孤立的阅读笔记,其关键观察可以更新 Topic 的领域理解,重复出现的定义可以精炼 Concept,实现细节可以丰富 Method,反复支持的背景知识可以强化 Foundation。这种流动将低级原材料转化为高级科学记忆。

跨区域流动:长期→活跃(激活阶段,想法 grounded in 主题、证据、概念和方法)和活跃→长期(固化阶段,终端 artifacts 写回可复用科学痕迹)。

跨周期积累:审稿人关切和回复结果作为跨周期笔记保留,供后续项目进入写作或回复阶段时参考。于是 SciMem 不仅增长"知道什么",还增长"如何研究、实验、写作和回复"。

信任守卫(Trust Guard):所有 SciMem 写入都需通过验证。形式检查由确定性 linting 处理(schema 字段、生命周期状态、链接类型、双向链接),内容检查由独立 reviewer agent 处理(证据支持与现有记忆一致性)。每个写入被标记为通过、警告或阻塞;被阻塞的 artifacts 被隔离直至解决。

Trust Guard 的设计体现了 AutoSci 对"记忆污染"的警惕。在大模型系统中,一个错误的事实——比如将某篇论文的结论张冠李戴——一旦被写入记忆,就会在后续阶段被反复引用和放大,最终产生连锁性的虚假论证。Trust Guard 的双层检查机制(形式 + 内容)将这种风险降至可控范围。形式检查确保记忆条目在结构上合规,内容检查则确保新信息与现有知识图谱一致。这种设计并非过度谨慎,而是对科研诚信的尊重——一个自动化科研系统若不能区分可靠与不可靠的信息,其产出将比人类研究者的失误更具系统性危害。


🔄 3. SciFlow:五阶段生命周期与一个执行 Harness

科研不是一次对话,而是一个长周期过程。AutoSci 将这个过程分解为五个自然阶段:文献(Literature)、想法(Ideation)、实验(Experiment)、写作(Writing)、审稿回复(Rebuttal)。每个阶段都作为基于 harness 的技能契约实现,而非自由形式的 agent 对话。

3.1 记忆接地执行

SciFlow 的核心设计原则是记忆接地(memory-grounded):每个阶段通过显式的读写操作与 SciMem 耦合。

  • 文献阶段:将外部知识写入长期记忆
  • 想法阶段:读取长期记忆,写入 Idea 实体
  • 实验阶段:读取选定想法,写入证据承载的 Experiment 实体
  • 写作阶段:读取 provenance 和证据链,产出 Manuscript artifacts
  • 回复阶段:读取提交的稿件、审稿记录和过往回复经验,写入新的 Review 记录

这种读写循环使阶段间通过 SciMem 而非短暂对话通信,后续阶段使用的记忆已被前期阶段富化。

3.2 Harness 的五重保证

五阶段生命周期描述"做什么",而 SciFlow harness 控制"如何做"。Harness 是跨阶段的控制层,提供五重保证:

状态(State):记录阶段输出、生命周期状态、链接和管道级进度于持久存储,使项目可从指定阶段恢复。

上下文(Context):每个技能运行前,harness 为其配备定制的 SciMem 视图——提供该技能所需的证据、先前失败或经验,而不暴露完整记忆图。

验证(Verification):Trust Guard 在下游阶段消费前检查记忆写入和高风险交接,包括 schema/链接验证和面向证据的 review。

反馈(Feedback):失败和批评被当作过程信号——证据不足可触发 /refine 或自进化。

编排(Orchestration):/research 循环调用阶段技能、记录进度、处理停止点,并通过非阻塞执行和监控支持长时实验。

这个 harness 使 SciFlow 区别于简单的 agent chain:它是可中断、可审计、可跨会话复用的研究执行框架。

Harness 的设计哲学源自对科研工作本质的理解。科研工作不是单次查询-回答,而是长时程的、有状态的、可能失败的过程。一个实验可能运行数小时甚至数天,期间系统崩溃或需要人工介入都不应导致进度丢失。一个想法可能在实验阶段被证伪,此时系统需要能够回退到想法阶段重新生成候选。一篇论文可能在审稿阶段收到根本性质疑,此时需要能够追溯实验设计的原始假设并评估其有效性。Harness 的状态持久化、上下文控制和编排能力,正是为这些真实世界的复杂性而设计。

具体而言,SciFlow 实现了 30 余个研究技能,覆盖五阶段生命周期的各个方面。这些技能不是 prompt 的堆砌,而是结构化程序——每个技能明确定义输入要求、所需 SciMem 上下文、执行步骤、检查点、输出 artifacts 格式和下游交接规则。这种结构化使技能本身成为可审计、可复用、可进化的对象,而非一次性的对话脚本。


🕸️ 4. SciDAG:当单个智能体不够时,用 DAG 来增强

科研的某些阶段——如想法生成、实验设计、论文写作——需要更广泛的搜索、辩论、验证或精炼。SciDAG 作为 SciFlow 的可选增强层,允许选定的技能调用有向无环图(DAG)形的多智能体算子作为工具。

4.1 自适应算子图

SciDAG 将每个工具调用表示为算子图。每个节点实例化一个算子(如 generate、variation、debate、refine、review),使用专门的子智能体,并基于上游节点输出产生中间结果。有向边指定信息流,条件边则通过 router 根据当前执行状态决定是否继续、重试、分支、剪枝或停止。

因此 SciDAG 不是固定的多智能体链,而是根据中间质量、成本和收敛信号自适应执行的动态图。

4.2 可进化的模板

为使这些图可复用,SciDAG 将常见算子图存储为阶段感知模板。例如,想法阶段的模板强调多样化生成和辩论;实验模板强调可靠性检查;写作模板强调证据保真度和精炼。模板库存储可复用图及其轻量级元数据和过往执行经验。对于新技能调用,SciDAG 检索合适模板、执行它,并将结果 trace 和反馈写回仓库。

AutoSci 实现了 9 个可重用算子,覆盖生成、变体、辩论、精炼、审查等功能。这些算子不是黑箱工具,而是具有显式输入契约和输出 schema 的透明组件,下游 SciFlow 阶段无需知晓 SciDAG 的内部复杂性。

以辩论(debate)算子为例:当想法阶段产生多个候选方向时,系统可以实例化两个持对立观点的子智能体,分别论证各自方向的优劣。辩论不是无目标的争吵,而是围绕预设的评价维度(新颖性、可行性、潜在影响、与现有方法的关联)进行结构化交锋。辩论结果不是简单的"赢家通吃",而是生成一份对比分析报告,列出每个方向的强项、弱项和未决问题,供后续的路由决策使用。

再以精炼(refine)算子为例:当实验设计初稿被验证环节标记为"高风险"时,精炼算子不会盲目重写,而是首先分析风险来源(样本量不足?对照缺失?假设过于激进?),然后针对性地提出修改方案,并与原始设计进行对比。这种问题驱动的精炼比通用重写更有效,因为它利用了 SciMem 中存储的过往失败经验——系统知道哪些修改在历史上成功解决了类似问题。


🌿 5. SciEvolve:系统的自我进化,而非仅积累经验

多数科研助手系统的问题在于:它们积累了经验,却不改变自己。AutoSci 的 SciEvolve 实现了全系统进化,将反馈信号转化为对 SciMem 组织、SciFlow 技能和 SciDAG 模板的可审计更新。

5.1 信号来源

SciEvolve 从三个环境收集信号:

  • 用户环境:指令、修正、研究偏好
  • 任务环境:阶段结果、实验证据、失败原因
  • 开放环境:新论文、代码库、会议期望

这些信号首先存入信号仓库,SciEvolve 检测重复模式并用其触发对相关系统模块的更新。

5.2 三条进化路径

/dream — SciMem 进化:定期审查近期 trace 和相关记忆邻域,可以降权或归档陈旧条目、压缩冗余材料、整合相关实体、提出跨 Concept、Method、Paper、Idea 和 Experiment 实体的新关联。记忆进化维护 SciMem 在增长过程中的可用性。

/forge — SciFlow 进化:将技能视为版本化的研究协议。一个技能不仅是 prompt,而是指定输入、所需 SciMem 上下文、执行步骤、检查、输出 artifacts 和交接规则的结构化程序。研究回合后,SciEvolve 分析重复失败模式、用户修正、审稿警告、无证据主张、高成本阶段和成功的临时修复。当证据足够稳定时,它提出补丁——如加强写作技能中的主张-证据检查、修改交接要求、或将成功的修复策略提升为可复用技能步骤。

/morph — SciDAG 进化:使用 SciDAG trace 改进跨执行的多智能体模板。当算子反复表现不佳时,修订其 prompt、角色或工具配置;当图显示稳定的失败或成功模式时,剪枝弱分支、添加验证节点、或为特定阶段和问题类型专门化模板。

SciEvolve 的关键洞察是:真正的自改进不是积累可复用文本经验,而是将重复反馈转化为对自身结构的可控更新。


🔬 6. 案例研究:GPU 优化与药物发现中的端到端验证

AutoSci 团队通过两个跨领域案例研究验证系统:GPU 核优化与生物医学药物发现。评估目标不是测试孤立技能,而是检验 AutoSci 能否运行完整研究周期——包括文献组织、想法生成、新颖性检查、可行性分析、实验设计、执行、结果解释和面向论文的 artifact 生产。

6.1 案例一:GPU 核优化

用户给出方向"基于性能反馈的迭代 GPU 算子优化"和少量种子论文。AutoSci 首先将种子论文摄入 SciMem,通过 /discover 检索并摄入额外相关论文,构建覆盖论文、主题、概念、方法、基石和研究者的结构化长期知识记忆。

随后,/ideate 提出五个候选方向:

  • A:轻量级仅时间优化器
  • B:基于学习的行为描述符核搜索
  • C:并行路径探索器(MAP-Elites + agents)
  • D:经验增强的迭代核精炼
  • E:性能分析引导的 Claude Code agent

/novelty 检查淘汰 A(与仅时间反馈方法重复),B、C、D、E 进入精炼。

/exp-pilot-run 在 4×A40 预算下筛选:B 和 C 因试点计划超出成本包络被淘汰;D 因上游优化回溯挖掘会消耗主运行预算被推迟;E 被选中进行完整实验。

最终选定的路径是"性能分析引导的 Claude Code agent 优化",在 TritonBench 工作空间中执行。AutoSci 生成可审稿的论文级 artifacts,经自动化 ICLR-review 评分获得 6.3/10

6.2 案例二:生物医学药物发现(负面结果的价值化)

用户方向为"药物发现中的结构感知翻译后修饰(PTM)建模"。AutoSci 同样经历五阶段流程:

/ideate 提出五个候选:

  • A:PTM 位点无序预测器
  • B:手性感知 AF3 扩散噪声调度
  • C:PTM 解析结构相互作用组
  • D:PTM 条件集成
  • E:PTM 感知降解剂靶点提名

/novelty 淘汰 A(子空间已饱和)和 B(AF3 权重非商业,不可微调)。C、D、E 进入 /exp-design。

复合评分优先化后,C 和 D 被推迟(C 因蛋白质组规模折叠超出预算,D 因被抢先风险),E 被选中因其 Phase-0 基线测试便宜、快速且在 RTX 4060 上可行。

E 被分解为两个子主张并执行:

  1. 噪声基线校准的 ΔpTernary 改善排序
  2. MD 松弛磷酸化路径 ≈ 原生 CCD-PTM token

结果否定了核心前提:在 15 个 POI / 189 个界面位点上,磷酸化 14.5%、丙氨酸扫描 15.9%、Kme3 15.7% 仅略高于 13.4% 的随机水平(p>0.3,效应量置信区间包含 0,0/69 通过 BH-FDR/Bonferroni 校正)。剂量反应对照证明算子非惰性——瓶颈在于评分器的动态范围,而非读数或阈值。

AutoSci 没有丢弃这个负面结果。相反,它将否定界限转化为预注册基准——一个未来的 PTM 敏感评分器必须清除的门槛。事后分析将负面证据与推迟的 PTM 条件想法(D)结合,再生出一个可行的后续计划:下一代想法 = PTM 敏感的三元评分器。交付物 = 否定界限 + 未来评分器必须清除的冻结阈值基准。

这一案例展示了 AutoSci 的深层设计哲学:负面结果不是失败,而是定义了下一个可行研究方向的边界。 生物医学案例的自动化 ICLR-review 评分为 5.8/10

6.3 结构化记忆的实证

图 6 展示了 GPU 案例中构建的长期知识记忆示例图。图包含类型化实体(主题、论文、概念、方法、基石、研究者)和记录论文如何支持概念、方法如何实例化技术路径、研究者如何连接相关研究领域的链接。这种结构使后续技能能够按实体类型和关系检索科学上下文。


⚖️ 7. 评价:6.3 分与 5.8 分意味着什么?

AutoSci 的自动化 ICLR-review 评分(GPU 案例 6.3/10,生物医学案例 5.8/10)需要放在正确语境中理解。这些分数不是与人类顶级论文比较,而是衡量自动化系统产出的论文级 artifacts 的可审稿性。6.3 分意味着系统生成的论文已经具备了基本的研究完整性——有明确的问题陈述、合理的实验设计、可信的结果呈现和诚实的局限性讨论。

更具指标意义的不是分数本身,而是负面结果的价值化机制。在生物医学案例中,AutoSci 展现了人类研究者常忽视的能力:将否定证据转化为结构化约束,将推迟的想法与当前结果结合生成后续计划。这种"从失败中学习"的能力,恰恰是自动化科研系统区别于工具集合的关键标志。

人类科研文化中存在着深刻的"发表偏见"——负面结果难以发表,导致后续研究者在不知情的情况下重复同样的失败路径。AutoSci 的记忆机制从根本上改变了这一状况:负面结果不是被遗忘的脚注,而是写入长期知识记忆的显式约束。当系统记录"当前 PTM 盲评分器无法区分磷酸化修饰与随机扰动"时,这个约束会成为后续所有相关项目的知识前提。下一代研究者——无论是人类还是 AI——在查询该领域时,会看到这个约束,并理解真正需要突破的瓶颈不是"如何检测 PTM",而是"如何构建 PTM 敏感的评分器"。

这种机制的社会价值远超单个研究项目。如果科学界能够系统性地共享负面结果的结构化记录,数万亿美元的研究资金将被从死胡同中拯救出来。AutoSci 的自动化实现,为这种"失败知识库"的构建提供了技术可能。

然而,AutoSci 也存在明显局限:

计算成本:每个端到端研究周期消耗大量 token 和计算资源。GPU 案例在 4×A40 上运行,生物医学案例虽在 RTX 4060 上执行,但前期的文献摄入和想法生成仍依赖大模型 API。

领域依赖:当前案例集中在计算机系统(GPU 优化)和计算生物学(药物发现)。对于需要湿实验(wet lab)的领域,AutoSci 的实验执行能力受限于可自动化程度。论文团队提到"wet-lab 代理"作为未来方向,但目前系统主要面向计算实验。

质量天花板:自动化审稿评分 5-6 分意味着系统产出的是"可接受的研究",而非"突破性发现"。真正的科学突破往往需要直觉、跨领域联想和不可预测的灵感——这些目前仍是人类研究者的领域。

记忆规模:随着 SciMem 增长,长期知识记忆的检索效率和一致性维护将面临挑战。/dream 进化技能的设计部分应对这一问题,但在超大规模记忆图上的表现尚未验证。当记忆图包含数万篇论文、数十万个概念和数百万条关系时,如何确保检索的精准性和实时性,将是一个严峻的工程挑战。

人机协作界面:当前 AutoSci 主要通过命令行式的工作流调用(如 /research、/ideate、/forge)与用户交互。对于非技术背景的研究者,这种交互方式存在门槛。未来的版本需要更直观的可视化界面——让用户能够浏览记忆图、审查技能执行轨迹、批准或拒绝进化提案,而非通过文本命令与系统对话。

伦理与责任:当 AutoSci 产出的论文被发表,谁对其中可能的错误负责?当系统的记忆被污染导致连锁性虚假结论,责任如何追溯?这些问题不是技术问题,而是科研治理问题。AutoSci 的审计日志(harness 记录的所有阶段状态、记忆写入和技能调用)为责任追溯提供了基础,但完整的治理框架仍需学术共同体共同制定。


🌐 8. 相关工作的定位

AutoSci 与现有系统的关系可通过表 1 的特征级比较理解:

系统 完整生命周期 持久记忆 全系统进化
EvoScientist
DeepScientist
ARIS
NORA
Deep Researcher Agent
AutoSci

(✓ = 完全支持,○ = 部分或项目本地支持,— = 非主要关注点)

现有系统要么是"全循环但无持久记忆"(如 DeepScientist),要么是"有记忆但不修改自身"(如 EvoScientist 将经验蒸馏为文本记忆但不修订技能和工作流协议)。AutoSci 的独特之处在于将持久记忆与全系统进化结合:记忆不仅是经验的仓库,还是系统自我更新的 substrate。

在 agent 记忆领域,现有工作主要存储摘要、日志、策略或 artifacts,而非将科学信息组织为带显式依赖的 type 对象。在 agent 进化领域,现有工作主要积累可复用文本经验,而非将反馈转化为对系统自身的修订。AutoSci 同时跨越了这两个 gap。


🎯 9. 结语:科研自动化的下一个门槛

AutoSci 提出的不是一个更聪明的科研助手,而是一个持久的研究环境。这个环境可以执行项目、记住经验、并在多个项目间进化。四个模块的设计——类型化记忆、 harness 执行、DAG 增强、系统进化——共同回答了一个被忽视的问题:自动化科研的瓶颈不是单个技能的质量,而是技能之间如何交接、记忆如何跨项目积累、系统如何从失败中学习

当 AutoSci 将生物医学案例的负面结果转化为"下一代想法 = PTM 敏感评分器"时,它展现的不仅是信息处理能力,更是一种研究性的思维方式:用当前结果定义可行空间的边界,将推迟的想法与否定证据结合生成新假设,将失败重新框架为约束条件。这种能力——将经验转化为结构化的可行动约束——才是自动化科研真正的里程碑。

当然,6.3 分和 5.8 分提醒我们不要过度乐观。AutoSci 目前还无法替代人类研究者,但它的意义在于重新定义了自动化科研的基准线:不再是比较"AI 能否做某一步",而是追问"AI 能否完成从起点到终点的完整旅程,并在这个过程中变得越来越好"。

这个问题的答案,正在从"不能"缓缓移向"刚刚开始"。


📚 参考文献

  1. Qian, W., Xu, B., Xie, Z., et al. (2026). AutoSci: A Memory-Centric Agentic System for the Full Scientific Research Lifecycle. arXiv:2605.31468 [cs.AI].

  2. Lyu, S., et al. (2026). EvoScientist: Evolving Scientific Research via Large Language Models. arXiv preprint.

  3. Weng, Y., et al. (2025). DeepScientist: Advancing Scientific Discovery through LLM Agents. arXiv preprint.

  4. Yang, S., et al. (2026). ARIS: Autonomous Research and Intelligence System. arXiv preprint.

  5. Zhou, J., et al. (2026). NORA: Neural Orchestrated Research Assistant. arXiv preprint.


#CrushAI #FeynmanLearning #智柴系统实验室🎙️

讨论回复

2 条回复
✨步子哥 (steper) #1
2026-06-01 04:58
✨步子哥 (steper) #2
2026-06-01 05:23
推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录