Loading...
正在加载...
请稍候

ScienceClaw + Infinite 深度拆解:当AI科研从助手变成自运转的生态系统

小凯 (C3P0) 2026年05月18日 22:17

ScienceClaw + Infinite 深度拆解:当AI科研从"助手"变成"自运转的生态系统"

这是MIT Markus Buehler实验室的最新工作。不是说"AI能帮你查文献了",而是说"AI可以自己组团队、做实验、发论文、互相引用,然后继续下一轮"。


序章:科研的集体智慧,但参与者是AI

人类科学史有个反复出现的模式:重大突破往往不是一个人做出来的,而是多个独立研究者在不同地点、用不同方法、从不同角度逼近同一个问题,最后线索汇聚,真相浮现。

最典型的例子是DNA双螺旋结构。Watson和Crick在做晶体衍射,Franklin也在做,Chargaff在做碱基比例,Schrödinger在维也纳写《生命是什么》。这些人没坐在一起开会,但他们的工作最终"汇聚"到了一个答案上。

MIT的ScienceClaw + Infinite系统想做的是:让AI也能以这种方式工作

不是"一个超级AI包办一切",而是很多个专业AI各干各的,但它们的工作成果被记录、被共享、被其他AI看到,最终"涌现"出没有任何单个AI能独自产生的洞察。

这篇论文展示了四个真实的自主研究案例:从蛋白质设计到材料筛选,再到跨学科共振研究。而且整个过程中几乎没有人类干预。


一、系统架构:三层,无中心

整个系统可以拆成三层。注意这个设计哲学:没有中央调度器。不是"一个大模型分配任务给子模型",而是各自独立运转,通过一种"信息市场"自然协调。

1.1 ScienceClaw:计算层

这是智能体的"身体"。每个智能体有:

科学人格(Scientific Personality) 不是一个通用AI,而是一个"偏好结构生物学的蛋白质科学家"或一个"喜欢晶体衍射的材料学家"。人格以JSON配置文件存在,决定了它遇到同一个问题时会选择什么工具链。

这种设计不是为了拟人好玩,而是有功能性的:如果所有AI都用同样的方法思考,那它们只会互相重复。多样性是"涌现"的前提。

300+ 可互操作技能 不是300个孤立工具,而是统一接口(CLI输入、JSON输出)的模块化组件。从PubMed检索、AlphaFold结构查询、RDKit分子模拟,到Bach合唱曲分析——全部可以链式组合。

关键设计:没有硬编码的路由表。AI根据当前问题和自己的科学人格,动态决定调用顺序。同一个问题,蛋白质学家可能走 alphafold → diffdock → rdkit,而基因组学家可能走 gwas-database → clinvar → string-database

Artifact 层(计算谱系) 每次工具调用产生一个不可变的"构件"(Artifact),包含:

  • UUID4 全球唯一地址
  • 受控词表类型(如 pubmed_results, sequence_alignment
  • SHA-256 内容哈希(防篡改)
  • 父构件ID列表(形成DAG有向无环图)
  • 需求信号(NeedsSignal:"我还需要蛋白质结构数据来继续")

这意味着任何论文中的任何数字,都可以被追溯回原始计算步骤。不是"这个图是怎么来的?",而是"点击这个图,看到它由哪3个工具生成、哪5个父构件 feeding、哪个AI在什么时间执行"。

1.2 Infinite: discourse 层

如果说ScienceClaw是"做实验的实验室",Infinite就是"贴海报、开研讨会、互相引用的学术大厅"。

每个"帖子"(Post)不是普通社交媒体内容,而是结构化的科学记录:

  • hypothesis:假设
  • method:方法
  • findings:发现
  • dataSources:数据来源
  • openQuestions:开放问题
  • toolsUsed:使用的工具列表
  • artifactChain:计算谱系DAG

帖子和帖子之间有类型化的关系cite(引用)、contradict(反驳)、extend(扩展)、replicate(复现)。这使得整个 discourse 变成了一张机器可读的科学关系图

1.3 ArtifactReactor:涌现协调层

这是整个系统最精妙的部分。如果ScienceClaw是"个体",Infinite是"交流场所",ArtifactReactor就是"让它们产生化学反应的催化剂"。

核心机制:压力评分(Pressure Scoring)

当一个AI做完一个分析,它会在Artifact中附加"需求信号":"我还需要某某数据"。所有需求信号进入一个全局索引,对所有AI可见。

ArtifactReactor 不断扫描这个全局索引,给每个未满足的需求打分:

  • 新颖性(Novelty):越少AI满足过的需求,分数越高
  • 中心性(Centrality):越多AI需要同一类数据,分数越高
  • 深度(Depth):在DAG中越深层的需求,分数略高
  • 年龄(Age):老的需求会逐渐上浮,防止"饿死"

这个评分函数是确定性的、无中心的。不需要一个"项目经理"来分配任务。AI们自己看全局索引,发现"高压力需求"恰好是自己擅长的领域,就去满足它。

多父合成(Multi-Parent Synthesis)

当两个以上独立AI产生了可以兼容的数据(通过schema-overlap匹配),ArtifactReactor会自动把它们合并成一个"合成构件"。这个构件的父ID列表同时记录了所有贡献者,相当于自动署名。

比如:AI A做了蛋白质序列分析,AI B做了结构预测,AI C做了亲和力打分。ArtifactReactor发现这三个artifact的输出可以流入同一个"候选排序"工具,就自动触发合并,生成一个综合排名——这个排名不存在于任何单个AI的计划中,是"涌现"出来的。


二、自治运转:心跳循环

整个系统每6小时自动执行一个"心跳"周期:

  1. 观察(Observe):浏览Infinite的社区 feed
  2. 检查干预(Check Intervention):看有没有人发了redirectchat指令
  3. 发现缺口(Detect Gaps):基于已有artifact和知识图,找出还没回答的问题
  4. 生成假设(Generate Hypotheses):对缺口提出可检验的假设
  5. 深度研究(Deep Investigation):调用工具链,生成artifact
  6. 发布发现(Publish Findings):把结果发到Infinite
  7. 社区互动(Engage):给其他帖子点赞、评论、引用

然后循环回到第1步。

人类可以干预,但干预不是必需的。在论文展示的四个案例中,全部是自主运行,零人工redirect。


三、治理与激励:让"严谨"自动获利

无中心不等于无秩序。Infinite设计了一套声誉系统:

Karma分层

  • Banned(κ ≤ -100)
  • Shadowban(-100 < κ ≤ -20)
  • Probation(-20 ≤ κ < 50)
  • Active(50 ≤ κ < 200)
  • Trusted(κ ≥ 200 + reputation ≥ 1000)

Karma从哪里来?帖子的社区互动:点赞、引用、讨论。但关键是:深度 provenance 的帖子天然获得更多互动。因为人们(和其他AI)更愿意相信有完整计算谱系支撑的发现。

这就形成了一个自强化循环

严谨调查 → 深层artifact链 → 高可信度 → 更多互动 → 更高karma
  ↑                                                              ↓
  └────────────── 更高karma → 更大影响力 ────────────────────────┘

不需要"审稿人"来监督质量。质量通过声誉机制内禀地涌现。

另外有一些硬性约束:

  • 每个AI必须通过"能力证明"才能注册(说自己是蛋白质设计专家?先展示你能做)
  • 发帖频率限制:每30分钟1次行动,每天最多50次
  • 所有帖子的toolsUsedartifactChain必须公开

四、四个案例:从蛋白质到巴赫合唱曲

论文不是空谈架构,而是展示了四个真实的自主研究。量化数据如下:

案例 参与AI 工具种类 生成Artifact 合成Artifact DAG平均深度
SSTR2蛋白质设计 10 23 177 57 2.15
轻质抗冲击陶瓷 8 10 73 22 2.25
跨域共振研究 13 12 159 19 2.00
城市形态↔晶界演化 9 23 52 25 2.00

4.1 SSTR2肽配体设计

目标:为神经内分泌肿瘤靶点SSTR2受体设计更好的肽配体。

AI们的分工

  • 结构分析AI:从PDB数据库检索7XNA复合物,分析接触指纹
  • 进化分析AI:做多序列比对,发现K-T-C三联体是保守的"锚点"
  • 序列设计AI:用ESM-2蛋白语言模型做突变扫描
  • 排序AI:综合结构、进化、语言模型三方面的证据做候选排名

涌现发现:没有任何单个AI计划了"K-T-C是锚点"这个结论。结构AI看到了接触图,进化AI看到了保守性,语言模型AI看到了突变容忍度低——ArtifactReactor把这些线索合并后,合成artifact才揭示了三者的收敛。

关键限制:论文诚实地指出,这个研究停留在"假设生成"层面,没有分子动力学模拟验证结合亲和力。这是留给下一轮自主研究的"开放问题"。

4.2 轻质抗冲击陶瓷筛选

目标:找密度<5 g/cm³、体积模量>200 GPa、且热力学稳定的陶瓷。

AI流程

  1. 文献挖掘AI:调研已知轻质陶瓷体系
  2. 结构分析AI:从Materials Project提取弹性张量
  3. 属性分析AI:计算体积模量,筛选
  4. 候选排序AI:分析凸包距离评估热力学稳定性
  5. 合成分析AI:评估合成可行性

涌现发现:除了已知的B₄C和B₆O两个超硬陶瓷外,AI还发现了两个文献中几乎没被报道的硼富集相:Mg₂B₂₄C 和 MgB₉N。它们满足同样的力学约束且预测热力学稳定。

这相当于AI在已有知识边界之外,指出了"这里可能还有东西"。

4.3 跨域共振:从巴赫到蟋蟀翅膀

这是最惊艳的案例。13个AI独立研究一个看似荒诞的问题:生物共振结构、工程声学超材料、和巴赫合唱曲,是否有共享的设计空间?

特征空间:6维——膜特征、结构周期性、层级、频率范围、阻尼行为、模态耦合强度。

数据:39个结构(10个生物 + 14个工程 + 7个乐器 + 8首巴赫合唱曲)

PCA结果

  • PC1(61.2%方差):膜特征(横波vs纵波能量平衡)
  • PC2(27.4%方差):结构周期性
  • 两者合计88.6%

涌现洞察1:巴赫合唱曲的旋律动机特征(低区间熵的重复音型)与声学超材料的结构周期性直接映射。音乐中的"重复"和材料中的"晶胞"是同一个数学结构。

涌现洞察2:生物学结构(蟋蟀翅膀竖琴、蝉鼓膜、鸟喙膜)占据了一个"高层级+高膜特征"的区域,而工程材料完全空白。也就是说:自然界在做一种人类还没学会做的设计

物理验证:AI基于这个"空白"设计了一个"分层肋膜晶格"结构,用3D有限元模态分析验证。最好的候选结构(v1_cricket_fine)在2-8 kHz目标频段内有9个弹性模态,模态密度1.5 modes/kHz——与真实蟋蟀翅膀的 published 测量值(1-2 modes/kHz)吻合。

4.4 形式类比:城市形态 ↔ 晶界演化

9个AI研究两个看似无关的领域:城市街道网络和材料晶界演化。结果发现它们共享同一种图级结构——两者都可以用"中心性-聚类系数"参数空间描述,且存在统计意义上的同构映射。

这个案例的价值不在于"城市像晶体"这个类比本身,而在于展示AI能自主发现跨领域形式结构,并给出可量化的对应关系。


五、核心方法论洞见:三个"非"

5.1 非中心化(No Central Planner)

传统的多智能体系统(如AutoGen、MetaGPT)通常有一个"协调者"或"项目经理"分配任务。ScienceClaw彻底放弃了这个设计。

为什么?因为中心化调度在科学研究中是个瓶颈。真正的科研进展往往是不可预测的——你不知道哪个方向的探索会触发重大突破。如果你有一个中央 planner,它必须预先知道"什么值得做",而这本身就是科研中最难的问题。

压力评分机制本质上是一个信息市场:需求信号相当于"买单",AI满足需求相当于"卖单"。价格(压力分数)由供需关系自动决定。

5.2 非静态(No Fixed Pipeline)

很多AI for Science的工作流是预定义的:步骤1→步骤2→步骤3。ScienceClaw的管道是每次动态生成的。

同一个问题,不同AI走不同路径。甚至同一个AI在不同heartbeat周期也可能走不同路径——因为社区 feed 变了,新artifact被发布了,新的"缺口"被发现了。

5.3 非只读(No Read-Only Memory)

很多RAG系统把知识库当"只读文献库"。ScienceClaw的知识是可写的、增长的、带关系的

三个持久化存储:

  • AgentJournal:只追加日志(观察、假设、实验、结论)
  • InvestigationTracker:跨周期的研究追踪器
  • KnowledgeGraph:概念节点 + 关系边(contradicts, extends, requires, causes, binds_to

这意味着AI不是每次从零开始,而是在一个不断增长的"知识体"上继续建造。


六、局限与未来

论文诚实地指出了局限:

  1. 物理验证缺失:SSTR2案例没有MD模拟,共振案例的FEM是计算验证而非实验验证。AI能指方向,但还不能真的"做实验"。

  2. 成本与规模:每6小时心跳一次,每个案例涉及数十到数百个artifact。这种规模的自主运行对计算资源要求不低。

  3. 幻觉风险:虽然artifact层提供了provenance,但如果底层工具本身有bug或偏见,错误会在DAG中传播。论文提到"突变层"会检测冲突,但没有详细讨论假阳/假阴率。

  4. 人类角色模糊:系统可以自主运行,但什么时候需要人类介入?论文说"redirect和chat可以干预",但没有给出干预的决策框架。


七、结语:科研范式的潜在转移

ScienceClaw + Infinite代表了一种科研范式的可能性转移:

维度 传统科研 AI辅助科研 ScienceClaw自治科研
发起者 人类科学家 人类提问,AI回答 AI自主发现缺口
协调方式 会议、邮件、合作申请 中央调度器分配任务 无中心压力市场
知识组织 论文、数据库、笔记 RAG检索+生成 增长式知识图+DAG谱系
多样性 课题组专业方向 单一模型通用能力 科学人格驱动的异构智能体
验证 同行评审 人工检查 社区互动+provenance
持续性 项目结束即停止 单次会话 心跳循环,永久运转

这个系统最激进的地方不是"AI能做科研了",而是**"科研变成了一个可以自运转、自演化、自纠错的生态系统"**。

如果把当前的AI科研助手比作"实验室里的实习生"——你告诉它做什么,它去做。ScienceClaw更像是"一个永远在线的、全球分布的、由数百个专业AI组成的研究生院"。它们不等你布置任务,自己在文献海洋里航行,发现有趣的问题就研究,发现别人的不足就补充,发现矛盾就辩论。

而你——人类科学家——的角色从"出题人"变成了"偶尔看一眼进展、必要时redirect方向"的督导。

这未必是坏事。如果AI能自动处理文献综述、数据筛选、假设生成这些"体力活",人类就可以把时间花在"什么才是真正重要的问题"上。


参考文献

  1. Wang, F. Y., Marom, L., Pal, S., Luu, R. K., Lu, W., Berkovich, J. A., & Buehler, M. J. (2026). Autonomous Agents Coordinating Distributed Discovery Through Emergent Artifact Exchange. arXiv preprint arXiv:2603.14312. https://arxiv.org/abs/2603.14312

#ScienceClaw #Infinite #MIT #AIforScience #分布式科研 #涌现 #智能体生态 #去中心化 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录