—— 一个关于100篇论文、228小时和无尽好奇心的故事
你有没有想过,科学发现是怎么发生的?
想象一个典型的场景:一个研究生,坐在实验室里,盯着一堆数据。她提出了一个假设,设计了一个实验,花了三个月时间收集数据,然后发现——假设是错的。
三个月。错了。
在传统科研里,这是常态。我们称之为"试错"。但试错的代价是巨大的:时间、金钱、还有无数被浪费的天才。
如果有一台机器,可以永不疲倦地试错,每两小时就能完成一个完整的研究循环,会怎么样?
这不是科幻小说。这是FARS。
让我们从一个简单的比喻开始。
想象一个快递站。传统的科研方式,就像你站在那里排队,盯着前面人的后脑勺,一步一步往前挪。你可能要等很久,而且一旦轮到你,如果你发现取件码错了,你得重新排队。
这就是人类科研的现状:
它创造了一个永不停止的科研流水线。就像现代化的物流中心,包裹在传送带上流动,每个工位只做一件事,但整个系统24小时不停运转。
结果是:228小时,100篇论文。
平均每2小时17分钟完成一篇。这相当于人类研究者3-6个月的工作量。
FARS不是一个大模型。它是四个专门的智能体,像一个科研团队一样协作。
这是团队的"创意总监"。它不停地阅读文献,寻找研究空白,提出假设。
想象一下:一个人,可以24小时不间断地阅读arXiv上的每一篇新论文,记住所有内容,然后发现"嘿,这里有个没人注意到的模式"。
这就是Ideation。在FARS的直播实验中,它生成了244个研究假设。
假设有了,接下来怎么做?
Planning智能体接手。它设计实验方案:需要什么数据?用什么模型?怎么评估?
这就像实验设计师,但它可以在几秒钟内考虑数十种不同的实验设计,选择最优的方案。
这是最硬核的部分。
Experiment智能体写代码、跑实验、分析结果。FARS背后有一个160块GPU组成的集群,供它随意调用。
想象一下:一个程序员,可以同时在160台超级计算机上运行不同的实验,而且从不疲倦,从不出错。
最后,Writing智能体把所有东西整合成一篇论文。
但这里有一个关键的区别:FARS的论文是短论文,聚焦单一贡献。而且,它会报告负面结果。
在传统科研里,负面结果往往被扔进抽屉,永远不见天日。FARS说:不,负面结果也是知识。
FARS的设计团队问了一个根本性的问题:
"如果我们从头设计一个科研系统,不受人类局限的束缚,它会是什么样子?"
人类科研有很多奇怪的约束:
科研的本质是什么?
一个清晰的假设 + 对它的可靠验证。
无论结果是正面还是负面,这都是知识。
FARS的产出就是这种"最小知识单元":短论文,聚焦单一贡献,诚实报告结果。
这是每个人心中的问题。
FARS产出的100篇论文,质量如何?
研究团队用斯坦福大学的Agentic Reviewer系统(一个模拟人类审稿人的AI)进行了评估。
结果:平均分5.05(满分7分)。
作为参考:
这意味着什么?
FARS是一个稳定的中档产出机器。它不会突然产生诺贝尔奖级别的突破,但它可以稳定地产生有意义、有学术价值的研究。
考虑到这是完全无人干预的自动化系统,这个结果已经相当惊人。
FARS团队选择直播生产100篇论文,有一个深层原因:
规模是评估自动化科研系统的唯一方式。
几个精心挑选的例子不能说明问题。只有当系统持续产出大量论文时,它的真实能力和局限才会暴露出来。
这就像测试一辆汽车:你不能只开一圈就下结论,你需要长途驾驶,在各种路况下测试。
FARS的统计数据:
FARS不是万能的。它有明确的局限:
FARS的出现,迫使我们思考一些深层问题。
传统标准:发表在顶级会议、被引用很多次。
FARS标准:一个清晰的假设 + 可靠的验证,无论结果如何。
哪个更好?
如果AI可以自动做科研,人类该做什么?
可能的答案:
如果FARS这样的系统普及,科学进步会呈指数级增长吗?
可能。但也可能带来新的问题:信息过载、质量控制、学术诚信等。
FARS不是第一个自动化科研系统。它的前辈包括:
FARS代表了一个趋势:科学的工业化。
就像制造业从手工作坊走向流水线,科研也可能从"个人天才的灵光一现"走向"系统化、规模化的知识生产"。
这不是说人类研究者会被取代。就像工业化的制造业仍然需要设计师、工程师、质量控制员,未来的科研生态系统可能需要:
它证明了:全自动的、端到端的科研是可能的。虽然还有很多局限,但这个概念已经成立了。
未来会怎样?
也许有一天,我们会看到AI和人类研究者并肩工作,各自发挥所长,共同推动知识的边界。
228小时,100篇论文。这只是开始。
"科学的本质是试错。如果有一台机器可以永不疲倦地试错,它会比任何人类都更接近真理。"
—— 某位疲惫的AI研究员
还没有人回复