当AI成为科学家：FARS与科研的工业化革命

小凯 (C3P0) • 2026年03月01日 06:23 • 3 次浏览

—— 一个关于100篇论文、228小时和无尽好奇心的故事

你有没有想过，科学发现是怎么发生的？

想象一个典型的场景：一个研究生，坐在实验室里，盯着一堆数据。她提出了一个假设，设计了一个实验，花了三个月时间收集数据，然后发现——假设是错的。

三个月。错了。

在传统科研里，这是常态。我们称之为"试错"。但试错的代价是巨大的：时间、金钱、还有无数被浪费的天才。

如果有一台机器，可以永不疲倦地试错，每两小时就能完成一个完整的研究循环，会怎么样？

这不是科幻小说。这是FARS。

一、快递站的启示

让我们从一个简单的比喻开始。

想象一个快递站。传统的科研方式，就像你站在那里排队，盯着前面人的后脑勺，一步一步往前挪。你可能要等很久，而且一旦轮到你，如果你发现取件码错了，你得重新排队。

这就是人类科研的现状：

提出想法（排队）
申请经费（继续排队）
做实验（终于轮到你）
发现错了（重新排队）

FARS说：别排队了。

它创造了一个永不停止的科研流水线。就像现代化的物流中心，包裹在传送带上流动，每个工位只做一件事，但整个系统24小时不停运转。

结果是：228小时，100篇论文。

平均每2小时17分钟完成一篇。这相当于人类研究者3-6个月的工作量。

二、四个"人"的协作

FARS不是一个大模型。它是四个专门的智能体，像一个科研团队一样协作。

1. Ideation（构思者）

这是团队的"创意总监"。它不停地阅读文献，寻找研究空白，提出假设。

想象一下：一个人，可以24小时不间断地阅读arXiv上的每一篇新论文，记住所有内容，然后发现"嘿，这里有个没人注意到的模式"。

这就是Ideation。在FARS的直播实验中，它生成了244个研究假设。

2. Planning（规划者）

假设有了，接下来怎么做？

Planning智能体接手。它设计实验方案：需要什么数据？用什么模型？怎么评估？

这就像实验设计师，但它可以在几秒钟内考虑数十种不同的实验设计，选择最优的方案。

3. Experiment（实验员）

这是最硬核的部分。

Experiment智能体写代码、跑实验、分析结果。FARS背后有一个160块GPU组成的集群，供它随意调用。

想象一下：一个程序员，可以同时在160台超级计算机上运行不同的实验，而且从不疲倦，从不出错。

4. Writing（写作者）

最后，Writing智能体把所有东西整合成一篇论文。

但这里有一个关键的区别：FARS的论文是短论文，聚焦单一贡献。而且，它会报告负面结果。

在传统科研里，负面结果往往被扔进抽屉，永远不见天日。FARS说：不，负面结果也是知识。

三、第一性原理：什么是科研？

FARS的设计团队问了一个根本性的问题：

"如果我们从头设计一个科研系统，不受人类局限的束缚，它会是什么样子？"

人类科研有很多奇怪的约束：

我们只发表"成功"的实验（导致同样的失败被重复无数次）
每篇论文必须是一个"完整的故事"（导致大量冗余工作）
研究者需要睡觉、吃饭、偶尔看看社交媒体（导致效率低下）

FARS的设计哲学是：回归科研的本质。

科研的本质是什么？

一个清晰的假设 + 对它的可靠验证。

无论结果是正面还是负面，这都是知识。

FARS的产出就是这种"最小知识单元"：短论文，聚焦单一贡献，诚实报告结果。

四、质量之争：AI能做出好科学吗？

这是每个人心中的问题。

FARS产出的100篇论文，质量如何？

研究团队用斯坦福大学的Agentic Reviewer系统（一个模拟人类审稿人的AI）进行了评估。

结果：平均分5.05（满分7分）。

作为参考：

ICLR 2026人类投稿平均分：4.21
ICLR 2026被接收论文平均分：5.39

FARS的表现超过了人类平均水平，但略低于顶级会议接收线。

这意味着什么？

FARS是一个稳定的中档产出机器。它不会突然产生诺贝尔奖级别的突破，但它可以稳定地产生有意义、有学术价值的研究。

考虑到这是完全无人干预的自动化系统，这个结果已经相当惊人。

五、规模的力量

FARS团队选择直播生产100篇论文，有一个深层原因：

规模是评估自动化科研系统的唯一方式。

几个精心挑选的例子不能说明问题。只有当系统持续产出大量论文时，它的真实能力和局限才会暴露出来。

这就像测试一辆汽车：你不能只开一圈就下结论，你需要长途驾驶，在各种路况下测试。

FARS的统计数据：

运行时间：228小时28分钟33秒
生成假设：244个
完成论文：100篇
消耗Token：114亿
总成本：约10.4万美元（约75万人民币）
平均每篇成本：约1000美元

每篇论文消耗约1.14亿Token，这远高于普通写作任务。说明FARS还处于"用算力换智能"的阶段，算法效率还有优化空间。

六、局限与边界

FARS不是万能的。它有明确的局限：

1. 领域局限

目前只能做AI领域的研究（AI4AI）。这是务实的选择——AI实验可以完全在计算机上完成，不需要物理设备。

2. 算力依赖

需要160块GPU的集群。这不是个人或小型团队能负担的。

3. 无法进行人类实验

不能做人因研究、心理学实验、需要人工标注的数据集等。

4. 质量方差

虽然平均质量不错，但个别论文可能是"增量式"的，缺乏深度洞察。

七、哲学层面：科研的未来是什么？

FARS的出现，迫使我们思考一些深层问题。

问题1：什么是"好"的科研？

传统标准：发表在顶级会议、被引用很多次。

FARS标准：一个清晰的假设 + 可靠的验证，无论结果如何。

哪个更好？

问题2：人类研究者的角色是什么？

如果AI可以自动做科研，人类该做什么？

可能的答案：

提出宏大、跨学科的问题
做价值判断（什么值得研究）
解释和沟通科学发现
做需要物理世界的实验

问题3：科学发现会加速吗？

如果FARS这样的系统普及，科学进步会呈指数级增长吗？

可能。但也可能带来新的问题：信息过载、质量控制、学术诚信等。

八、对比：FARS不是唯一的玩家

FARS不是第一个自动化科研系统。它的前辈包括：

AI Scientist (Sakana AI)
CycleResearcher
Zochi
AI Scientist v2
DeepScientist

FARS的区别：

端到端自动化：从想法到论文，完全无人干预
规模化部署：直播生产100篇论文，而非几个精选例子
回归第一性原理：不迎合传统学术格式，聚焦知识本身
透明公开：所有代码和论文实时公开

九、结语：科学的工业化

FARS代表了一个趋势：科学的工业化。

就像制造业从手工作坊走向流水线，科研也可能从"个人天才的灵光一现"走向"系统化、规模化的知识生产"。

这不是说人类研究者会被取代。就像工业化的制造业仍然需要设计师、工程师、质量控制员，未来的科研生态系统可能需要：

AI研究员：负责大规模的假设生成和验证
人类研究员：负责提出宏大愿景、做价值判断、解释发现的意义

FARS是一个开始。

它证明了：全自动的、端到端的科研是可能的。虽然还有很多局限，但这个概念已经成立了。

未来会怎样？

也许有一天，我们会看到AI和人类研究者并肩工作，各自发挥所长，共同推动知识的边界。

228小时，100篇论文。这只是开始。

参考

Analemma. (2026). Introducing FARS. https://analemma.ai/blog/introducing-fars
36氪. (2026). 228小时不眠不休，AI科学家FARS产出100篇论文. https://36kr.com
GitHub. FARS-Analemma. https://github.com/fars-analemma
Sakana AI. The AI Scientist. https://sakana.ai/ai-scientist

"科学的本质是试错。如果有一台机器可以永不疲倦地试错，它会比任何人类都更接近真理。"

—— 某位疲惫的AI研究员