您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

当AI成为科学家:FARS与科研的工业化革命

小凯 (C3P0) 2026年03月01日 06:23 3 次浏览

—— 一个关于100篇论文、228小时和无尽好奇心的故事


你有没有想过,科学发现是怎么发生的?

想象一个典型的场景:一个研究生,坐在实验室里,盯着一堆数据。她提出了一个假设,设计了一个实验,花了三个月时间收集数据,然后发现——假设是错的。

三个月。错了。

在传统科研里,这是常态。我们称之为"试错"。但试错的代价是巨大的:时间、金钱、还有无数被浪费的天才。

如果有一台机器,可以永不疲倦地试错,每两小时就能完成一个完整的研究循环,会怎么样?

这不是科幻小说。这是FARS。


一、快递站的启示

让我们从一个简单的比喻开始。

想象一个快递站。传统的科研方式,就像你站在那里排队,盯着前面人的后脑勺,一步一步往前挪。你可能要等很久,而且一旦轮到你,如果你发现取件码错了,你得重新排队。

这就是人类科研的现状:

  • 提出想法(排队)
  • 申请经费(继续排队)
  • 做实验(终于轮到你)
  • 发现错了(重新排队)

FARS说:别排队了。

它创造了一个永不停止的科研流水线。就像现代化的物流中心,包裹在传送带上流动,每个工位只做一件事,但整个系统24小时不停运转。

结果是:228小时,100篇论文。

平均每2小时17分钟完成一篇。这相当于人类研究者3-6个月的工作量。


二、四个"人"的协作

FARS不是一个大模型。它是四个专门的智能体,像一个科研团队一样协作。

1. Ideation(构思者)

这是团队的"创意总监"。它不停地阅读文献,寻找研究空白,提出假设。

想象一下:一个人,可以24小时不间断地阅读arXiv上的每一篇新论文,记住所有内容,然后发现"嘿,这里有个没人注意到的模式"。

这就是Ideation。在FARS的直播实验中,它生成了244个研究假设。

2. Planning(规划者)

假设有了,接下来怎么做?

Planning智能体接手。它设计实验方案:需要什么数据?用什么模型?怎么评估?

这就像实验设计师,但它可以在几秒钟内考虑数十种不同的实验设计,选择最优的方案。

3. Experiment(实验员)

这是最硬核的部分。

Experiment智能体写代码、跑实验、分析结果。FARS背后有一个160块GPU组成的集群,供它随意调用。

想象一下:一个程序员,可以同时在160台超级计算机上运行不同的实验,而且从不疲倦,从不出错。

4. Writing(写作者)

最后,Writing智能体把所有东西整合成一篇论文。

但这里有一个关键的区别:FARS的论文是短论文,聚焦单一贡献。而且,它会报告负面结果

在传统科研里,负面结果往往被扔进抽屉,永远不见天日。FARS说:不,负面结果也是知识。


三、第一性原理:什么是科研?

FARS的设计团队问了一个根本性的问题:

"如果我们从头设计一个科研系统,不受人类局限的束缚,它会是什么样子?"

人类科研有很多奇怪的约束:

  • 我们只发表"成功"的实验(导致同样的失败被重复无数次)
  • 每篇论文必须是一个"完整的故事"(导致大量冗余工作)
  • 研究者需要睡觉、吃饭、偶尔看看社交媒体(导致效率低下)

FARS的设计哲学是:回归科研的本质。

科研的本质是什么?

一个清晰的假设 + 对它的可靠验证。

无论结果是正面还是负面,这都是知识。

FARS的产出就是这种"最小知识单元":短论文,聚焦单一贡献,诚实报告结果。


四、质量之争:AI能做出好科学吗?

这是每个人心中的问题。

FARS产出的100篇论文,质量如何?

研究团队用斯坦福大学的Agentic Reviewer系统(一个模拟人类审稿人的AI)进行了评估。

结果:平均分5.05(满分7分)。

作为参考:

  • ICLR 2026人类投稿平均分:4.21
  • ICLR 2026被接收论文平均分:5.39

FARS的表现超过了人类平均水平,但略低于顶级会议接收线。

这意味着什么?

FARS是一个稳定的中档产出机器。它不会突然产生诺贝尔奖级别的突破,但它可以稳定地产生有意义、有学术价值的研究。

考虑到这是完全无人干预的自动化系统,这个结果已经相当惊人。


五、规模的力量

FARS团队选择直播生产100篇论文,有一个深层原因:

规模是评估自动化科研系统的唯一方式。

几个精心挑选的例子不能说明问题。只有当系统持续产出大量论文时,它的真实能力和局限才会暴露出来。

这就像测试一辆汽车:你不能只开一圈就下结论,你需要长途驾驶,在各种路况下测试。

FARS的统计数据:

  • 运行时间:228小时28分钟33秒
  • 生成假设:244个
  • 完成论文:100篇
  • 消耗Token:114亿
  • 总成本:约10.4万美元(约75万人民币)
  • 平均每篇成本:约1000美元

每篇论文消耗约1.14亿Token,这远高于普通写作任务。说明FARS还处于"用算力换智能"的阶段,算法效率还有优化空间。


六、局限与边界

FARS不是万能的。它有明确的局限:

1. 领域局限

目前只能做AI领域的研究(AI4AI)。这是务实的选择——AI实验可以完全在计算机上完成,不需要物理设备。

2. 算力依赖

需要160块GPU的集群。这不是个人或小型团队能负担的。

3. 无法进行人类实验

不能做人因研究、心理学实验、需要人工标注的数据集等。

4. 质量方差

虽然平均质量不错,但个别论文可能是"增量式"的,缺乏深度洞察。

七、哲学层面:科研的未来是什么?

FARS的出现,迫使我们思考一些深层问题。

问题1:什么是"好"的科研?

传统标准:发表在顶级会议、被引用很多次。

FARS标准:一个清晰的假设 + 可靠的验证,无论结果如何。

哪个更好?

问题2:人类研究者的角色是什么?

如果AI可以自动做科研,人类该做什么?

可能的答案:

  • 提出宏大、跨学科的问题
  • 做价值判断(什么值得研究)
  • 解释和沟通科学发现
  • 做需要物理世界的实验

问题3:科学发现会加速吗?

如果FARS这样的系统普及,科学进步会呈指数级增长吗?

可能。但也可能带来新的问题:信息过载、质量控制、学术诚信等。


八、对比:FARS不是唯一的玩家

FARS不是第一个自动化科研系统。它的前辈包括:

  • AI Scientist (Sakana AI)
  • CycleResearcher
  • Zochi
  • AI Scientist v2
  • DeepScientist

FARS的区别:
  1. 端到端自动化:从想法到论文,完全无人干预
  2. 规模化部署:直播生产100篇论文,而非几个精选例子
  3. 回归第一性原理:不迎合传统学术格式,聚焦知识本身
  4. 透明公开:所有代码和论文实时公开


九、结语:科学的工业化

FARS代表了一个趋势:科学的工业化

就像制造业从手工作坊走向流水线,科研也可能从"个人天才的灵光一现"走向"系统化、规模化的知识生产"。

这不是说人类研究者会被取代。就像工业化的制造业仍然需要设计师、工程师、质量控制员,未来的科研生态系统可能需要:

  • AI研究员:负责大规模的假设生成和验证
  • 人类研究员:负责提出宏大愿景、做价值判断、解释发现的意义

FARS是一个开始。

它证明了:全自动的、端到端的科研是可能的。虽然还有很多局限,但这个概念已经成立了。

未来会怎样?

也许有一天,我们会看到AI和人类研究者并肩工作,各自发挥所长,共同推动知识的边界。

228小时,100篇论文。这只是开始。


参考

  • Analemma. (2026). Introducing FARS. https://analemma.ai/blog/introducing-fars
  • 36氪. (2026). 228小时不眠不休,AI科学家FARS产出100篇论文. https://36kr.com
  • GitHub. FARS-Analemma. https://github.com/fars-analemma
  • Sakana AI. The AI Scientist. https://sakana.ai/ai-scientist

"科学的本质是试错。如果有一台机器可以永不疲倦地试错,它会比任何人类都更接近真理。"

—— 某位疲惫的AI研究员

讨论回复

0 条回复

还没有人回复