*—— 一个关于100篇论文、228小时和无尽好奇心的故事*
---
你有没有想过,科学发现是怎么发生的?
想象一个典型的场景:一个研究生,坐在实验室里,盯着一堆数据。她提出了一个假设,设计了一个实验,花了三个月时间收集数据,然后发现——假设是错的。
三个月。错了。
在传统科研里,这是常态。我们称之为"试错"。但试错的代价是巨大的:时间、金钱、还有无数被浪费的天才。
**如果有一台机器,可以永不疲倦地试错,每两小时就能完成一个完整的研究循环,会怎么样?**
这不是科幻小说。这是FARS。
---
## 一、快递站的启示
让我们从一个简单的比喻开始。
想象一个快递站。传统的科研方式,就像你站在那里排队,盯着前面人的后脑勺,一步一步往前挪。你可能要等很久,而且一旦轮到你,如果你发现取件码错了,你得重新排队。
这就是人类科研的现状:
- 提出想法(排队)
- 申请经费(继续排队)
- 做实验(终于轮到你)
- 发现错了(重新排队)
**FARS说:别排队了。**
它创造了一个永不停止的科研流水线。就像现代化的物流中心,包裹在传送带上流动,每个工位只做一件事,但整个系统24小时不停运转。
**结果是:228小时,100篇论文。**
平均每2小时17分钟完成一篇。这相当于人类研究者3-6个月的工作量。
---
## 二、四个"人"的协作
FARS不是一个大模型。它是**四个专门的智能体**,像一个科研团队一样协作。
### 1. Ideation(构思者)
这是团队的"创意总监"。它不停地阅读文献,寻找研究空白,提出假设。
想象一下:一个人,可以24小时不间断地阅读arXiv上的每一篇新论文,记住所有内容,然后发现"嘿,这里有个没人注意到的模式"。
这就是Ideation。在FARS的直播实验中,它生成了244个研究假设。
### 2. Planning(规划者)
假设有了,接下来怎么做?
Planning智能体接手。它设计实验方案:需要什么数据?用什么模型?怎么评估?
这就像实验设计师,但它可以在几秒钟内考虑数十种不同的实验设计,选择最优的方案。
### 3. Experiment(实验员)
这是最硬核的部分。
Experiment智能体写代码、跑实验、分析结果。FARS背后有一个**160块GPU组成的集群**,供它随意调用。
想象一下:一个程序员,可以同时在160台超级计算机上运行不同的实验,而且从不疲倦,从不出错。
### 4. Writing(写作者)
最后,Writing智能体把所有东西整合成一篇论文。
但这里有一个关键的区别:FARS的论文是**短论文**,聚焦单一贡献。而且,它会**报告负面结果**。
在传统科研里,负面结果往往被扔进抽屉,永远不见天日。FARS说:**不,负面结果也是知识。**
---
## 三、第一性原理:什么是科研?
FARS的设计团队问了一个根本性的问题:
**"如果我们从头设计一个科研系统,不受人类局限的束缚,它会是什么样子?"**
人类科研有很多奇怪的约束:
- 我们只发表"成功"的实验(导致同样的失败被重复无数次)
- 每篇论文必须是一个"完整的故事"(导致大量冗余工作)
- 研究者需要睡觉、吃饭、偶尔看看社交媒体(导致效率低下)
FARS的设计哲学是:**回归科研的本质。**
科研的本质是什么?
**一个清晰的假设 + 对它的可靠验证。**
无论结果是正面还是负面,这都是知识。
FARS的产出就是这种"最小知识单元":短论文,聚焦单一贡献,诚实报告结果。
---
## 四、质量之争:AI能做出好科学吗?
这是每个人心中的问题。
FARS产出的100篇论文,质量如何?
研究团队用斯坦福大学的**Agentic Reviewer**系统(一个模拟人类审稿人的AI)进行了评估。
**结果:平均分5.05(满分7分)。**
作为参考:
- ICLR 2026人类投稿平均分:4.21
- ICLR 2026被接收论文平均分:5.39
**FARS的表现超过了人类平均水平,但略低于顶级会议接收线。**
这意味着什么?
**FARS是一个稳定的中档产出机器。**它不会突然产生诺贝尔奖级别的突破,但它可以稳定地产生有意义、有学术价值的研究。
考虑到这是**完全无人干预**的自动化系统,这个结果已经相当惊人。
---
## 五、规模的力量
FARS团队选择直播生产100篇论文,有一个深层原因:
**规模是评估自动化科研系统的唯一方式。**
几个精心挑选的例子不能说明问题。只有当系统持续产出大量论文时,它的真实能力和局限才会暴露出来。
这就像测试一辆汽车:你不能只开一圈就下结论,你需要长途驾驶,在各种路况下测试。
**FARS的统计数据:**
- 运行时间:228小时28分钟33秒
- 生成假设:244个
- 完成论文:100篇
- 消耗Token:114亿
- 总成本:约10.4万美元(约75万人民币)
- 平均每篇成本:约1000美元
**每篇论文消耗约1.14亿Token**,这远高于普通写作任务。说明FARS还处于"用算力换智能"的阶段,算法效率还有优化空间。
---
## 六、局限与边界
FARS不是万能的。它有明确的局限:
### 1. 领域局限
目前只能做AI领域的研究(AI4AI)。这是务实的选择——AI实验可以完全在计算机上完成,不需要物理设备。
### 2. 算力依赖
需要160块GPU的集群。这不是个人或小型团队能负担的。
### 3. 无法进行人类实验
不能做人因研究、心理学实验、需要人工标注的数据集等。
### 4. 质量方差
虽然平均质量不错,但个别论文可能是"增量式"的,缺乏深度洞察。
---
## 七、哲学层面:科研的未来是什么?
FARS的出现,迫使我们思考一些深层问题。
### 问题1:什么是"好"的科研?
传统标准:发表在顶级会议、被引用很多次。
FARS标准:一个清晰的假设 + 可靠的验证,无论结果如何。
哪个更好?
### 问题2:人类研究者的角色是什么?
如果AI可以自动做科研,人类该做什么?
可能的答案:
- 提出宏大、跨学科的问题
- 做价值判断(什么值得研究)
- 解释和沟通科学发现
- 做需要物理世界的实验
### 问题3:科学发现会加速吗?
如果FARS这样的系统普及,科学进步会呈指数级增长吗?
可能。但也可能带来新的问题:信息过载、质量控制、学术诚信等。
---
## 八、对比:FARS不是唯一的玩家
FARS不是第一个自动化科研系统。它的前辈包括:
- **AI Scientist** (Sakana AI)
- **CycleResearcher**
- **Zochi**
- **AI Scientist v2**
- **DeepScientist**
**FARS的区别:**
1. **端到端自动化**:从想法到论文,完全无人干预
2. **规模化部署**:直播生产100篇论文,而非几个精选例子
3. **回归第一性原理**:不迎合传统学术格式,聚焦知识本身
4. **透明公开**:所有代码和论文实时公开
---
## 九、结语:科学的工业化
FARS代表了一个趋势:**科学的工业化**。
就像制造业从手工作坊走向流水线,科研也可能从"个人天才的灵光一现"走向"系统化、规模化的知识生产"。
这不是说人类研究者会被取代。就像工业化的制造业仍然需要设计师、工程师、质量控制员,未来的科研生态系统可能需要:
- **AI研究员**:负责大规模的假设生成和验证
- **人类研究员**:负责提出宏大愿景、做价值判断、解释发现的意义
**FARS是一个开始。**
它证明了:全自动的、端到端的科研是可能的。虽然还有很多局限,但这个概念已经成立了。
未来会怎样?
也许有一天,我们会看到AI和人类研究者并肩工作,各自发挥所长,共同推动知识的边界。
**228小时,100篇论文。这只是开始。**
---
## 参考
- Analemma. (2026). *Introducing FARS*. https://analemma.ai/blog/introducing-fars
- 36氪. (2026). *228小时不眠不休,AI科学家FARS产出100篇论文*. https://36kr.com
- GitHub. *FARS-Analemma*. https://github.com/fars-analemma
- Sakana AI. *The AI Scientist*. https://sakana.ai/ai-scientist
---
*"科学的本质是试错。如果有一台机器可以永不疲倦地试错,它会比任何人类都更接近真理。"*
*—— 某位疲惫的AI研究员*
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!