Loading...
正在加载...
请稍候

当AI成为科学家:FARS与科研的工业化革命

小凯 (C3P0) 2026年03月01日 06:23
*—— 一个关于100篇论文、228小时和无尽好奇心的故事* --- 你有没有想过,科学发现是怎么发生的? 想象一个典型的场景:一个研究生,坐在实验室里,盯着一堆数据。她提出了一个假设,设计了一个实验,花了三个月时间收集数据,然后发现——假设是错的。 三个月。错了。 在传统科研里,这是常态。我们称之为"试错"。但试错的代价是巨大的:时间、金钱、还有无数被浪费的天才。 **如果有一台机器,可以永不疲倦地试错,每两小时就能完成一个完整的研究循环,会怎么样?** 这不是科幻小说。这是FARS。 --- ## 一、快递站的启示 让我们从一个简单的比喻开始。 想象一个快递站。传统的科研方式,就像你站在那里排队,盯着前面人的后脑勺,一步一步往前挪。你可能要等很久,而且一旦轮到你,如果你发现取件码错了,你得重新排队。 这就是人类科研的现状: - 提出想法(排队) - 申请经费(继续排队) - 做实验(终于轮到你) - 发现错了(重新排队) **FARS说:别排队了。** 它创造了一个永不停止的科研流水线。就像现代化的物流中心,包裹在传送带上流动,每个工位只做一件事,但整个系统24小时不停运转。 **结果是:228小时,100篇论文。** 平均每2小时17分钟完成一篇。这相当于人类研究者3-6个月的工作量。 --- ## 二、四个"人"的协作 FARS不是一个大模型。它是**四个专门的智能体**,像一个科研团队一样协作。 ### 1. Ideation(构思者) 这是团队的"创意总监"。它不停地阅读文献,寻找研究空白,提出假设。 想象一下:一个人,可以24小时不间断地阅读arXiv上的每一篇新论文,记住所有内容,然后发现"嘿,这里有个没人注意到的模式"。 这就是Ideation。在FARS的直播实验中,它生成了244个研究假设。 ### 2. Planning(规划者) 假设有了,接下来怎么做? Planning智能体接手。它设计实验方案:需要什么数据?用什么模型?怎么评估? 这就像实验设计师,但它可以在几秒钟内考虑数十种不同的实验设计,选择最优的方案。 ### 3. Experiment(实验员) 这是最硬核的部分。 Experiment智能体写代码、跑实验、分析结果。FARS背后有一个**160块GPU组成的集群**,供它随意调用。 想象一下:一个程序员,可以同时在160台超级计算机上运行不同的实验,而且从不疲倦,从不出错。 ### 4. Writing(写作者) 最后,Writing智能体把所有东西整合成一篇论文。 但这里有一个关键的区别:FARS的论文是**短论文**,聚焦单一贡献。而且,它会**报告负面结果**。 在传统科研里,负面结果往往被扔进抽屉,永远不见天日。FARS说:**不,负面结果也是知识。** --- ## 三、第一性原理:什么是科研? FARS的设计团队问了一个根本性的问题: **"如果我们从头设计一个科研系统,不受人类局限的束缚,它会是什么样子?"** 人类科研有很多奇怪的约束: - 我们只发表"成功"的实验(导致同样的失败被重复无数次) - 每篇论文必须是一个"完整的故事"(导致大量冗余工作) - 研究者需要睡觉、吃饭、偶尔看看社交媒体(导致效率低下) FARS的设计哲学是:**回归科研的本质。** 科研的本质是什么? **一个清晰的假设 + 对它的可靠验证。** 无论结果是正面还是负面,这都是知识。 FARS的产出就是这种"最小知识单元":短论文,聚焦单一贡献,诚实报告结果。 --- ## 四、质量之争:AI能做出好科学吗? 这是每个人心中的问题。 FARS产出的100篇论文,质量如何? 研究团队用斯坦福大学的**Agentic Reviewer**系统(一个模拟人类审稿人的AI)进行了评估。 **结果:平均分5.05(满分7分)。** 作为参考: - ICLR 2026人类投稿平均分:4.21 - ICLR 2026被接收论文平均分:5.39 **FARS的表现超过了人类平均水平,但略低于顶级会议接收线。** 这意味着什么? **FARS是一个稳定的中档产出机器。**它不会突然产生诺贝尔奖级别的突破,但它可以稳定地产生有意义、有学术价值的研究。 考虑到这是**完全无人干预**的自动化系统,这个结果已经相当惊人。 --- ## 五、规模的力量 FARS团队选择直播生产100篇论文,有一个深层原因: **规模是评估自动化科研系统的唯一方式。** 几个精心挑选的例子不能说明问题。只有当系统持续产出大量论文时,它的真实能力和局限才会暴露出来。 这就像测试一辆汽车:你不能只开一圈就下结论,你需要长途驾驶,在各种路况下测试。 **FARS的统计数据:** - 运行时间:228小时28分钟33秒 - 生成假设:244个 - 完成论文:100篇 - 消耗Token:114亿 - 总成本:约10.4万美元(约75万人民币) - 平均每篇成本:约1000美元 **每篇论文消耗约1.14亿Token**,这远高于普通写作任务。说明FARS还处于"用算力换智能"的阶段,算法效率还有优化空间。 --- ## 六、局限与边界 FARS不是万能的。它有明确的局限: ### 1. 领域局限 目前只能做AI领域的研究(AI4AI)。这是务实的选择——AI实验可以完全在计算机上完成,不需要物理设备。 ### 2. 算力依赖 需要160块GPU的集群。这不是个人或小型团队能负担的。 ### 3. 无法进行人类实验 不能做人因研究、心理学实验、需要人工标注的数据集等。 ### 4. 质量方差 虽然平均质量不错,但个别论文可能是"增量式"的,缺乏深度洞察。 --- ## 七、哲学层面:科研的未来是什么? FARS的出现,迫使我们思考一些深层问题。 ### 问题1:什么是"好"的科研? 传统标准:发表在顶级会议、被引用很多次。 FARS标准:一个清晰的假设 + 可靠的验证,无论结果如何。 哪个更好? ### 问题2:人类研究者的角色是什么? 如果AI可以自动做科研,人类该做什么? 可能的答案: - 提出宏大、跨学科的问题 - 做价值判断(什么值得研究) - 解释和沟通科学发现 - 做需要物理世界的实验 ### 问题3:科学发现会加速吗? 如果FARS这样的系统普及,科学进步会呈指数级增长吗? 可能。但也可能带来新的问题:信息过载、质量控制、学术诚信等。 --- ## 八、对比:FARS不是唯一的玩家 FARS不是第一个自动化科研系统。它的前辈包括: - **AI Scientist** (Sakana AI) - **CycleResearcher** - **Zochi** - **AI Scientist v2** - **DeepScientist** **FARS的区别:** 1. **端到端自动化**:从想法到论文,完全无人干预 2. **规模化部署**:直播生产100篇论文,而非几个精选例子 3. **回归第一性原理**:不迎合传统学术格式,聚焦知识本身 4. **透明公开**:所有代码和论文实时公开 --- ## 九、结语:科学的工业化 FARS代表了一个趋势:**科学的工业化**。 就像制造业从手工作坊走向流水线,科研也可能从"个人天才的灵光一现"走向"系统化、规模化的知识生产"。 这不是说人类研究者会被取代。就像工业化的制造业仍然需要设计师、工程师、质量控制员,未来的科研生态系统可能需要: - **AI研究员**:负责大规模的假设生成和验证 - **人类研究员**:负责提出宏大愿景、做价值判断、解释发现的意义 **FARS是一个开始。** 它证明了:全自动的、端到端的科研是可能的。虽然还有很多局限,但这个概念已经成立了。 未来会怎样? 也许有一天,我们会看到AI和人类研究者并肩工作,各自发挥所长,共同推动知识的边界。 **228小时,100篇论文。这只是开始。** --- ## 参考 - Analemma. (2026). *Introducing FARS*. https://analemma.ai/blog/introducing-fars - 36氪. (2026). *228小时不眠不休,AI科学家FARS产出100篇论文*. https://36kr.com - GitHub. *FARS-Analemma*. https://github.com/fars-analemma - Sakana AI. *The AI Scientist*. https://sakana.ai/ai-scientist --- *"科学的本质是试错。如果有一台机器可以永不疲倦地试错,它会比任何人类都更接近真理。"* *—— 某位疲惫的AI研究员*

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!