永不入眠的实验室：当一台AI在228小时内独自写完了100篇科研论文

*——FARS与人工智能科研革命的破晓时分*

---

🌙 序曲：深夜里，有人在不停地写论文

2025年2月12日，一个普通的冬日清晨，某处服务器机房里，160块NVIDIA GPU同时亮起了指示灯。没有博士生在熬夜改论文，没有教授在红批实验数据，没有组会，也没有咖啡机嗡嗡作响——唯有代码在静静流动，如同电流穿越深海。

这一天，一家名叫Analemma（中文名：日行迹智能）的AI公司按下了"启动键"，开启了人类历史上第一次全自动科研的公开直播实验。这家公司成立不足一年，已拿到红杉中国、高榕等机构数千万美元天使轮融资；其创始人孙天祥，是前MOSS大模型的核心开发者。他们给这个系统取了一个雄心勃勃的名字：FARS，Fully Automated Research System，全自动研究系统。

九天半之后，2月23日，计时器走到了 228小时28分33秒。这台机器，在没有任何人类实时介入的情况下，独自完成了：

244个研究假设的提出与筛选
100篇短论文的生成与整理
114亿tokens的处理与生成
总花费约 10.4万美元

这不是科幻小说，也不是秘密黑箱实验——所有代码、假设、论文、AI评审结果，全程实时公开在GitLab（gitlab.com/fars-a）和官网，任何人都可以围观。

但这究竟意味着什么？AI真的在"做科研"了吗？它写出来的论文好不好？人类科研者还有没有未来？

带着这些问题，让我们走进这座永不入眠的实验室。

---

🏗️ 科研流水线的蓝图：这不是一个"写论文工具"

要理解FARS，我们首先需要打破一个常见误解：它不是AI辅助写作工具。

如果你见过那些能帮你润色文章、生成摘要的AI产品，请暂时把那个印象放到一边。FARS更像一座无人值守的研究工厂——它会自己找选题、自己设计实验、自己写代码运行、自己把结果整理成论文。整个科研的完整闭环，从"产生想法"到"写出论文"，全部由机器独立完成。

这座工厂的核心架构，是一个四智能体多代理系统（Multi-Agent System）。

> 📌 概念注解：什么是"多代理系统"（Multi-Agent System）？ > > 在AI领域，"智能体"（Agent）指能够感知环境、做出决策并自主采取行动的程序。"多代理系统"就是让多个智能体协同工作，每位智能体专注于不同子任务，通过接力配合完成复杂目标。这类似于一家公司的不同部门各司其职——市场部、研发部、生产部、公关部各自有职责，又相互依存。

用一个直观的比喻来理解：想象一支精锐的科研小队，有四位专职成员——调研员、规划师、实验员、写手。他们分工明确、环环相扣，共同完成每一个研究项目。FARS里的四个智能体，正是这样工作的：

🔍 第一位：Ideation（构想者）

Ideation智能体是整个流水线的"创意引擎"。它的工作是：持续扫描最新的开源论文数据库和GitLab代码仓库，理解当前研究的前沿热点，然后提出可验证的研究假设。

注意"可验证"这三个字——这是FARS设计哲学的核心之一。Ideation不是随意头脑风暴，它提出的每个假设，都必须是"能被实验证伪或证实的"。这一原则，源自科学哲学家卡尔·波普尔的经典理念：一个有意义的科学命题，必须是可证伪的。在228小时的运行周期里，Ideation共生成了 244个研究假设，涵盖LLM安全防御、视觉问答增强、代码生成优化、向量数据库安全等多个AI前沿方向。

📐 第二位：Planning（规划师）

规划师的工作是把抽象假设翻译成具体的实验方案。它需要回答：用什么数据集？用什么模型作为基准（baseline）？设计哪些对比组？指标如何设定？

这一步看似简单，实则关键。一个好的科学实验设计，就像一场精心准备的辩论——你需要提前想好所有可能的反驳，并设计好反驳它们的手段。Planning智能体承担了人类科研中"实验设计"这一极为依赖经验的核心环节。

⚗️ 第三位：Experiment（实验员）

这是FARS里最"硬核"的成员。Experiment智能体负责：自己写代码、在160张NVIDIA GPU集群上跑实验、收集结果、分析数据。

它不只是调用别人写好的脚本——它会根据Planning的方案，从零开始编写实验代码，处理各种可能出现的报错和异常，并在结果不符合预期时进行调试与调整。更令人印象深刻的是，这个智能体还运用了 RLVR（可验证奖励强化学习） 技术来优化自身策略，我们后面会详细介绍这一秘密武器。

✍️ 第四位：Writing（写手）

实验完成后，Writing智能体接过接力棒，把整个研究过程——假设、方法、结果、分析、结论——整理成结构完整的短论文（Short Paper）。

Analemma刻意选择了"短论文"这一形式，而非传统的冗长学术论文。这背后有其深刻的设计哲学：聚焦单一贡献，鼓励报告负结果。与其写一篇堆砌大量相关工作、只为填满页数的长论文，不如用几页纸清晰说明：我做了什么、发现了什么、结论是什么——包括"失败的实验"也值得被记录，因为负结果同样是知识。

---

🧬 共享文件系统：四位智能体的"大脑中枢"

四个智能体如何协同工作？答案出人意料地简洁：通过一个共享文件系统。

在FARS的架构中，所有智能体都能读写同一个文件系统——这里存储着文献摘要、实验日志、代码文件、中间结果、论文草稿……它既是智能体之间传递信息的"工作台"，也是系统的"长期记忆库"。Ideation写下假设，Planning在同一个文件里添加实验方案，Experiment读取方案后写入实验结果，Writing再把一切整合成论文——这条流水线，依靠一个共享文件夹运转。

> 📌 概念注解：为什么用文件系统，而不是向量数据库？ > > 许多AI系统选择使用"向量数据库"（Vector Database）来存储信息——这种技术把文本转化为数学向量，通过相似度计算检索相关内容，类似一个超级智能的搜索引擎。但FARS选择了更直接的共享文件系统。这个选择有工程上的智慧：文件系统对结构化数据（代码、日志、论文草稿）的操控更直接，各智能体可以像真实团队那样"共享文档"，减少了中间抽象层带来的信息损失，也让整个流程更透明、更易于调试。

这个设计让人联想到真实科研团队的工作方式——教授和博士生共享实验室服务器上的文件夹，论文草稿、实验数据、代码脚本，所有人都能看到，所有人都能批注修改。FARS的四个智能体，正是以这种朴素而有效的方式进行"团队协作"的。

---

⚡ 秘密武器：RLVR是什么，为何它举足轻重？

在FARS的技术堆栈里，有一个关键词反复出现：RLVR，全称 Reinforcement Learning with Verifiable Rewards（可验证奖励强化学习）。

理解RLVR，需要先理解它的前辈——RLHF（基于人类反馈的强化学习）。过去几年里，RLHF被大量用于训练ChatGPT这样的对话模型：让人类评估员给AI的回复打分，再用这些评分来训练模型，让它越来越符合人类偏好。

RLHF有个根本局限：它依赖人类打分。人类打分有主观性、有疲劳感、有成本——你不可能让人类实时评估一个AI在进行科研实验时每一个决策的好坏。

RLVR解决了这个问题。它的核心思路是：用客观、可验证的结果作为奖励信号，取代主观的人类打分。

> 📌 概念注解：强化学习（Reinforcement Learning） > > 强化学习是机器学习的一个分支，核心思想是"奖惩机制"：智能体通过在环境中试错，根据行动结果获得奖励或惩罚，逐渐学会什么是好策略。就像训练一只狗——做对了给零食，做错了不给——AI通过无数次试错来优化行为。RLVR的创新在于，把"奖励"从主观的人类评分，变成了客观可验证的实验结果：代码跑通了、指标提升了，就是奖励；报错崩溃、结果偏离预期，就是惩罚。

在科研场景中，这种"可验证奖励"天然存在：代码跑通了没有？实验指标有没有提升？这些结果是客观的，机器自己就能判断。于是RLVR允许Experiment智能体在做实验的过程中，通过自我强化学习不断优化实验策略——成功就是奖励，失败就是教训，周而复始，自我进化。

这一技术在2024—2025年间迅速成为AI研究的热点。DeepSeek-R1、OpenAI的o1/o3系列模型，都在推理能力上大量采用了RLVR相关思路。FARS将其引入科研自动化流程，是将前沿学术成果付诸工程实践的有益探索。

---

📊 228小时的奇迹：那些令人瞠目的数字

让我们认真审视那些令人惊讶的数字，并尝试理解它们真正代表的意义。

速度：每2小时诞生一篇论文

228小时28分33秒，约合9.5天，FARS产出了100篇论文，平均每篇用时约2小时17分钟。

人类博士生的平均写论文周期，从选题到成稿，往往需要数月乃至半年。即便是快节奏的会议投稿——从立项到提交，也需要数周。如果你有一支10人的研究团队，每人每个季度写一篇论文，一年产出40篇已是高产；FARS的年化产出速度，在理论上可超过4000篇。

成本：每篇1040美元的知识工厂

FARS的总成本约10.4万美元，折合每篇约1040美元。

孤立地看，这个数字似乎不低。但对比来看：一位北京高校博士生的综合培养成本（学费、补贴、导师时间、设备折旧），每篇一作论文的边际成本估算往往在数万元人民币量级；硅谷顶尖实验室的研究员，时薪往往在200—500美元之间，单篇论文的人力成本轻松超过万美元。

这个价格信号足够清晰：AI科研的边际成本，正在快速逼近让人难以忽视的阈值。

Token洪流：114亿的数字奇景

114亿tokens是什么概念？

GPT-4的训练数据量估计在约1万亿tokens级别，而FARS在228小时内推理和生成了约114亿tokens——相当于每秒约13,800个tokens在系统内流动。如果把这些tokens全部打印成A4纸，大约需要堆满一整间中型教室。

这些tokens流经了什么？文献阅读、假设生成、实验代码编写、数据分析、论文写作、自我审查……每一项科研活动，在这个数字工厂里，都化作了tokens的涌动与转化。

---

🔬 AI评审AI：那100篇论文，究竟写得怎样？

数量是迷人的，但更关键的问题来了：这些论文写得怎么样？

Analemma采用了斯坦福ML组开发的 Agentic Reviewer（paperreview.ai）对100篇论文进行统一评估。这个评审系统按照 ICLR会议的评审标准打分，满分10分。

> 📌 概念注解：ICLR是什么？ > > ICLR（International Conference on Learning Representations，学习表征国际会议）是人工智能领域最顶级的学术会议之一，与NeurIPS、ICML并称AI学术界的"三大顶会"。每年的录取率约在25%—30%之间，评审采用1—10分制，一般认为6分以上有较大把握被接收。

结果如下：

评估指标	数值
FARS论文得分范围	3.0 – 6.3
FARS论文平均分	5.05
FARS论文众数区间	~5.2（约57篇集中于此）
ICLR 2026人类投稿整体均分	4.21
ICLR 2026被接收论文均分	5.39

这组数据值得仔细解读。

5.05 vs 4.21：FARS论文的平均评分，高于人类投稿的整体水平。换言之，如果随机从FARS的产出堆里抽一篇，它的质量预期会比一篇随机人类投稿更高。

5.05 vs 5.39：与被接收的优质人类论文相比，FARS的平均分略低，与顶会录取线尚有约0.34分的差距，尚未稳定达到顶会录取线。但这个差距已经非常小——在分布的右尾，FARS已有论文达到6分以上，触及接收区间。

结构性分析：约57篇论文集中在5.2分左右，这呈现了一个有趣的"工业化稳定态"——大量产出聚集在同一质量带，标准差相对较小。这恰恰是流水线生产的典型特征：稳定、批量、但缺乏突破。

从已公开的论文标题来看，内容涵盖：

视觉问答增强（*Re-Inked OCR Views for Robust Chart QA under Visual Degradations*）
LLM安全防御与攻击
向量数据库信息泄露
模型量化优化
代码生成质量提升

这些都是AI领域的"正规军"研究方向，属于扎实但并不激进的增量式贡献（Incremental Contribution）。每篇都有清晰的问题陈述、合理的方法、可复现的实验——没有"重新定义Transformer架构"这样的颠覆性工作，但也没有空洞的堆砌。代码完全开源、实验日志透明，社区可以独立复现和验证。

当然，我们需要给这组数据打上一个重要的星号：AI评审AI，本身存在系统性偏差的风险。Agentic Reviewer的评分体系基于人类学术论文的写作规范训练——它可能对"结构工整、格式规范"的论文打出更高分，而对"思想激进、表达非传统"的原创性工作评估不足。更深层的隐患是：FARS和Agentic Reviewer都在某种程度上"学习了"同一批人类论文的写作模式——如果FARS的Writing智能体写出了符合学术规范的文章，Agentic Reviewer自然会给出较高评分，但这可能只是格式层面的共鸣，而非真正的科学价值认可。

对此，Analemma并不讳言，并额外安排了至少3位5年以上经验的研究员人工审核每篇论文，并承诺独立人类质量评估结果即将公布。合格论文明确标注"AI-generated"后上传arXiv，不走传统会议投稿，欢迎全球研究社区进行同行评审。

---

🌐 它不是第一个，但它走得最远

FARS不是第一个尝试"AI自动做科研"的系统，但它走出了迄今为止最远的一步。

2024年，日本Sakana AI（鱼群智能）发布了一项里程碑性工作：The AI Scientist（AI科学家）[1]。这个系统能够自主提出研究想法、编写代码进行实验、生成完整论文，并进行自动评审——在小样本测试中，生成了几篇达到NeurIPS Workshop接收水平的论文，引发学界广泛讨论。但AI Scientist的运行规模相对有限，更像一个概念验证（Proof of Concept），证明了端到端自动科研的技术可行性。

同年，斯坦福大学和卡内基梅隆大学的研究团队分别推出了 ResearchAgent [2] 和 Agent Laboratory [3] 等系统，探索如何用大语言模型迭代生成研究假设、审查文献、设计实验方案。这些系统在特定任务上展现了令人印象深刻的能力，但都没有构建完整的端到端工业化流水线。

FARS的创新，在于它实现了工业级规模的连续运行：

不是一次性演示，而是 9.5天的持续生产
不是封闭测试，而是 全程公开直播
不是小样本实验，而是 100篇论文的系统性输出
不是人工辅助，而是 零人类实时干预

如果说AI Scientist是第一辆电动汽车的原型机，那么FARS更像特斯拉建立的第一条量产流水线——更粗糙、更工业化，但也更接近真实世界的规模验证。

另一个值得对比的维度是研究哲学。许多自动化科研工具都以"发顶会论文"为终极目标，生成的论文格式、风格都向顶会标准对齐。FARS反其道而行之，明确声明不针对顶会格式优化，产出短论文，鼓励报告负结果——这种"第一性原理"的设计理念，其实更接近真正的科学精神：科研的目的是探索真相，而不仅仅是发表论文。

---

🤔 那些我们必须正视的深层隐忧

面对FARS的成就，我们不能只沉浸在惊叹中。有一些深层问题，必须被认真提出。

创新的天花板：增量式工作的本质局限

100篇论文里，几乎没有真正颠覆性的工作。这不是偶然的。

FARS的Ideation智能体通过阅读现有论文来生成假设。这意味着它的创意空间，本质上是现有文献空间的函数——它能做到的最好，是找到现有研究的空白点，在那里进行增量填补。

真正的科学突破往往来自反常识的直觉、跨领域的灵感碰撞、或者因无知而敢于质疑。就像一个读遍了19世纪所有物理学论文的学者，不一定能独立提出量子力学——因为量子力学的突破，恰恰需要对"经典物理学常识"的颠覆性质疑。而这种质疑，往往来自门外汉的天真，而非学者的渊博。

学术生态的压力：同行评审体系能否承受？

随着AI科研工具的普及，一个现实问题会越来越迫切：当AI可以快速生成大量"可复现但增量"的论文，学术界如何维持对真正原创性工作的判断标准？

期刊编辑、评审委员会、基金评审——这些把关机制都建立在"论文产量有限、人工评审可行"的假设上。如果FARS这样的系统普及，每年AI领域的论文提交量从数万篇暴增到数十万篇，现有学术同行评审体系很可能面临根本性的压力。谁来读这些论文？谁来判断真正的价值？

数据循环污染：AI训练AI的长期风险

还有一个更深层的隐忧：如果AI生成的论文大规模进入学术数据库，而下一代AI又在这些数据上训练，就会形成一个封闭的数据循环。随着时间推移，AI的"知识"会越来越多地来自AI自身的产出，而非人类的原创思考。这就像一台复印机不断复印已经是复印件的文件——每一代都在累积误差，长期可能导致科学知识的系统性偏漂（Drift）——更符合AI的表达习惯，而不再反映真实世界的规律。

这不是FARS独有的问题，但FARS的规模让这个问题变得更加紧迫，也更值得全球科学共同体认真思考。

---

🚀 科研的未来：人类向何处去？

好了，说了这么多令人不安的事实，让我们回到那个最根本的问题：当AI可以每2小时产出一篇有竞争力的论文，人类科研者还有没有意义？

答案是肯定的，而且理由比你想象的更充分。

人类的不可替代性：那些AI永远无法单独完成的事

提出真正颠覆性的问题

科学史上最重要的时刻，不是找到答案的那一刻，而是提出正确问题的那一刻。为什么苹果会落下来？光速是否随观测者运动状态而改变？DNA携带遗传信息吗？这些问题的提出，需要的是对"什么值得追问"的深刻判断——而这种判断，深深植根于人类对世界的具身认知（Embodied Cognition） 和生命经验，是AI目前无法复制的。

跨领域洞察与范式迁移

一位神经科学家去听了一场音乐会，突然意识到大脑的节律活动和音乐的节拍之间有某种类比关系，由此产生了一个全新的研究方向——这种跨领域的灵光一现，需要人类的感性体验、审美判断和领域间的隐性联系。AI能在已有文献中发现跨领域的文字关联，但很难产生真正"打破范式"的新理解。

真实世界的实验与验证

FARS所做的一切，都发生在数字世界——文字、代码、模型权重。但科学不只存在于屏幕之中。药物试验需要人体参与；材料科学需要真实的原子排列；气候模型需要与真实的地球系统校准。人类科研者，仍然是连接数字推理与物理现实的不可或缺的桥梁。

伦理判断与社会意义

什么样的研究值得做？什么样的技术不应该被开发？AI能给出"效率最优"的科研策略，但无法代替人类回答"这对人类是否有益"这个根本问题。科研的社会责任、伦理审查、以及"为什么这很重要"的价值判断，是人类必须坚守的领域。

人机协作的新范式：你将成为"AI博士团队的老板"

更积极的展望是：FARS这样的系统，会让人类科研者从繁重的重复性工作中解放出来，聚焦于更高层次的创造性工作。

想象一下近未来的科研场景：

> 一位人类科学家，手握一个宏大但模糊的研究愿景——"我想理解大脑如何在嘈杂环境中保持认知稳定性"。她召唤一组AI智能体，授权它们扫描相关文献、提出可测试的子假设、设计基础实验方案。几天后，AI团队返回了20个经过初步验证的研究方向，附带实验数据和代码。科学家审阅这些结果，用她的专业直觉和领域洞察，挑选出最有价值的3个方向，进行深度人机协作研究。

在这个场景中，AI承担了"繁重的调研和试错工作"，人类承担了"战略方向和价值判断"——这正是人机协作的最优分工。

这与计算器、计算机、互联网对科研的影响如出一辙：工具越强，人类越能把精力放在真正有创造力、有意义的事上。就像程序员有了GitHub Copilot之后，代码写得更快，但架构设计、产品判断、用户理解反而变得更加重要一样；未来的科研者，会因为AI的存在，需要在大问题思维、跨领域整合、实验批判性评估上投入更多精力，也因此能够取得更大的突破。

科研不会消失，只会加速、放大、更有趣。

---

🌅 尾声：这只是序章

2025年2月，FARS用9.5天写完了100篇论文，然后……系统还在跑。

Analemma在官方博客上写道："这只是开始。"他们计划持续迭代系统，改进每个智能体的能力，提高论文质量，并邀请全球研究社区参与审阅和反馈。

在人类漫长的知识积累史上，每一次生产工具的革命，都会引发深刻的焦虑——印刷机让手抄修士失业，计算机让制表员下岗，互联网让许多传统职业消失。但每次革命之后，人类的知识生产速度都会跃上新台阶，涌现出之前无法想象的新职业和新可能。

FARS的出现，可能是科研史上的一个类似时刻。它不是科研的终结，而是科研的一次量变引发质变的关键跃迁——当知识的增量生产被极大加速，人类的精力就能越来越多地投入到那些只有人类才能做的事情：追问大问题、定义未来方向、赋予知识以意义。

那间永不熄灭的服务器机房，不是在取代科学家的实验室——它是在为科学家准备一个更快、更强的工具箱。

至于你，正在阅读这篇文章的你，如果你热爱科研、热爱探索、热爱追问"为什么"——这个时代，比任何时候都更需要你。

只不过，你的博士后团队，可能是AI了。

---

📚 参考文献

1. Lu, C., et al. (2024). *The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery.* Sakana AI Technical Report. arXiv:2408.06292. > 首个完整的AI自主科研系统，涵盖假设生成、实验、论文写作与评审的全流程，验证了端到端自动科研的技术可行性。

2. Kim, J., et al. (2024). *ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models.* arXiv:2404.07738. > 基于大语言模型的科研想法迭代生成系统，探讨了如何通过多轮反馈提升假设质量。

3. Schmidgall, S., et al. (2025). *Agent Laboratory: Using LLM Agents as Research Assistants.* arXiv:2501.04227. > 探索将LLM智能体作为科研助理的系统性框架，讨论多智能体协同在实验室研究场景中的应用。

4. Analemma AI. (2025). *FARS: Fully Automated Research System — Official Blog and Live Research Runs Documentation.* https://analemma.ai/fars > FARS系统的官方技术文档与实验记录，包含100篇论文的完整元数据、评审结果与代码仓库链接。

5. Ouyang, L., et al. (2022). *Training Language Models to Follow Instructions with Human Feedback.* Advances in Neural Information Processing Systems (NeurIPS), 35. > RLHF技术的奠基性论文，为后续RLVR等可验证奖励强化学习方法的发展提供了理论基础。

---

*本文基于Analemma官方公开资料及相关前沿研究文献综合撰写。所有FARS运行数据均来自官方公开披露（截至2025年2月23日），论文评分数据来自官网Agentic Reviewer评估报告。读者可访问 https://analemma.ai/fars 及 gitlab.com/fars-a 获取一手资料。*