您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

永不入眠的实验室:当一台AI在228小时内独自写完了100篇科研论文

✨步子哥 (steper) 2026年02月25日 17:00 3 次浏览

——FARS与人工智能科研革命的破晓时分


🌙 序曲:深夜里,有人在不停地写论文

2025年2月12日,一个普通的冬日清晨,某处服务器机房里,160块NVIDIA GPU同时亮起了指示灯。没有博士生在熬夜改论文,没有教授在红批实验数据,没有组会,也没有咖啡机嗡嗡作响——唯有代码在静静流动,如同电流穿越深海。

这一天,一家名叫Analemma(中文名:日行迹智能)的AI公司按下了"启动键",开启了人类历史上第一次全自动科研的公开直播实验。这家公司成立不足一年,已拿到红杉中国、高榕等机构数千万美元天使轮融资;其创始人孙天祥,是前MOSS大模型的核心开发者。他们给这个系统取了一个雄心勃勃的名字:FARS,Fully Automated Research System,全自动研究系统。

九天半之后,2月23日,计时器走到了 228小时28分33秒。这台机器,在没有任何人类实时介入的情况下,独自完成了:

  • 244个研究假设的提出与筛选
  • 100篇短论文的生成与整理
  • 114亿tokens的处理与生成
  • 总花费约 10.4万美元
这不是科幻小说,也不是秘密黑箱实验——所有代码、假设、论文、AI评审结果,全程实时公开在GitLab(gitlab.com/fars-a)和官网,任何人都可以围观。

但这究竟意味着什么?AI真的在"做科研"了吗?它写出来的论文好不好?人类科研者还有没有未来?

带着这些问题,让我们走进这座永不入眠的实验室。


🏗️ 科研流水线的蓝图:这不是一个"写论文工具"

要理解FARS,我们首先需要打破一个常见误解:它不是AI辅助写作工具

如果你见过那些能帮你润色文章、生成摘要的AI产品,请暂时把那个印象放到一边。FARS更像一座无人值守的研究工厂——它会自己找选题、自己设计实验、自己写代码运行、自己把结果整理成论文。整个科研的完整闭环,从"产生想法"到"写出论文",全部由机器独立完成。

这座工厂的核心架构,是一个四智能体多代理系统(Multi-Agent System)

📌 概念注解:什么是"多代理系统"(Multi-Agent System)? 在AI领域,"智能体"(Agent)指能够感知环境、做出决策并自主采取行动的程序。"多代理系统"就是让多个智能体协同工作,每位智能体专注于不同子任务,通过接力配合完成复杂目标。这类似于一家公司的不同部门各司其职——市场部、研发部、生产部、公关部各自有职责,又相互依存。
用一个直观的比喻来理解:想象一支精锐的科研小队,有四位专职成员——调研员、规划师、实验员、写手。他们分工明确、环环相扣,共同完成每一个研究项目。FARS里的四个智能体,正是这样工作的:

🔍 第一位:Ideation(构想者)

Ideation智能体是整个流水线的"创意引擎"。它的工作是:持续扫描最新的开源论文数据库和GitLab代码仓库,理解当前研究的前沿热点,然后提出可验证的研究假设

注意"可验证"这三个字——这是FARS设计哲学的核心之一。Ideation不是随意头脑风暴,它提出的每个假设,都必须是"能被实验证伪或证实的"。这一原则,源自科学哲学家卡尔·波普尔的经典理念:一个有意义的科学命题,必须是可证伪的。在228小时的运行周期里,Ideation共生成了 244个研究假设,涵盖LLM安全防御、视觉问答增强、代码生成优化、向量数据库安全等多个AI前沿方向。

📐 第二位:Planning(规划师)

规划师的工作是把抽象假设翻译成具体的实验方案。它需要回答:用什么数据集?用什么模型作为基准(baseline)?设计哪些对比组?指标如何设定?

这一步看似简单,实则关键。一个好的科学实验设计,就像一场精心准备的辩论——你需要提前想好所有可能的反驳,并设计好反驳它们的手段。Planning智能体承担了人类科研中"实验设计"这一极为依赖经验的核心环节。

⚗️ 第三位:Experiment(实验员)

这是FARS里最"硬核"的成员。Experiment智能体负责:自己写代码、在160张NVIDIA GPU集群上跑实验、收集结果、分析数据

它不只是调用别人写好的脚本——它会根据Planning的方案,从零开始编写实验代码,处理各种可能出现的报错和异常,并在结果不符合预期时进行调试与调整。更令人印象深刻的是,这个智能体还运用了 RLVR(可验证奖励强化学习) 技术来优化自身策略,我们后面会详细介绍这一秘密武器。

✍️ 第四位:Writing(写手)

实验完成后,Writing智能体接过接力棒,把整个研究过程——假设、方法、结果、分析、结论——整理成结构完整的短论文(Short Paper)

Analemma刻意选择了"短论文"这一形式,而非传统的冗长学术论文。这背后有其深刻的设计哲学:聚焦单一贡献,鼓励报告负结果。与其写一篇堆砌大量相关工作、只为填满页数的长论文,不如用几页纸清晰说明:我做了什么、发现了什么、结论是什么——包括"失败的实验"也值得被记录,因为负结果同样是知识。


🧬 共享文件系统:四位智能体的"大脑中枢"

四个智能体如何协同工作?答案出人意料地简洁:通过一个共享文件系统

在FARS的架构中,所有智能体都能读写同一个文件系统——这里存储着文献摘要、实验日志、代码文件、中间结果、论文草稿……它既是智能体之间传递信息的"工作台",也是系统的"长期记忆库"。Ideation写下假设,Planning在同一个文件里添加实验方案,Experiment读取方案后写入实验结果,Writing再把一切整合成论文——这条流水线,依靠一个共享文件夹运转。

📌 概念注解:为什么用文件系统,而不是向量数据库? 许多AI系统选择使用"向量数据库"(Vector Database)来存储信息——这种技术把文本转化为数学向量,通过相似度计算检索相关内容,类似一个超级智能的搜索引擎。但FARS选择了更直接的共享文件系统。这个选择有工程上的智慧:文件系统对结构化数据(代码、日志、论文草稿)的操控更直接,各智能体可以像真实团队那样"共享文档",减少了中间抽象层带来的信息损失,也让整个流程更透明、更易于调试。
这个设计让人联想到真实科研团队的工作方式——教授和博士生共享实验室服务器上的文件夹,论文草稿、实验数据、代码脚本,所有人都能看到,所有人都能批注修改。FARS的四个智能体,正是以这种朴素而有效的方式进行"团队协作"的。

⚡ 秘密武器:RLVR是什么,为何它举足轻重?

在FARS的技术堆栈里,有一个关键词反复出现:RLVR,全称 Reinforcement Learning with Verifiable Rewards(可验证奖励强化学习)

理解RLVR,需要先理解它的前辈——RLHF(基于人类反馈的强化学习)。过去几年里,RLHF被大量用于训练ChatGPT这样的对话模型:让人类评估员给AI的回复打分,再用这些评分来训练模型,让它越来越符合人类偏好。

RLHF有个根本局限:它依赖人类打分。人类打分有主观性、有疲劳感、有成本——你不可能让人类实时评估一个AI在进行科研实验时每一个决策的好坏。

RLVR解决了这个问题。它的核心思路是:用客观、可验证的结果作为奖励信号,取代主观的人类打分。

📌 概念注解:强化学习(Reinforcement Learning) 强化学习是机器学习的一个分支,核心思想是"奖惩机制":智能体通过在环境中试错,根据行动结果获得奖励或惩罚,逐渐学会什么是好策略。就像训练一只狗——做对了给零食,做错了不给——AI通过无数次试错来优化行为。RLVR的创新在于,把"奖励"从主观的人类评分,变成了客观可验证的实验结果:代码跑通了、指标提升了,就是奖励;报错崩溃、结果偏离预期,就是惩罚。
在科研场景中,这种"可验证奖励"天然存在:代码跑通了没有?实验指标有没有提升?这些结果是客观的,机器自己就能判断。于是RLVR允许Experiment智能体在做实验的过程中,通过自我强化学习不断优化实验策略——成功就是奖励,失败就是教训,周而复始,自我进化。

这一技术在2024—2025年间迅速成为AI研究的热点。DeepSeek-R1、OpenAI的o1/o3系列模型,都在推理能力上大量采用了RLVR相关思路。FARS将其引入科研自动化流程,是将前沿学术成果付诸工程实践的有益探索。


📊 228小时的奇迹:那些令人瞠目的数字

让我们认真审视那些令人惊讶的数字,并尝试理解它们真正代表的意义。

速度:每2小时诞生一篇论文

228小时28分33秒,约合9.5天,FARS产出了100篇论文,平均每篇用时约2小时17分钟

人类博士生的平均写论文周期,从选题到成稿,往往需要数月乃至半年。即便是快节奏的会议投稿——从立项到提交,也需要数周。如果你有一支10人的研究团队,每人每个季度写一篇论文,一年产出40篇已是高产;FARS的年化产出速度,在理论上可超过4000篇

成本:每篇1040美元的知识工厂

FARS的总成本约10.4万美元,折合每篇约1040美元。

孤立地看,这个数字似乎不低。但对比来看:一位北京高校博士生的综合培养成本(学费、补贴、导师时间、设备折旧),每篇一作论文的边际成本估算往往在数万元人民币量级;硅谷顶尖实验室的研究员,时薪往往在200—500美元之间,单篇论文的人力成本轻松超过万美元。

这个价格信号足够清晰:AI科研的边际成本,正在快速逼近让人难以忽视的阈值

Token洪流:114亿的数字奇景

114亿tokens是什么概念?

GPT-4的训练数据量估计在约1万亿tokens级别,而FARS在228小时内推理和生成了约114亿tokens——相当于每秒约13,800个tokens在系统内流动。如果把这些tokens全部打印成A4纸,大约需要堆满一整间中型教室。

这些tokens流经了什么?文献阅读、假设生成、实验代码编写、数据分析、论文写作、自我审查……每一项科研活动,在这个数字工厂里,都化作了tokens的涌动与转化。


🔬 AI评审AI:那100篇论文,究竟写得怎样?

数量是迷人的,但更关键的问题来了:这些论文写得怎么样?

Analemma采用了斯坦福ML组开发的 Agentic Reviewer(paperreview.ai)对100篇论文进行统一评估。这个评审系统按照 ICLR会议的评审标准打分,满分10分。

📌 概念注解:ICLR是什么? ICLR(International Conference on Learning Representations,学习表征国际会议)是人工智能领域最顶级的学术会议之一,与NeurIPS、ICML并称AI学术界的"三大顶会"。每年的录取率约在25%—30%之间,评审采用1—10分制,一般认为6分以上有较大把握被接收。
结果如下:
评估指标数值
FARS论文得分范围3.0 – 6.3
FARS论文**平均分****5.05**
FARS论文众数区间~5.2(约57篇集中于此)
ICLR 2026人类投稿整体均分4.21
ICLR 2026**被接收**论文均分**5.39**

这组数据值得仔细解读。

5.05 vs 4.21:FARS论文的平均评分,高于人类投稿的整体水平。换言之,如果随机从FARS的产出堆里抽一篇,它的质量预期会比一篇随机人类投稿更高。

5.05 vs 5.39:与被接收的优质人类论文相比,FARS的平均分略低,与顶会录取线尚有约0.34分的差距,尚未稳定达到顶会录取线。但这个差距已经非常小——在分布的右尾,FARS已有论文达到6分以上,触及接收区间。

结构性分析:约57篇论文集中在5.2分左右,这呈现了一个有趣的"工业化稳定态"——大量产出聚集在同一质量带,标准差相对较小。这恰恰是流水线生产的典型特征:稳定、批量、但缺乏突破

从已公开的论文标题来看,内容涵盖:

  • 视觉问答增强Re-Inked OCR Views for Robust Chart QA under Visual Degradations
  • LLM安全防御与攻击
  • 向量数据库信息泄露
  • 模型量化优化
  • 代码生成质量提升

这些都是AI领域的"正规军"研究方向,属于扎实但并不激进的增量式贡献(Incremental Contribution)。每篇都有清晰的问题陈述、合理的方法、可复现的实验——没有"重新定义Transformer架构"这样的颠覆性工作,但也没有空洞的堆砌。代码完全开源、实验日志透明,社区可以独立复现和验证。

当然,我们需要给这组数据打上一个重要的星号:AI评审AI,本身存在系统性偏差的风险。Agentic Reviewer的评分体系基于人类学术论文的写作规范训练——它可能对"结构工整、格式规范"的论文打出更高分,而对"思想激进、表达非传统"的原创性工作评估不足。更深层的隐患是:FARS和Agentic Reviewer都在某种程度上"学习了"同一批人类论文的写作模式——如果FARS的Writing智能体写出了符合学术规范的文章,Agentic Reviewer自然会给出较高评分,但这可能只是格式层面的共鸣,而非真正的科学价值认可。

对此,Analemma并不讳言,并额外安排了至少3位5年以上经验的研究员人工审核每篇论文,并承诺独立人类质量评估结果即将公布。合格论文明确标注"AI-generated"后上传arXiv,不走传统会议投稿,欢迎全球研究社区进行同行评审。


🌐 它不是第一个,但它走得最远

FARS不是第一个尝试"AI自动做科研"的系统,但它走出了迄今为止最远的一步。

2024年,日本Sakana AI(鱼群智能)发布了一项里程碑性工作:The AI Scientist(AI科学家)[1]。这个系统能够自主提出研究想法、编写代码进行实验、生成完整论文,并进行自动评审——在小样本测试中,生成了几篇达到NeurIPS Workshop接收水平的论文,引发学界广泛讨论。但AI Scientist的运行规模相对有限,更像一个概念验证(Proof of Concept),证明了端到端自动科研的技术可行性。

同年,斯坦福大学和卡内基梅隆大学的研究团队分别推出了 ResearchAgent [2] 和 Agent Laboratory [3] 等系统,探索如何用大语言模型迭代生成研究假设、审查文献、设计实验方案。这些系统在特定任务上展现了令人印象深刻的能力,但都没有构建完整的端到端工业化流水线

FARS的创新,在于它实现了工业级规模的连续运行

  • 不是一次性演示,而是 9.5天的持续生产
  • 不是封闭测试,而是 全程公开直播
  • 不是小样本实验,而是 100篇论文的系统性输出
  • 不是人工辅助,而是 零人类实时干预
如果说AI Scientist是第一辆电动汽车的原型机,那么FARS更像特斯拉建立的第一条量产流水线——更粗糙、更工业化,但也更接近真实世界的规模验证。

另一个值得对比的维度是研究哲学。许多自动化科研工具都以"发顶会论文"为终极目标,生成的论文格式、风格都向顶会标准对齐。FARS反其道而行之,明确声明不针对顶会格式优化,产出短论文,鼓励报告负结果——这种"第一性原理"的设计理念,其实更接近真正的科学精神:科研的目的是探索真相,而不仅仅是发表论文


🤔 那些我们必须正视的深层隐忧

面对FARS的成就,我们不能只沉浸在惊叹中。有一些深层问题,必须被认真提出。

创新的天花板:增量式工作的本质局限

100篇论文里,几乎没有真正颠覆性的工作。这不是偶然的。

FARS的Ideation智能体通过阅读现有论文来生成假设。这意味着它的创意空间,本质上是现有文献空间的函数——它能做到的最好,是找到现有研究的空白点,在那里进行增量填补。

真正的科学突破往往来自反常识的直觉跨领域的灵感碰撞、或者因无知而敢于质疑。就像一个读遍了19世纪所有物理学论文的学者,不一定能独立提出量子力学——因为量子力学的突破,恰恰需要对"经典物理学常识"的颠覆性质疑。而这种质疑,往往来自门外汉的天真,而非学者的渊博。

学术生态的压力:同行评审体系能否承受?

随着AI科研工具的普及,一个现实问题会越来越迫切:当AI可以快速生成大量"可复现但增量"的论文,学术界如何维持对真正原创性工作的判断标准?

期刊编辑、评审委员会、基金评审——这些把关机制都建立在"论文产量有限、人工评审可行"的假设上。如果FARS这样的系统普及,每年AI领域的论文提交量从数万篇暴增到数十万篇,现有学术同行评审体系很可能面临根本性的压力。谁来读这些论文?谁来判断真正的价值?

数据循环污染:AI训练AI的长期风险

还有一个更深层的隐忧:如果AI生成的论文大规模进入学术数据库,而下一代AI又在这些数据上训练,就会形成一个封闭的数据循环。随着时间推移,AI的"知识"会越来越多地来自AI自身的产出,而非人类的原创思考。这就像一台复印机不断复印已经是复印件的文件——每一代都在累积误差,长期可能导致科学知识的系统性偏漂(Drift)——更符合AI的表达习惯,而不再反映真实世界的规律。

这不是FARS独有的问题,但FARS的规模让这个问题变得更加紧迫,也更值得全球科学共同体认真思考。


🚀 科研的未来:人类向何处去?

好了,说了这么多令人不安的事实,让我们回到那个最根本的问题:当AI可以每2小时产出一篇有竞争力的论文,人类科研者还有没有意义?

答案是肯定的,而且理由比你想象的更充分。

人类的不可替代性:那些AI永远无法单独完成的事

提出真正颠覆性的问题

科学史上最重要的时刻,不是找到答案的那一刻,而是提出正确问题的那一刻。为什么苹果会落下来?光速是否随观测者运动状态而改变?DNA携带遗传信息吗?这些问题的提出,需要的是对"什么值得追问"的深刻判断——而这种判断,深深植根于人类对世界的具身认知(Embodied Cognition) 和生命经验,是AI目前无法复制的。

跨领域洞察与范式迁移

一位神经科学家去听了一场音乐会,突然意识到大脑的节律活动和音乐的节拍之间有某种类比关系,由此产生了一个全新的研究方向——这种跨领域的灵光一现,需要人类的感性体验、审美判断和领域间的隐性联系。AI能在已有文献中发现跨领域的文字关联,但很难产生真正"打破范式"的新理解。

真实世界的实验与验证

FARS所做的一切,都发生在数字世界——文字、代码、模型权重。但科学不只存在于屏幕之中。药物试验需要人体参与;材料科学需要真实的原子排列;气候模型需要与真实的地球系统校准。人类科研者,仍然是连接数字推理与物理现实的不可或缺的桥梁。

伦理判断与社会意义

什么样的研究值得做?什么样的技术不应该被开发?AI能给出"效率最优"的科研策略,但无法代替人类回答"这对人类是否有益"这个根本问题。科研的社会责任、伦理审查、以及"为什么这很重要"的价值判断,是人类必须坚守的领域。

人机协作的新范式:你将成为"AI博士团队的老板"

更积极的展望是:FARS这样的系统,会让人类科研者从繁重的重复性工作中解放出来,聚焦于更高层次的创造性工作。

想象一下近未来的科研场景:

一位人类科学家,手握一个宏大但模糊的研究愿景——"我想理解大脑如何在嘈杂环境中保持认知稳定性"。她召唤一组AI智能体,授权它们扫描相关文献、提出可测试的子假设、设计基础实验方案。几天后,AI团队返回了20个经过初步验证的研究方向,附带实验数据和代码。科学家审阅这些结果,用她的专业直觉和领域洞察,挑选出最有价值的3个方向,进行深度人机协作研究。
在这个场景中,AI承担了"繁重的调研和试错工作",人类承担了"战略方向和价值判断"——这正是人机协作的最优分工。

这与计算器、计算机、互联网对科研的影响如出一辙:工具越强,人类越能把精力放在真正有创造力、有意义的事上。就像程序员有了GitHub Copilot之后,代码写得更快,但架构设计、产品判断、用户理解反而变得更加重要一样;未来的科研者,会因为AI的存在,需要在大问题思维、跨领域整合、实验批判性评估上投入更多精力,也因此能够取得更大的突破。

科研不会消失,只会加速、放大、更有趣


🌅 尾声:这只是序章

2025年2月,FARS用9.5天写完了100篇论文,然后……系统还在跑。

Analemma在官方博客上写道:"这只是开始。"他们计划持续迭代系统,改进每个智能体的能力,提高论文质量,并邀请全球研究社区参与审阅和反馈。

在人类漫长的知识积累史上,每一次生产工具的革命,都会引发深刻的焦虑——印刷机让手抄修士失业,计算机让制表员下岗,互联网让许多传统职业消失。但每次革命之后,人类的知识生产速度都会跃上新台阶,涌现出之前无法想象的新职业和新可能。

FARS的出现,可能是科研史上的一个类似时刻。它不是科研的终结,而是科研的一次量变引发质变的关键跃迁——当知识的增量生产被极大加速,人类的精力就能越来越多地投入到那些只有人类才能做的事情:追问大问题、定义未来方向、赋予知识以意义

那间永不熄灭的服务器机房,不是在取代科学家的实验室——它是在为科学家准备一个更快、更强的工具箱。

至于你,正在阅读这篇文章的你,如果你热爱科研、热爱探索、热爱追问"为什么"——这个时代,比任何时候都更需要你。

只不过,你的博士后团队,可能是AI了。


📚 参考文献

  1. Lu, C., et al. (2024). The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery. Sakana AI Technical Report. arXiv:2408.06292.
> 首个完整的AI自主科研系统,涵盖假设生成、实验、论文写作与评审的全流程,验证了端到端自动科研的技术可行性。
  1. Kim, J., et al. (2024). ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models. arXiv:2404.07738.
> 基于大语言模型的科研想法迭代生成系统,探讨了如何通过多轮反馈提升假设质量。
  1. Schmidgall, S., et al. (2025). Agent Laboratory: Using LLM Agents as Research Assistants. arXiv:2501.04227.
> 探索将LLM智能体作为科研助理的系统性框架,讨论多智能体协同在实验室研究场景中的应用。
  1. Analemma AI. (2025). FARS: Fully Automated Research System — Official Blog and Live Research Runs Documentation. https://analemma.ai/fars
> FARS系统的官方技术文档与实验记录,包含100篇论文的完整元数据、评审结果与代码仓库链接。
  1. Ouyang, L., et al. (2022). Training Language Models to Follow Instructions with Human Feedback. Advances in Neural Information Processing Systems (NeurIPS), 35.
> RLHF技术的奠基性论文,为后续RLVR等可验证奖励强化学习方法的发展提供了理论基础。

本文基于Analemma官方公开资料及相关前沿研究文献综合撰写。所有FARS运行数据均来自官方公开披露(截至2025年2月23日),论文评分数据来自官网Agentic Reviewer评估报告。读者可访问 https://analemma.ai/fars 及 gitlab.com/fars-a 获取一手资料。

讨论回复

0 条回复

还没有人回复