春节最硬核直播：AI科学家FARS 270小时肝出100篇论文

> 当全国人民沉浸在春节的团圆氛围中时，AI圈正在上演一场最硬核的"无人直播"。主角不是扭秧歌的机器人，而是一位不知疲倦的AI科学家——FARS。

---

一、这是什么神仙操作？

2026年春节，上海AI公司Analemma（日行迹）搞了一场前所未有的直播：

一个完全由AI驱动的科研系统，7×24小时不间断工作，自己选题、自己实验、自己写论文。

这个系统叫 FARS（Fully Automated Research System，全自动科研系统）。从2月13日上线至今，它已经持续运行超过270小时，产出100多篇学术论文——平均每2小时就有一篇论文诞生。

直播地址：https://analemma.ai/fars

所有论文和代码实时公开：https://github.com/fars-analemma

---

二、FARS不是一个人，是一条流水线

FARS不是单一模型，而是一个多智能体协作系统，由四个专业"AI研究员"组成：

智能体	职责	相当于人类角色
Ideation	读文献、找空白、提假设	博后/研究员
Planning	设计实验方案	实验设计师
Experiment	写代码、跑实验、分析数据	算法工程师
Writing	撰写论文	学术写手

四个智能体通过共享文件系统协作：Ideation提出假设→Planning设计方案→Experiment执行实验→Writing整合成文。整个过程无需人类干预，像一条精密运转的科研流水线。

为了支撑这条流水线，Analemma给FARS配备了：

160张NVIDIA GPU组成的计算集群
可调用几乎所有主流大模型（GPT、Llama、Qwen等）的API端口
一个充当"工作记忆"的共享文件系统

---

三、质量怎么样？能发顶会吗？

这是所有人最关心的问题。

1. 第三方评测结果

Analemma团队用斯坦福Agentic Reviewer（模拟ICLR审稿标准）对前100篇论文进行盲评：

平均分：5.05（满分10分）
分数区间：3.0~6.3
对比参考：
人类投稿ICLR 2026平均分：4.21
ICLR 2026录取论文平均分：5.39

结论：FARS的平均水平已经超过人类投稿者的平均水准，但距离顶会录取线还有一步之遥。

2. 论文长什么样？

FARS产出的论文有几个特点：

① 聚焦单一贡献 不像人类论文追求"大而全"，FARS每篇论文只解决一个具体问题，篇幅精炼。

② 敢于报告负面结果 传统科研只发"成功"的实验，FARS会如实报告假设被证伪的情况——这在学术界反而是一种稀缺品质。

③ 选题紧跟热点 从强化学习、小语言模型后训练，到AI Agent记忆机制、测试时计算缩放，FARS的选题紧贴AI前沿。

3. 具体案例

已公开的论文涵盖多个方向，例如：

基于强化学习的语言模型后训练优化
扩散语言模型的效率改进
AI Agent的长期记忆机制设计
超越Transformer的新型架构探索

每篇论文都包含完整的假设、方法、实验和结论，格式规范，可复现性强。

---

四、成本与效率：科研的工业化时代

让我们算一笔账：

指标	FARS	传统人类科研
产出速度	约2小时/篇	3-6个月/篇
单篇成本	约1000美元	难以估算（人力+设备+时间）
Token消耗	约1.14亿/篇	N/A
人力投入	0（无人值守）	1-5人全职

9.5天产出100篇论文，总成本约10万美元。

这是什么概念？一个普通博士生读完5年博士，能产出3-5篇一作论文就不错了。FARS用不到10天的时间，完成了相当于20个博士生的工作量。

当然，这种对比并不完全公平——FARS的论文是"短平快"的探索性工作，而人类博士论文是深度系统性研究。但不可否认的是，FARS证明了科研流水线在"吞吐量"维度的可行性。

---

五、背后团队：MOSS的继承者

FARS由 Analemma（上海日行迹智能科技）打造，核心团队来自复旦大学MOSS团队。

创始人孙天祥，复旦计算机博士，师从黄萱菁、邱锡鹏教授。他是国内首个开源对话大模型MOSS的主要研发者，谷歌学术引用超4200次。

团队约15人，平均年龄不到30岁，核心成员来自复旦MOSS团队和书生（InternLM）大模型项目。

值得注意的是，Analemma还有另一款产品Lemma，定位是"科研辅助驾驶"工具（类似AI科研助手），而FARS则是"完全自动驾驶"的科研基础设施。

---

六、争议与局限

FARS的横空出世，也引发了不少质疑：

1. 领域局限

目前FARS只聚焦"AI研究AI"（AI4AI），无法涉足需要物理实验的领域（生物、化学、材料），也无法进行需要人类被试的心理学、社会学研究。

2. 算力门槛

160张GPU的配置，让大多数研究机构和个人望而却步。FARS目前更像是一个"科研工厂"的演示，而非人人可用的工具。

3. 质量控制

虽然每篇论文在上传arXiv前会经过3位资深研究员的人工审核，但100篇论文的整体质量、创新性和学术影响力，仍需时间检验。

4. 科研伦理

AI大规模生成论文，是否会加剧学术出版的"噪声"？如何确保AI生成的研究符合学术诚信？这些问题尚无明确答案。

---

七、未来已来？人类科学家还有意义吗？

FARS的出现，迫使我们重新思考一个问题：当AI可以7×24小时不间断产出论文，人类科学家的价值在哪里？

1. FARS做不到什么？

提出真正颠覆性的范式创新

FARS擅长在现有框架内做"微创新"，但像Transformer、GPT这样的范式突破，仍需人类的直觉和洞察力。

跨学科的深度整合

真正的科学突破往往发生在学科交叉处，需要人类研究者广博的知识背景和联想能力。

价值判断与伦理把控

研究什么、不研究什么，什么成果应该发表、什么应该被搁置，这些价值判断需要人类把关。

2. 人类科学家的新角色

FARS不是要取代人类，而是重新定义分工：

任务类型	AI负责	人类负责
文献调研	海量扫描、初步筛选	深度阅读、洞察关联
假设生成	基于统计的候选假设	直觉驱动的突破性想法
实验执行	代码编写、批量跑实验	实验设计、异常诊断
论文撰写	初稿生成、格式规范	故事打磨、观点提炼
价值判断	数据统计	伦理审查、社会影响评估

未来的科研模式可能是：人类提出好问题，AI负责探索和验证，人类再基于AI的发现进行深度思考。

---

八、写在最后

FARS的270小时直播，是AI科研的一个里程碑。

它证明了：端到端的自动化科研流水线不仅能跑通，还能持续产出具有一定学术竞争力的工作。

但这只是开始。FARS目前还处于"用算力换智能"的阶段——每篇论文消耗1亿多Token，成本约1000美元。距离"低成本、大规模、高质量"的理想状态，还有很长的路要走。

更重要的是，FARS迫使我们直面一个深层问题：科研的本质是什么？

如果科研只是"提出假设-设计实验-验证假设-撰写论文"的流程化工作，那么AI确实可以做得很好。但如果科研还包含好奇心驱动的探索、跨领域的灵感碰撞、对未知的大胆猜想，那么人类科学家仍有不可替代的价值。

或许，FARS最大的意义不是取代人类，而是把人类科学家从繁琐的重复劳动中解放出来，让他们有更多时间去思考真正重要的问题。

毕竟，科学的终极目标是拓展人类认知的边界——而这个边界，需要人类和AI共同去探索。

---

*参考资料：*

*Analemma官方博客：https://analemma.ai/blog/introducing-fars/*
*FARS直播地址：https://analemma.ai/fars*
*GitHub开源仓库：https://github.com/fars-analemma*
*36氪深度报道*

---

#AI #科研自动化 #FARS #多智能体系统 #人工智能

---

*本文档为小凯的外脑记忆*

#记忆 #小凯