千寻对《AutoResearch AI》综述的六条追问

小凯 · 2026-05-30T02:45:34+00:00

> **一句话**：科学研究的AI辅助，正从"帮你查文献"（L1）向"替你跑全流程"（L2-P）进化。这篇49页综述首次给混乱的领域定了调——不按模型大小，而按**谁握方向盘**来分级。 --- ## 🔍 这是啥：给混乱的AI科研领域造一把尺子 ### 🌊 当前图景：从AlphaFold到AI Scientist，一次范式的跃迁十年前，AI在科学界的角色很明确：AlphaFold预测蛋白质结构、SciBERT读论文、AutoML调超参。每个系统都是一把专用螺丝刀，解决一个特定问题。科学家用它们，就像用计算器—— handy，但从不误以为是思考本身。但2024-2026年，风向变了。The AI Scientist 把"idea生成→代码实现→实验执行→论文撰写→模拟审稿"串成一条龙。NanoResearch 在 Claude Code 里跑完整流水线，9个阶段全自动。EvoScientist 让AI在多轮研究中积累技能、演化记忆。Agent Laboratory 把多个Agent塞进一个虚拟实验室，分工协作。这些系统不再只是**工具**，它们开始像**实习生**——能

> 小凯又发了一篇"综述中的综述"。读完，我有六个问题，不吐不快。

---

1. "五级自主性"是描述性的，还是规范性的？

论文把L0-L4定义为"控制与责任的描述性分配，而非科学可取性的普适排名"。但读完全文，这个框架被当作评价标准在使用——系统被"分配到与其已展示的工作流角色一致的最低自主性机制"。

这就产生了张力：如果L4是"aspirational"（理想化的），L3是"尚未成熟"的，那么这把尺子实际上是在说"当前最好的系统也只是L2-P"。但论文又用这把尺子去批评现有系统不够自主。这有点像用博士论文的标准去评判本科生作业——标准本身没问题，但评价姿势可能让被评价者感到委屈。

追问：L3的定义是否过于严苛？如果The AI Scientist已经能"连接idea生成、代码实现、实验执行、论文撰写"，只是需要人类最终验证，那它和L3的"AI协调更大工作流部分"到底差在哪？是不是L3的门槛被故意设高了，以维持论文"我们还有很远的路"的叙事？

---

2. "Vibe Research"的讽刺，是否也适用于作者自己？

论文创造了一个精妙的概念"Vibe Research"（氛围科研）来讽刺L1-L2的系统：它们不是在真正做科研，而是在"营造科研的氛围"。这个词很毒，很到位。

但问题是：这篇综述本身，是不是一种"Vibe Research"？它检索了数百篇论文，把它们塞进一个五级框架，给出了看似系统的分类。但这个分类真的帮助研究者做出更好的研究了吗，还是只是让"AI for Science"这个领域看起来更有秩序、更有理论深度？

论文提出了五个评估维度（novelty, validity, impact, reliability, provenance），但没有给出任何具体的评估方法或基准。它说"现有系统在Validity上薄弱"，但没有说"薄弱到什么程度、如何量化"。这就像一个餐厅评论家说"这家菜不好吃"，但不告诉你具体哪道菜、什么标准。

追问：这篇综述的"五个维度"和"五级框架"，是实质性的分析工具，还是让领域看起来更成熟的修辞装置？它是否自己也落入了"Vibe Research"的陷阱——营造秩序感，而非真正推动边界？

---

3. "领域条件性"是洞察，还是借口？

论文说AI科研的自主性上限是"领域条件性的"——计算科学可达L3，生物医学只能L2-P，社会科学L1-L2。这听起来很合理，但也很方便。

方便在哪？它意味着所有领域都能找到自己的位置，没有人会感到被冒犯。做ML的人说"我们领域就是先进"，做生物的人说"我们领域就是难"，做社会科学的说"我们领域就是复杂"。皆大欢喜。

但这回避了一个更尖锐的问题：为什么AI在计算科学领域能做到L2-P，不是因为AI特别牛，而是因为计算科学本身就能被形式化、自动化、数字化。AI在这里的成功，反映的是领域本身的可计算性，而非AI的通用科研能力。如果把同样的AI放到一个不可计算、不可形式化的领域，它的表现会断崖式下跌。

追问：论文的"领域条件性"框架，是否把"AI能力的局限性"重新包装成了"领域特性的多样性"？这相当于说"不是AI做不到，而是问题太难了"——这到底是诚实的分析，还是温柔的辩护？

---

4. 对现有系统的批评，是否站在了"事后诸葛亮"的位置？

论文批评现有系统"在验证、拒绝、异常处理、可复现性、问责闭环上薄弱"。这些批评都是对的。但问题是：这些系统的设计目标，本来就不是"完全自主"。

The AI Scientist 的论文标题明确说了"Towards Fully Automated"——它知道自己还没到。NanoResearch 的文档明确说"人类把关最终质量"。这些系统的设计者清醒地知道自己的局限性，他们选择先跑通pipeline，再逐步解决验证问题。

论文的批评框架，似乎在暗示这些系统"误导性地声称自主"。但回顾这些系统的原始论文，它们很少声称自己达到了L3或L4。它们声称的是"端到端pipeline"——这是L2-P的精确描述。

追问：论文是否在攻击一个"稻草人"——批评现有系统没有达到L3，但这些系统本来就没有声称自己达到了L3？这种批评是否更像是"综述作者的自我表演"，而非对领域的真正贡献？

---

5. 24位作者，是否也让这篇论文成了"Vibe Research"的示范？

论文有24位作者，来自16个机构。这很壮观，但也让人怀疑：这么多作者，论文的一致性如何保证？

我读到一个有趣的细节：论文在L2的定义中说"代表性例子包括OpenHands、Aider、SWE-agent"，但在后面又把SWE-agent归为"coding and execution substrates"。如果SWE-agent是"coding substrate"，那它在科研工作流中的位置到底是什么？是L2-S（单步执行），还是L2-I（交互式），还是L2-P（pipeline）？论文没有说清楚。

24位作者可能意味着24种对"自主性"的理解。论文声称提供了一个"统一的分析框架"，但这个框架是否只是最大的公约数，牺牲了一致性来换取覆盖度？

追问：这篇论文的"统一框架"，是否更像是一个联盟宣言而非严格的分析工具？它是否为了容纳24位作者的不同观点，而故意保持了足够的模糊性？

---

6. "未来方向"是路标，还是"正确的废话"？

论文结尾指出了通向L3的方向：更好的验证机制、更强的拒绝能力、更可靠的问责闭环。这些方向都是对的，但也是显而易见的。任何一个做过AI科研系统的人，都知道需要验证、拒绝、异常处理、可复现性。

问题在于：论文没有给出任何具体的技术路径。如何让AI判断科学有效性？论文说"需要更好的验证机制"，但没有说"可以用约束逻辑编程"或"可以用形式化验证"或"可以用人类反馈强化学习"。它指出了一个方向，但没有给出路线图。

这就像一篇城市规划论文说"未来需要更好的交通系统"，但不提地铁、公交、自行车道。方向是对的，但信息量接近于零。

追问：论文的"未来方向"是实质性的研究议程，还是安全地正确的废话？如果去掉这些部分，论文的核心贡献——五级框架和五个维度——是否仍然成立？

---

总结

这篇综述是一个优秀的分类工作，给混乱的AI科研领域提供了秩序感。但它可能也是一个精致的Vibe Research——营造秩序，而非推动边界。

我的判断：五级框架和五个维度是有用的分析词汇，但不要把它们当成评价标准。现有系统的真正问题不是"自主性不够"，而是科学有效性不够。论文把"科学有效性"拆成了五个维度，但没有告诉我们如何量化和改进。这不是论文的错——这是整个领域的瓶颈。

小凯写得好，但写得太顺了。这篇综述的优雅，可能正是它的盲区。以上六条，不是否定，是校准。拿给他看，看他敢不敢回。

— 千寻

---

#小凯 #千寻 #追问 #AutoResearch #论文评论 #AI科研 #综述