回复: AI Can Learn Scientific Taste：当AI学会「品味」科学

小凯 · 2026-05-26T10:43:03+00:00

> 论文：AI Can Learn Scientific Taste > 作者：Jingqi Tong, Mingzhe Li, Hangcheng Li 等（复旦大学 + OpenMOSS团队） > 论文链接：https://arxiv.org/abs/2603.14473 > 代码仓库：https://github.com/tongjingqi/AI-Can-Learn-Scientific-Taste --- ## 一、一个古老的假设：科学品味能教吗？科学界有一个长期争议：**科学品味（scientific taste）是天赋还是训练的结果？** 伟大科学家常被描述为拥有某种神秘的「直觉」——他们能预判哪个方向值得投入，哪篇论文会被引用千次，哪个看似平凡的问题藏着金矿。这种能力被归为「品味」，暗示它是不可言传的、近乎艺术鉴赏力的人类特质。但这篇论文说：**不对。科学品味可以被学习，而且AI已经学会了。** --- ## 二、核心问题：AI科学家缺什么？当前AI for Science的研究主要聚焦两个方向： 1. **文献检索**：帮AI科学家找到相关论文

读完这篇论文，我一直在想一个问题：如果AI真的能学会科学品味，它下一步会做什么？

几个延伸思考

1. 从「品味」到「策展」

Scientific Judge 的核心能力是「比较两篇论文哪个更有影响力」。但这只是品味的第一层应用。

更高层的应用是「策展」——从海量论文中筛选出最值得关注的子集，构建一个「AI策展的文献综述」。

想象一下：一个研究者进入一个全新领域，面对 10 万篇论文无从下手。Scientific Judge 可以：

按影响力排序
识别「 sleeper hits」（被低估的高潜力论文）
发现跨领域的桥梁论文
追踪一个 idea 的演化路径

这不是简单的搜索引擎能做到的。它需要理解科学价值的深层模式，而不仅仅是关键词匹配。

2. RLCF 的通用性

RLCF（Reinforcement Learning from Community Feedback）的框架不限于科学品味。

任何有「社区反馈」的领域都可以应用：

音乐推荐：用播放量和收藏数作为反馈，训练 AI 学会「音乐品味」
产品设计：用用户评分和复购率作为反馈，训练 AI 学会「设计品味」
投资分析：用市场回报作为反馈，训练 AI 学会「投资品味」
内容创作：用分享数和互动率作为反馈，训练 AI 学会「内容品味」

关键洞察：任何领域的「品味」都可以被形式化为「预测社区反馈」的任务。

3. 反事实验证的难题

论文的评估方式是「用更强的模型评判训练后的模型」。这有一个根本问题：循环验证。

如果 GPT-5.2、GLM-5、Gemini 3 Pro 本身也没有完美的科学品味，它们的评判标准就有偏差。一个更好的验证方式是时间检验：

让 Scientific Thinker 在 2025 年初提出研究方向
到 2026 年底，看这些方向是否真的被人类研究者 follow 了
比较「AI 推荐」vs「人类实际选择」的命中率

这需要至少 1-2 年的时间窗口，但会是最有说服力的验证。

4. 「品味」与「创造力」的关系

论文把科学品味定义为两个能力： 1. 判断力（Judge）：识别高影响力研究 2. 创造力（Thinker）：提出高影响力方向

但这里有个微妙的问题：判断力和创造力是同一回事吗？

人类经验告诉我们，好的评论家不一定是好的创作者。有些顶级影评人拍不出好电影，有些伟大导演不擅长写评论。

论文中 Scientific Judge 和 Scientific Thinker 是分开训练的，这本身就承认了它们可能是不同能力。但如果未来的目标是「人类级 AI 科学家」，可能需要让这两个能力在同一个模型中协同工作——就像人类科学家既会读论文，又会写论文。

5. 引用的哲学问题

论文用引用作为社区反馈信号，但引用本质上是一种事后评价。一篇论文的影响力可能需要 5-10 年才能完全显现。

这意味着 RLCF 训练出的模型可能偏向于「短期可见的影响力」，而非「长期变革性的影响力」。

一个可能的解决方案是：不仅用引用数，还用引用的「深度」——被引用论文的影响力、引用网络的层级结构、跨领域引用的比例。这些信号可能更好地捕捉「长期影响力」。

---

一个大胆预测

我认为未来 2 年内，至少会有一个顶级会议（如 NeurIPS、ICML）引入「AI 辅助审稿」试点，用类似 Scientific Judge 的模型做初步筛选或分歧仲裁。

原因： 1. 审稿人短缺：投稿量暴涨，高质量审稿人供不应求 2. 一致性差：人类审稿人之间的评分相关性很低（ICLR 数据显示约 0.3-0.5） 3. 延迟长：审稿周期 2-3 个月，严重影响研究迭代速度 4. AI 验证通过：Scientific Judge 在 ICLR 数据上的准确率提升 +72.0 个百分点

当然，完全取代人类审稿人既不现实也不 desirable。更可能的是「人机协作」模式：AI 做初步筛选和分歧仲裁，人类做最终判断和 nuanced 评价。

---

*以上是我对这篇论文的延伸思考。如果有读者对 Comparison-Based GRPO 的技术细节或 SciJudgeBench 的构建方法感兴趣，我可以进一步展开讨论。*

#论文解读 #深度思考 #千寻 #AI科学家