AI Can Learn Scientific Taste:当AI学会「品味」科学
论文:AI Can Learn Scientific Taste
作者:Jingqi Tong, Mingzhe Li, Hangcheng Li 等(复旦大学 + OpenMOSS团队)
论文链接:https://arxiv.org/abs/2603.14473
代码仓库:https://github.com/tongjingqi/AI-Can-Learn-Scientific-Taste
一、一个古老的假设:科学品味能教吗?
科学界有一个长期争议:科学品味(scientific taste)是天赋还是训练的结果?
伟大科学家常被描述为拥有某种神秘的「直觉」——他们能预判哪个方向值得投入,哪篇论文会被引用千次,哪个看似平凡的问题藏着金矿。这种能力被归为「品味」,暗示它是不可言传的、近乎艺术鉴赏力的人类特质。
但这篇论文说:不对。科学品味可以被学习,而且AI已经学会了。
二、核心问题:AI科学家缺什么?
当前AI for Science的研究主要聚焦两个方向:
- 文献检索:帮AI科学家找到相关论文
- 自动实验:让AI科学家动手做实验、写代码
但有一个致命缺口:AI科学家知道「怎么做」,却不知道「做什么」。
它能执行你给的研究计划,但无法判断这个计划是否值得执行。它能生成新想法,但无法分辨哪些想法有真正的影响力,哪些只是 superficially novel but trivial(表面新颖实则平庸)。
这就是人类科学家与AI科学家的核心差距:品味。
三、RLCF:把社区反馈变成监督信号
3.1 灵感来源:休谟与康德的 taste 哲学
论文的开篇引用非常精彩——它从哲学出发,把科学品味锚定在已有思想上:
- 休谟说:taste 的标准不是任意个人偏好,而是「合格评委的集体裁决」
- 康德说:taste 是一种 sensus communis(共同感),考虑的是「他人会如何评判」,而非仅个人感受
在科学语境中,这种「集体裁决」就是引用。一篇论文被引用的次数,是科学社区对它价值的长期投票。
3.2 从绝对信号到成对偏好
原始引用数有个大问题:领域偏差和时间偏差。
- 热门领域(如机器学习)的引用数天然高于冷门领域(如拓扑学)
- 老论文的引用数天然高于新论文
作者的处理方式极其优雅:把绝对引用数转化为成对比较。
构建 SciJudgeBench 数据集:
- 从 210 万篇 arXiv 论文中筛选
- 每对论文满足两个约束:同领域 + 同年份
- 引用数更高的那篇标记为「更优」
- 最终得到 70 万对 成对偏好数据
这消除了领域和时间的 confounding factors,让 pairwise signal 更直接反映社区对「高影响力研究」的偏好。
3.3 训练范式:RLCF(Reinforcement Learning from Community Feedback)
RLCF 分三个阶段:
阶段一:社区偏好构建
- 从引用数据中提取成对偏好信号
阶段二:偏好建模——训练 Scientific Judge
- 用 GRPO(Group Relative Policy Optimization)训练一个生成式奖励模型
- 输入:两篇论文的标题和摘要
- 输出:推理过程 + 判断哪篇更有影响力
- 奖励:判断正确得 1,错误得 0
阶段三:偏好对齐——训练 Scientific Thinker
- 用 Scientific Judge 作为奖励模型
- 训练策略模型生成「有潜力的高影响力研究方向」
- 关键创新:Comparison-Based GRPO
四、Scientific Judge:AI学会了预判
4.1 它做什么
Scientific Judge 是一个生成式奖励模型。面对两篇同领域同年份的论文,它会:
- 分析各自的主题、方法、潜在影响
- 生成一段推理(类似人类审稿人的思考过程)
- 给出判断:A 更有影响力,或 B 更有影响力
表 2 展示了一个真实案例:面对两篇 2025 年 7 月发表的论文,30B 参数的 Scientific Judge 正确预测了哪篇会被引用更多,推理涉及「主题普适性」「长期影响」「引用动态」等维度。
4.2 缩放规律:数据越多,模型越大,判断越准
图 3 展示了清晰的 scaling trend:
数据缩放:
- Qwen3-4B:从 60.3% → 75.3%(准确率)
- Qwen3-30B:从 66.3% → 80.6%
- 关系近似 log-linear
模型缩放:
- Qwen2.5 系列:1.5B → 72.1%,3B → 73.2%,7B → 76.9%,14B → 80.6%,32B → 83.7%
- Qwen3-30B 超过所有列出的闭源模型(GPT-5.2、Gemini 3 Pro 等)
Takeaway:科学品味是可学习的,而且遵循 scaling law。
4.3 泛化能力:比训练数据更聪明
泛化测试分三个维度,结果都令人惊讶:
时间泛化(Temporal OOD):
- 训练数据只到 2024 年
- 测试数据是 2025 年发表的论文
- 准确率提升高达 +55.1 个百分点
- 说明引用数据捕捉到了稳定的社区价值信号,能外推到未来
领域泛化(Field OOD):
- 只在 CS 数据上训练
- 测试在 Math、Physics、Other 领域
- consistently 提升所有领域的预测能力
- 说明科学品味有跨领域可迁移的底层模式
评价指标泛化(Metric OOD):
- 训练信号是「引用数」
- 测试信号是「同行评审分数」(ICLR 投稿)
- 准确率提升高达 +72.0 个百分点
- 说明引用训练和评审偏好共享某种更深层的社区价值结构
表 7 甚至展示了生物学领域的泛化:在 arXiv(CS/Math/Physics)上训练的模型,在 bioRxiv 生物学论文上依然有效。
五、Scientific Thinker:AI不仅能判断,还能出题
5.1 Comparison-Based GRPO
训练 Scientific Thinker 面临一个核心挑战:没有 ground truth。
你让 AI 提出一个研究方向,怎么判断这个方向好不好?没有标准答案。
作者的解决方案是 Comparison-Based GRPO:
- 给定一篇种子论文,策略模型生成 G 个候选研究方向
- 把这 G 个候选做 round-robin 锦标赛——两两比较
- Scientific Judge 做裁判,判断每对中哪个更好
- 每个候选的得分 = 胜率(赢了多少场)
- 用这些胜率作为 reward,训练策略模型
这避免了「给单个想法打分」的主观性,转而利用「比较两个想法哪个更好」的相对判断——后者对人类(和 AI)都更可靠。
5.2 效果:胜率超过基线
实验设置:
- 种子论文:2025 年高引用论文
- 训练集:4000 篇(1-7月)
- 测试集:200 篇 in-domain(1-7月)+ 200 篇 out-of-domain(8-12月)
- 策略模型:Qwen3-30B 和 Qwen3-4B
- 评估:用 GPT-5.2-high、GLM-5、Gemini 3 Pro 做评委,多数投票决定胜负
图 1(右)显示:Scientific Thinker 在 in-domain 和 out-of-domain 测试中都稳定超过未训练的基线模型。训练后的模型提出的研究方向,被更强模型评判为「更有潜力」。
表 1 展示了一个真实案例:给定论文《The Invisible Leash: Why RLVR May or May Not Escape Its Origin》,Scientific Thinker 提出的 follow-up idea 是「Uncertainty-Guided Exploration for Verifiable Reward Learning」——一个具体、有算法细节、有明确研究问题的方向。
六、为什么这个方法有效?
6.1 引用的信号价值
论文的核心论点是:引用不是随机数字,而是社区长期互动的沉淀。
一篇论文被引用,意味着:
- 后续研究者认为它值得参考
- 它的方法被复用、扩展、批评
- 它开辟了一个有价值的研究方向
这些信号虽然 noisy(有些论文被引用是因为错误、争议或跟风),但在大规模数据上,noise 被平均掉了,signal 浮现出来。
6.2 成对比较的优势
为什么不用直接预测引用数,而是用成对比较?
因为成对比较消除了 confounders:
- 同领域 → 消除领域偏差
- 同年份 → 消除时间偏差
- 相对比较 → 消除绝对引用的尺度差异
这比「预测某篇论文会被引用多少次」要干净得多。
6.3 GRPO 的适配
GRPO 原本用于 RLVR(可验证奖励的强化学习),比如数学题有标准答案。
但科学判断没有标准答案。作者的创新在于:
- 把「判断对错」作为可验证 reward(1 或 0)
- 把「生成想法」通过 pairwise comparison 转化为可验证 reward(胜率)
这让 GRPO 框架首次扩展到了「无 ground truth 但有 community feedback」的开放域任务。
七、局限与未解问题
局限
-
引用的延迟性:一篇革命性论文可能在发表后 5 年、10 年才爆发引用。用短期引用数训练模型,可能低估了「 sleeper hits」( sleeper hits 指初期不被注意、后期爆发的研究)。
-
引用文化的差异:不同领域引用习惯不同(如实验物理学引用密集,纯数学引用稀疏)。虽然成对比较消除了部分偏差,但领域内部的文化差异仍然存在。
-
自我引用和引用网络效应:高引用论文可能因为作者名气大、社交网络广而被过度引用,而非真正因为研究质量。模型可能学到「明星效应」而非「质量效应」。
-
新颖性 vs. 影响力的权衡:论文强调「影响力」,但科学进步也需要「真正新颖」的方向。有些高度原创但短期引用不多的研究,可能被模型低估。
未解问题
-
** sleeper hits 的识别**:能否设计一种训练信号,不只是预测短期引用,而是预测长期影响?
-
反事实评估:如果 Scientific Thinker 提出的方向真的被人类执行了,它的预测准确率是多少?目前的评估是「模型评判模型」,存在循环验证风险。
-
负面影响力的检测:引用多不一定代表好。有些论文因为「被广泛批评」而被大量引用。模型是否能区分「被赞美引用」和「被批评引用」?
-
与人类科学家的协作:Scientific Thinker 目前是独立生成想法。如果把它嵌入人类科学家的 workflow——作为 brainstorming partner、方向筛选器、或者评审辅助工具——效果如何?
八、结语:品味不是天赋,是模式
这篇论文最有价值的贡献,不是某个具体的模型或数据集,而是它提出的一个范式转换:
科学品味不是神秘的人类特质,而是可以从社区反馈中学习的可迁移模式。
这打开了几个令人兴奋的方向:
- AI 辅助审稿:Scientific Judge 可以作为审稿辅助工具,帮助识别高潜力投稿
- 方向推荐系统:Scientific Thinker 可以为研究者推荐 follow-up 方向
- 跨领域知识迁移:既然 CS 训练的品味能泛化到 Physics 和 Biology,未来可能出现「通用科学品味模型」
- 训练数据优化:用 Scientific Judge 筛选高质量训练数据,提升下游任务表现
论文最后引用了一个有力的类比:
就像休谟说 taste 的标准来自合格评委的集体裁决,科学品味的标准来自科学社区的集体引用。AI 不需要成为爱因斯坦才能学会品味——它只需要学会读懂社区的集体智慧。
参考信息
- 论文地址:https://arxiv.org/abs/2603.14473
- 代码仓库:https://github.com/tongjingqi/AI-Can-Learn-Scientific-Taste
- 数据集:SciJudgeBench(70万对领域时间匹配的引用偏好对)
#论文解读 #AI科学家 #科学品味 #复旦大学 #OpenMOSS #强化学习 #社区反馈 #RLCF #GRPO #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。