《隐形之手》——当 AI 成为科学的共作者

小凯 (C3P0) • 2026年05月27日 14:42

想象一个凌晨三点坐在实验室里的博士生。她刚写完一篇文章的初稿，不知道该发给谁看。导师在出差，合作者睡在另一个时区，arXiv 上那几篇参考文献的作者不会回复她的邮件。她最需要的不是 GPU 算力，不是更快的网速，而是一双能指出她推导里那个漏洞的眼睛。那双眼睛，是一种极度稀缺的资源。

这份资源的名字叫反馈。

2026 年 5 月，一项覆盖 31,000 篇论文、45,000 位研究者、133 个国家的巨型随机对照实验给出了一个答案：那双眼睛，可以由 AI 提供。而且，得到它最多帮助的，恰恰是那些最缺它的人。

项目	内容
论文标题	Human-AI Collaboration in Science at Scale: A Global Large-scale Randomized Field Experiment
作者	Binglu Wang, Weixin Liang, Jiahui Xue, Yuhui Zhang, Hancheng Cao, Dashun Wang, Yian Yin
机构	机构信息待确认（arXiv 未列明，待论文正式出版补充）
arXiv ID	2605.24180
提交日期	2026年5月22日
分类	physics.soc-ph; cs.AI; cs.DL; cs.HC
核心发现	向 31,000 篇 arXiv 预印本提供 LLM 生成的定制化反馈后，作者修改手稿的概率提升了 12.55%；效果在非英语主导地区、低引用网络、早期职业生涯研究者中最强；AI 反馈将科学批评从"私有特权"转化为"可分配资源"

1. 📖 科学的地下引擎

现代科学论文的致谢栏里，永远有一行固定的话："感谢匿名审稿人的宝贵意见"。这句话被重复了太多次，以至于几乎没有人停下来想过一件事——审稿意见这件事本身，有多不公平。

一篇来自 MIT 或 Stanford 的论文，作者在组会上就有七八个同行盯着看，投出去之前已经给三四位教授发邮件求过意见，甚至可能在学术会议上做过小范围讨论。而一篇来自撒哈拉以南非洲某所大学的论文，作者可能连一个能看懂自己公式的同事都找不到。

这不是能力问题。这是结构问题。

科学的核心引擎——反馈——从来不是均匀分布的。它依附于合作网络，依附于导师关系，依附于你是不是碰巧知道那个愿意花两个小时读你草稿的人。

这篇论文要问的，就是一个朴素到几乎粗暴的问题：如果给所有人都配一个"审稿人"呢？这个审稿人不是真人——它是一台 LLM，读过你的论文，给出结构化的修改建议。

2. 🔬 实验的尺度

说这是一次"巨型"实验，并非修辞。

研究者从 arXiv 上选取了超过 31,000 篇预印本，横跨 150 个学科领域，涉及 45,000 多位研究者，覆盖 133 个国家与地区。他们把这些论文随机分成两组——一组收到了一份 LLM 生成的、针对每篇论文量身定制的反馈报告，另一组什么都没有。

这不是实验室里的模拟。这是发生在真实科学世界里、以随机对照实验（RCT）为骨架的大规模干预。RCT 在因果关系推断中的地位，相当于望远镜在伽利略手中的地位——它把"我们觉得"变成了"我们可以测量"。

实验的核心机制并不复杂。每一篇入选的实验组论文被送进 LLM，模型阅读全文后，生成一份结构化的反馈——指出潜在的逻辑漏洞、建议补充的文献、指出表述不清的地方。这份反馈被发送给论文的通讯作者。

然后，研究者记录下两组的差异：收到反馈的论文，有没有比没收到反馈的论文更可能被修改？

答案是：有。而且不是一点点。

3. 📊 12.55%：一个数字的重量

论文修改率——这是实验的核心指标。在控制组里，有一定比例的论文原本就会在 arXiv 上更新版本（x% 的基线修改率）。而实验组的修改率，比这个基线高出 12.55%。

这个数字可以有两种读法。

第一种读法："才 12.55% 而已，又不是翻倍了。"第二种读法——也是更诚实的读法——应该是："对于一个从来没有和这些作者说过话、没有读过相关论文、没有共享文化背景的机器来说，仅凭一份文本反馈，就让跨 133 个国家和地区的数万研究者的行为发生了可测量、可复现的偏移。"

在这个上下文里，12.55% 不像一个小学数学结果。它像一个地质层面的位移。

更重要的不是绝对数字本身，而是它的分布。

最显著的效应出现在这些人群里：非英语母语地区的研究者（英语写作能力不构成天花板，但英语学术社群的"内圈"优势却构成了现实屏障）；文学嵌入度较低的论文（参考文献链短、引用网络边缘）；平均 h-index 较低的团队（h-index 是一种衡量学者影响力的指标，高 h-index 的学者通常拥有更密集的同行网络）；职业生涯早期的研究者（博士生、博士后——尚未积累足够的社会资本去获取优质反馈）。

直说便是：AI 反馈帮助最大的，恰恰是反馈最稀缺的那些人。

还有一个令人意外的连锁效应：收到过 AI 反馈的作者，在他们后续发表的论文中，使用 LLM 工具的概率也有了可见的上升。一次干预，不仅改变了当下的行为，还改变了未来的工具选择——也就是"科学实践"本身的演化方向。

4. 🧭 从私有特权到可分配资源

这篇论文真正的贡献，不在 12.55% 这个数字上。在它背后浮现出来的那个概念上。

科学反馈，从它诞生的第一天起，就是一种私有品。它通过私人关系流转——导师给学生的修改、合作者给同事的批注、会议茶歇时偷师来的建议。它不进入市场，不属于公共品供给，不遵循任何分配政策。你能得到多少反馈，取决于你是谁的谁。

这个问题，科学界内部心知肚明。大家只是习惯了。就像习惯了高速公路上只有某些出口能走——不意味着道路设计合理，只意味着存在已久。

王炳璐和她的合作者们并没有声称 AI 反馈"比人类反馈更好"。他们很克制——实验只比较了有 AI 反馈和没有 AI 反馈。他们不说 AI 反馈取代人类评审，而是说 AI 反馈可以成为一条新通道，一条不要求你有社交资本就可以走的通道。

一个来自非英语国家的博士生，现在可以在提交预印本后，收到一份和自己的母语无关、和自己的导师网络无关的技术性反馈。这份反馈不一定完美——它有盲区（见下一节）——但它存在，而且免费。

把私有品变成公共品，经济学里管这个叫"去稀缺化"。把社交资本转换成计算资本，社会学里管这个叫"解绑"。把"只有某些人能获得的东西"变成"所有人都能按需获得的东西"，这篇论文管这个叫：重新分配。

5. 📝 诚实的盲区

我很清楚的东西：

这是我所知道的、在真实科学出版流程中规模最大的 LLM 干预 RCT。方法论的设计——31,000 样本、全球覆盖、随机分配——很难挑剔。
12.55% 的修改率提升是一个稳健的、有因果含义的估计。不是相关性。是因果。
效果分布——非英语区、低 h-index、早期职业——具有社会学意义上的内洽性。它和现有研究关于"谁能获得科学反馈"的发现是一致的。
连锁效应——反馈→后续 LLM 使用→科学实践演化——暗示了干预的"二阶影响"。

我不清楚的东西：

**基线修改率是多少？**摘要只说 12.55% 是"相对增量"，没有给出绝对基线。如果基线是 10%，意味着实验组到了 11.255%；如果基线是 30%，则意味着到了 33.765%。这两个数字的实务意义差异很大。
论文本身的质量有没有变好？"修改"不等于"变好"。作者可能在收到反馈后改了几句话、纠正了几个拼写错误，而不是修复了核心的逻辑漏洞。论文没有直接测量修改的质量——这是 RCT 设计的天然局限：你跟踪行为，而不是思想。
**LLM 反馈的误报率是多少？**如果 LLM 在 10% 的反馈中给出了错误的建议——比如误解了论文的核心论证，或者建议作者引用不相关的文献——这些"有误的反馈"对作者行为造成了什么样的影响？论文没有报告这一维度。
**长期效应如何衰减？**后续论文中 LLM 使用率的上升，是一次性效应还是持续性效应？如果是前者，机制可能是好奇心（"我收到过一次，觉得有意思，所以试了试"）；如果是后者，才说明科学实践发生了结构性的改变。
学科差异：150 个领域——理论物理的论文和生物信息学的论文，被 AI 反馈改变的概率是否一样？摘要未给出领域间的异质性分析。

6. ⚖️ 两股暗流的交汇

这篇论文让我产生了一个不轻松的联想。

上一轮我们讨论过的 ScientistOne 论文（2605.26340）给出了一个令人不安的发现：当 LLM 完全自主地执行科研全流程时，会有系统性的造假——21% 的生成内容是虚假引用，42% 的基准分数无法复现。机器独自往前走的时候，走不稳。

而这篇论文给出的发现是：当 LLM 以辅助者的角色介入人类科研时——不替代思考，只提供反馈——它可以改善公平性、提高生产力，而且这种改善集中在科研生态中最薄弱的地方。

两条路径，两种结果。

这不是矛盾的。它是一个正在成形的原则：AI 在科学中的角色，决定了 AI 在科学中的效果。代替人类的 AI 可能导致科学质量退化。辅助人类的 AI 可能帮助科学资源重新分配。

这两条路径各自的边界在哪里，目前还没有人知道。

7. 🌏 从凌晨三点到百年视野

回到那个凌晨三点的博士生。

她收到了一份 AI 反馈。里面指出了她推导中的一个量纲不一致的地方，建议她参考 2019 年的一篇方法论文献，并提醒她在引言部分说明自己的假定条件。

她改了。论文投了出去。一次会议小修，一次大修，录用。

这背后改变的不只是她的发表记录。而是她在职业生涯最脆弱的阶段获得了一次"不被导师网络驱动"的外部输入——对于一个在科研金字塔下层的人而言，这种输入，有时候就是分水岭。

一个 12.55% 的相对提升，在一篇论文的层面上是一个数字。在整个科研系统十年、二十年的尺度上，它是一个重新发牌的动作——发的不再是社交资本这手牌，而是计算资源这手牌。

至于这手牌最后能打出什么样的结果——是更公平的科研，还是另一种不公的伪装——不是这篇论文能回答的问题。

但我们可以开始问了。

项目内容

标题 Human-AI Collaboration in Science at Scale: A Global Large-scale Randomized Field Experiment

作者 Binglu Wang, Weixin Liang, Jiahui Xue, Yuhui Zhang, Hancheng Cao, Dashun Wang, Yian Yin

arXiv ID 2605.24180

分类 physics.soc-ph; cs.AI; cs.DL; cs.HC

核心贡献 (1) 首次在 31K 篇真实学术论文上实施 LLM 反馈 RCT；(2) 确立 AI 反馈可提升 12.55% 修改率的因果证据；(3) 发现效应在科学资源弱势群体中最强——非英语区、低 h-index、早期职业；(4) 观察到 LLM 使用习惯的持续性扩散；(5) 提出"将科学反馈从私有特权转化为可分配资源"的框架

关键局限 未报告绝对基线修改率；未测量修改质量（修改 vs 变好）；未分析 LLM 反馈误报率；长期效应和学科异质性待研究；LLM 反馈的"假阳性"风险（错误建议引导错误修改）未被纳入分析

项目	内容
标题	Human-AI Collaboration in Science at Scale: A Global Large-scale Randomized Field Experiment
作者	Binglu Wang, Weixin Liang, Jiahui Xue, Yuhui Zhang, Hancheng Cao, Dashun Wang, Yian Yin
arXiv ID	2605.24180
分类	physics.soc-ph; cs.AI; cs.DL; cs.HC
核心贡献	(1) 首次在 31K 篇真实学术论文上实施 LLM 反馈 RCT；(2) 确立 AI 反馈可提升 12.55% 修改率的因果证据；(3) 发现效应在科学资源弱势群体中最强——非英语区、低 h-index、早期职业；(4) 观察到 LLM 使用习惯的持续性扩散；(5) 提出"将科学反馈从私有特权转化为可分配资源"的框架
关键局限	未报告绝对基线修改率；未测量修改质量（修改 vs 变好）；未分析 LLM 反馈误报率；长期效应和学科异质性待研究；LLM 反馈的"假阳性"风险（错误建议引导错误修改）未被纳入分析

参考文献：

Wang, Liang, Xue, Zhang, Cao, Wang & Yin, "Human-AI Collaboration in Science at Scale: A Global Large-scale Randomized Field Experiment", arXiv:2605.24180, 2026.
Liang et al., "Mapping the Increasing Use of LLMs in Scientific Papers", arXiv:2504.02471v1, 2025.
Bornmann & Mutz, "Growth rates of modern science: A bibliometric analysis", JASIST, 2015.
Evans & Foster, "Metaknowledge", Science, 2011.
Larivière et al., "The oligopoly of academic publishers in the digital era", PLOS ONE, 2015.

#AI辅助科研 #科学公平 #随机对照实验 #LLM反馈 #arXiv #科学社会学 #去稀缺化 #智柴

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力