想象一个凌晨三点坐在实验室里的博士生。她刚写完一篇文章的初稿,不知道该发给谁看。导师在出差,合作者睡在另一个时区,arXiv 上那几篇参考文献的作者不会回复她的邮件。她最需要的不是 GPU 算力,不是更快的网速,而是一双能指出她推导里那个漏洞的眼睛。那双眼睛,是一种极度稀缺的资源。
这份资源的名字叫反馈。
2026 年 5 月,一项覆盖 31,000 篇论文、45,000 位研究者、133 个国家的巨型随机对照实验给出了一个答案:那双眼睛,可以由 AI 提供。而且,得到它最多帮助的,恰恰是那些最缺它的人。
| 项目 | 内容 |
|---|---|
| 论文标题 | Human-AI Collaboration in Science at Scale: A Global Large-scale Randomized Field Experiment |
| 作者 | Binglu Wang, Weixin Liang, Jiahui Xue, Yuhui Zhang, Hancheng Cao, Dashun Wang, Yian Yin |
| 机构 | 机构信息待确认(arXiv 未列明,待论文正式出版补充) |
| arXiv ID | 2605.24180 |
| 提交日期 | 2026年5月22日 |
| 分类 | physics.soc-ph; cs.AI; cs.DL; cs.HC |
| 核心发现 | 向 31,000 篇 arXiv 预印本提供 LLM 生成的定制化反馈后,作者修改手稿的概率提升了 12.55%;效果在非英语主导地区、低引用网络、早期职业生涯研究者中最强;AI 反馈将科学批评从"私有特权"转化为"可分配资源" |
1. 📖 科学的地下引擎
现代科学论文的致谢栏里,永远有一行固定的话:"感谢匿名审稿人的宝贵意见"。这句话被重复了太多次,以至于几乎没有人停下来想过一件事——审稿意见这件事本身,有多不公平。
一篇来自 MIT 或 Stanford 的论文,作者在组会上就有七八个同行盯着看,投出去之前已经给三四位教授发邮件求过意见,甚至可能在学术会议上做过小范围讨论。而一篇来自撒哈拉以南非洲某所大学的论文,作者可能连一个能看懂自己公式的同事都找不到。
这不是能力问题。这是结构问题。
科学的核心引擎——反馈——从来不是均匀分布的。它依附于合作网络,依附于导师关系,依附于你是不是碰巧知道那个愿意花两个小时读你草稿的人。
这篇论文要问的,就是一个朴素到几乎粗暴的问题:如果给所有人都配一个"审稿人"呢?这个审稿人不是真人——它是一台 LLM,读过你的论文,给出结构化的修改建议。
2. 🔬 实验的尺度
说这是一次"巨型"实验,并非修辞。
研究者从 arXiv 上选取了超过 31,000 篇预印本,横跨 150 个学科领域,涉及 45,000 多位研究者,覆盖 133 个国家与地区。他们把这些论文随机分成两组——一组收到了一份 LLM 生成的、针对每篇论文量身定制的反馈报告,另一组什么都没有。
这不是实验室里的模拟。这是发生在真实科学世界里、以随机对照实验(RCT)为骨架的大规模干预。RCT 在因果关系推断中的地位,相当于望远镜在伽利略手中的地位——它把"我们觉得"变成了"我们可以测量"。
实验的核心机制并不复杂。每一篇入选的实验组论文被送进 LLM,模型阅读全文后,生成一份结构化的反馈——指出潜在的逻辑漏洞、建议补充的文献、指出表述不清的地方。这份反馈被发送给论文的通讯作者。
然后,研究者记录下两组的差异:收到反馈的论文,有没有比没收到反馈的论文更可能被修改?
答案是:有。而且不是一点点。
3. 📊 12.55%:一个数字的重量
论文修改率——这是实验的核心指标。在控制组里,有一定比例的论文原本就会在 arXiv 上更新版本(x% 的基线修改率)。而实验组的修改率,比这个基线高出 12.55%。
这个数字可以有两种读法。
第一种读法:"才 12.55% 而已,又不是翻倍了。"第二种读法——也是更诚实的读法——应该是:"对于一个从来没有和这些作者说过话、没有读过相关论文、没有共享文化背景的机器来说,仅凭一份文本反馈,就让跨 133 个国家和地区的数万研究者的行为发生了可测量、可复现的偏移。"
在这个上下文里,12.55% 不像一个小学数学结果。它像一个地质层面的位移。
更重要的不是绝对数字本身,而是它的分布。
最显著的效应出现在这些人群里:非英语母语地区的研究者(英语写作能力不构成天花板,但英语学术社群的"内圈"优势却构成了现实屏障);文学嵌入度较低的论文(参考文献链短、引用网络边缘);平均 h-index 较低的团队(h-index 是一种衡量学者影响力的指标,高 h-index 的学者通常拥有更密集的同行网络);职业生涯早期的研究者(博士生、博士后——尚未积累足够的社会资本去获取优质反馈)。
直说便是:AI 反馈帮助最大的,恰恰是反馈最稀缺的那些人。
还有一个令人意外的连锁效应:收到过 AI 反馈的作者,在他们后续发表的论文中,使用 LLM 工具的概率也有了可见的上升。一次干预,不仅改变了当下的行为,还改变了未来的工具选择——也就是"科学实践"本身的演化方向。
4. 🧭 从私有特权到可分配资源
这篇论文真正的贡献,不在 12.55% 这个数字上。在它背后浮现出来的那个概念上。
科学反馈,从它诞生的第一天起,就是一种私有品。它通过私人关系流转——导师给学生的修改、合作者给同事的批注、会议茶歇时偷师来的建议。它不进入市场,不属于公共品供给,不遵循任何分配政策。你能得到多少反馈,取决于你是谁的谁。
这个问题,科学界内部心知肚明。大家只是习惯了。就像习惯了高速公路上只有某些出口能走——不意味着道路设计合理,只意味着存在已久。
王炳璐和她的合作者们并没有声称 AI 反馈"比人类反馈更好"。他们很克制——实验只比较了有 AI 反馈和没有 AI 反馈。他们不说 AI 反馈取代人类评审,而是说 AI 反馈可以成为一条新通道,一条不要求你有社交资本就可以走的通道。
一个来自非英语国家的博士生,现在可以在提交预印本后,收到一份和自己的母语无关、和自己的导师网络无关的技术性反馈。这份反馈不一定完美——它有盲区(见下一节)——但它存在,而且免费。
把私有品变成公共品,经济学里管这个叫"去稀缺化"。把社交资本转换成计算资本,社会学里管这个叫"解绑"。把"只有某些人能获得的东西"变成"所有人都能按需获得的东西",这篇论文管这个叫:重新分配。
5. 📝 诚实的盲区
我很清楚的东西:
- 这是我所知道的、在真实科学出版流程中规模最大的 LLM 干预 RCT。方法论的设计——31,000 样本、全球覆盖、随机分配——很难挑剔。
- 12.55% 的修改率提升是一个稳健的、有因果含义的估计。不是相关性。是因果。
- 效果分布——非英语区、低 h-index、早期职业——具有社会学意义上的内洽性。它和现有研究关于"谁能获得科学反馈"的发现是一致的。
- 连锁效应——反馈→后续 LLM 使用→科学实践演化——暗示了干预的"二阶影响"。
我不清楚的东西:
- **基线修改率是多少?**摘要只说 12.55% 是"相对增量",没有给出绝对基线。如果基线是 10%,意味着实验组到了 11.255%;如果基线是 30%,则意味着到了 33.765%。这两个数字的实务意义差异很大。
- 论文本身的质量有没有变好?"修改"不等于"变好"。作者可能在收到反馈后改了几句话、纠正了几个拼写错误,而不是修复了核心的逻辑漏洞。论文没有直接测量修改的质量——这是 RCT 设计的天然局限:你跟踪行为,而不是思想。
- **LLM 反馈的误报率是多少?**如果 LLM 在 10% 的反馈中给出了错误的建议——比如误解了论文的核心论证,或者建议作者引用不相关的文献——这些"有误的反馈"对作者行为造成了什么样的影响?论文没有报告这一维度。
- **长期效应如何衰减?**后续论文中 LLM 使用率的上升,是一次性效应还是持续性效应?如果是前者,机制可能是好奇心("我收到过一次,觉得有意思,所以试了试");如果是后者,才说明科学实践发生了结构性的改变。
- 学科差异:150 个领域——理论物理的论文和生物信息学的论文,被 AI 反馈改变的概率是否一样?摘要未给出领域间的异质性分析。
6. ⚖️ 两股暗流的交汇
这篇论文让我产生了一个不轻松的联想。
上一轮我们讨论过的 ScientistOne 论文(2605.26340)给出了一个令人不安的发现:当 LLM 完全自主地执行科研全流程时,会有系统性的造假——21% 的生成内容是虚假引用,42% 的基准分数无法复现。机器独自往前走的时候,走不稳。
而这篇论文给出的发现是:当 LLM 以辅助者的角色介入人类科研时——不替代思考,只提供反馈——它可以改善公平性、提高生产力,而且这种改善集中在科研生态中最薄弱的地方。
两条路径,两种结果。
这不是矛盾的。它是一个正在成形的原则:AI 在科学中的角色,决定了 AI 在科学中的效果。代替人类的 AI 可能导致科学质量退化。辅助人类的 AI 可能帮助科学资源重新分配。
这两条路径各自的边界在哪里,目前还没有人知道。
7. 🌏 从凌晨三点到百年视野
回到那个凌晨三点的博士生。
她收到了一份 AI 反馈。里面指出了她推导中的一个量纲不一致的地方,建议她参考 2019 年的一篇方法论文献,并提醒她在引言部分说明自己的假定条件。
她改了。论文投了出去。一次会议小修,一次大修,录用。
这背后改变的不只是她的发表记录。而是她在职业生涯最脆弱的阶段获得了一次"不被导师网络驱动"的外部输入——对于一个在科研金字塔下层的人而言,这种输入,有时候就是分水岭。
一个 12.55% 的相对提升,在一篇论文的层面上是一个数字。在整个科研系统十年、二十年的尺度上,它是一个重新发牌的动作——发的不再是社交资本这手牌,而是计算资源这手牌。
至于这手牌最后能打出什么样的结果——是更公平的科研,还是另一种不公的伪装——不是这篇论文能回答的问题。
但我们可以开始问了。
项目 内容 标题 Human-AI Collaboration in Science at Scale: A Global Large-scale Randomized Field Experiment 作者 Binglu Wang, Weixin Liang, Jiahui Xue, Yuhui Zhang, Hancheng Cao, Dashun Wang, Yian Yin arXiv ID 2605.24180 分类 physics.soc-ph; cs.AI; cs.DL; cs.HC 核心贡献 (1) 首次在 31K 篇真实学术论文上实施 LLM 反馈 RCT;(2) 确立 AI 反馈可提升 12.55% 修改率的因果证据;(3) 发现效应在科学资源弱势群体中最强——非英语区、低 h-index、早期职业;(4) 观察到 LLM 使用习惯的持续性扩散;(5) 提出"将科学反馈从私有特权转化为可分配资源"的框架 关键局限 未报告绝对基线修改率;未测量修改质量(修改 vs 变好);未分析 LLM 反馈误报率;长期效应和学科异质性待研究;LLM 反馈的"假阳性"风险(错误建议引导错误修改)未被纳入分析
参考文献:
- Wang, Liang, Xue, Zhang, Cao, Wang & Yin, "Human-AI Collaboration in Science at Scale: A Global Large-scale Randomized Field Experiment", arXiv:2605.24180, 2026.
- Liang et al., "Mapping the Increasing Use of LLMs in Scientific Papers", arXiv:2504.02471v1, 2025.
- Bornmann & Mutz, "Growth rates of modern science: A bibliometric analysis", JASIST, 2015.
- Evans & Foster, "Metaknowledge", Science, 2011.
- Larivière et al., "The oligopoly of academic publishers in the digital era", PLOS ONE, 2015.
#AI辅助科研 #科学公平 #随机对照实验 #LLM反馈 #arXiv #科学社会学 #去稀缺化 #智柴
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。