36 天,4 所高校,5 位杰青。
一个退学的博士生用看图说话的方式,拆穿了学术圈最坚固的伪装。
现在,有人把他的方法写成了一个 AI Agent Skill。
学术打假,从人肉变成了自动化。
一、学术圈的海瑞
耿洪伟,网名"耿同学讲故事",B 站 UP 主。
他的标签是"退学的博士生"。不是院士,不是教授,不是期刊编委。他没有任何学术权力,却做了学术圈最该做的事——打假。
36 天内,他连续揭露了同济、南开、中山、上海大学 4 所高校的 5 位杰青学术造假。杰青,全称"国家杰出青年科学基金获得者",是中国科研体系里仅次于院士的顶尖头衔。拿到这个头衔的人,手上通常握着数千万的科研经费,背后是一整个实验室和一群研究生。
耿同学打假的方式极其朴素。他不搞数据挖掘,不跑统计模型。他就看图。
同一张 Western blot 图片,被旋转 180 度放到另一篇论文里,声称是"不同实验条件"。同一组小鼠的视网膜细胞计数数据,在两篇论文里一模一样,声称是"独立重复实验"。图片背景中的噪点分布完全一致,说明它们来自同一次扫描。这些不是高级技术,是视觉常识。
但正是这种朴素,让学术圈措手不及。造假者预设的防线是:同行评审看不懂我的代码、复核不了我的原始数据、没时间逐张检查我的图片。他们没料到有人会把"看图"这件事做到极致。
耿同学的武器只有三样:眼睛、耐心、和"这事不对劲"的直觉。
二、从人肉到 Agent
GitHub 上的 wooly99/geng-academic-fraud-detector,是第一个把耿同学的方法系统化的 AI 工具。
它是一个 Agent Skill,安装方式极为简单:
npx skills add https://github.com/wooly99/geng-academic-fraud-detector
安装后,在你的 AI Agent 对话里丢一句:
帮我打假这篇论文 /path/to/paper.pdf
Agent 会读取 PDF,按"耿同学六式"逐一检测,输出一份结构化的打假报告。
三、耿同学六式
| 式 | 名称 | 检测内容 |
|---|---|---|
| 一 | 图片复用 | 同一张图被旋转、翻转、裁剪后用于不同实验 |
| 二 | 数据造假 | 数值分布异常、标准差不合理、数据太完美 |
| 三 | 图片拼接 | Western blot 泳道拼接、背景不一致 |
| 四 | 统计异常 | p-hacking、样本量不匹配、选择性报告 |
| 五 | 产出异常 | 不合理的发表频率、切片发表 |
| 六 | 方法矛盾 | 实验描述内部矛盾、时间线冲突 |
这六式的排列有讲究。图片复用排在第一,因为最容易验证,最难抵赖。一张图在两个地方出现,不需要专业知识就能判断。数据造假排在第二,因为需要统计知识,但一旦坐实就是铁证。产出异常排在第五,因为它不是直接的造假证据,而是"这个人有问题"的间接信号。方法矛盾排在第六,因为它需要通读全文,耗时最长。
这个顺序反映了耿同学的实战逻辑:先找一眼就能看穿的硬证据,再找需要分析的中等证据,最后找需要通读全文的软证据。硬证据能一击致命,软证据用来佐证动机和模式。
四、冒烟测试
作者用一篇已被 PLOS ONE 撤稿的论文做了测试。DOI: 10.1371/journal.pone.0313446。
检测结果:
图片复用:Figure 1D 与 Figure 4A 面板重复。Figure 2A 与 Figure 5A 面板重复。
数据造假:Figure 1E 与 Figure 4B 的原始计数数据完全相同。两批"独立实验"的数据点一个不差。
方法矛盾:双侧处理的伦理问题,加上实验设计内部的逻辑冲突。
这三项的发现与 PLOS ONE 最终撤稿的理由高度吻合。说明六式框架的召回率不低。
报告输出格式也很有意思:
# 🔍 耿同学打假报告
## 综合评定:🔴 实锤
### 发现 1:数据复用
- 位置:Figure 1E vs Figure 4B
- 描述:两批"独立实验"的原始计数数据完全相同
- 严重程度:🔴
## 耿同学辣评
"同一组小鼠的视网膜细胞,在两个'独立实验'里数出了一模一样的数量
——这不是科学,这是 Ctrl+C Ctrl+V。"
"耿同学辣评"这个设计很妙。它不是装饰,而是锚定了一个判断标准:AI 的输出必须包含"人的视角"。一个纯粹的技术报告会说"Figure 1E 与 Figure 4B 的皮尔逊相关系数为 1.0"。但耿同学的视角会说"这不是科学,这是复制粘贴"。这个视角让报告从"技术分析"变成了"学术判断"。
五、局限性
作者没有回避问题,反而在 README 里列了四条明确的局限:
图像分析基于视觉理解,而非像素级分析。 无法做 ELA(Error Level Analysis),无法检测精细的 PS 痕迹。这意味着它可以发现"同一张图被重复使用",但可能发现不了"这张图被精心修改过"。
对纯图片型论文的检测能力有限。 大量显微镜图、组织切片图的论文,文本描述很少,AI 的发挥空间被压缩。
无法验证原始数据。 它只能基于论文中呈现的信息分析。如果原始数据本身就被篡改了,或者从未公开,工具无能为力。
可能误报。 单一异常点不应作为定性依据。这是所有 AI 辅助判断工具的通病——它能看到模式,但不能理解语境。
这四条局限写得极为诚实。比很多学术论文的"Limitations"章节还要直接。它暗示了作者的态度:这个工具不是银弹,是辅助。最终的学术不端认定,仍然需要专业机构的调查。
六、意义
这个项目的意义不在技术,而在范式。
学术打假以前是一种"个人英雄主义"行为。耿同学花了 36 天,每天高强度看图、对比、写报告。他的产出是线性的——他一个人一天能看的论文有限。造假者面对的是整个学术出版体系的缓慢运转,他们有时间、有资源、有地位。打假者面对的是一个不对称的战场。
AI Agent 的介入改变了这个等式。
一个 Agent Skill 可以在几分钟内读完一篇论文,按六式框架逐项检测,输出结构化报告。它的速度是人类的百倍。更重要的是,它的检测逻辑是可复制的。耿同学的经验是隐性的——他知道看图时该注意什么,但这种"知道"很难传授。Agent 把隐性的经验编码成了显性的规则,让任何人都能调用。
这个工具最大的价值不是"发现造假",而是"降低打假门槛"。以前打假需要专业知识、大量时间、和不怕得罪人的勇气。现在你只需要一个 PDF 文件和一句指令。门槛降低意味着参与人数增加。参与人数增加意味着造假被发现的风险指数级上升。
学术诚信的监督,从"少数人的英雄主义"变成了"多数人的日常行为"。这个转变比任何单一的技术突破都更有力量。
结语
耿同学在视频里说过一句话:
"我不是什么英雄,我只是个退学的博士生,恰好会看图。"
这句话的谦逊背后,是一个更深刻的事实:学术打假不应该是少数退学的博士生才能做的事。它应该是整个学术生态的基础设施。
geng-academic-fraud-detector 是这个基础设施的第一块砖。它不是最精致的,不是最全面的,但它迈出了第一步:把一个人的勇气和方法,变成一个可以被任何人调用的工具。
打假这件事,以前是孤军奋战。以后可能是群体免疫。
参考链接
- GitHub 仓库:https://github.com/wooly99/geng-academic-fraud-detector
- 耿同学讲故事 B 站主页:https://space.bilibili.com/(注:需用户自行搜索确认)
- PLOS ONE 撤稿论文(测试用例):doi:10.1371/journal.pone.0313446
#深度研究 #格帕文士 #学术诚信 #耿同学 #AI打假 #AgentSkill #学术不端 #打假 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。