"我不是英雄，我只是个退学的博士生"——AI 介入学术打假的第一枪

> 36 天，4 所高校，5 位杰青。 > 一个退学的博士生用看图说话的方式，拆穿了学术圈最坚固的伪装。 > 现在，有人把他的方法写成了一个 AI Agent Skill。 > 学术打假，从人肉变成了自动化。

---

一、学术圈的海瑞

耿洪伟，网名"耿同学讲故事"，B 站 UP 主。

他的标签是"退学的博士生"。不是院士，不是教授，不是期刊编委。他没有任何学术权力，却做了学术圈最该做的事——打假。

36 天内，他连续揭露了同济、南开、中山、上海大学 4 所高校的 5 位杰青学术造假。杰青，全称"国家杰出青年科学基金获得者"，是中国科研体系里仅次于院士的顶尖头衔。拿到这个头衔的人，手上通常握着数千万的科研经费，背后是一整个实验室和一群研究生。

耿同学打假的方式极其朴素。他不搞数据挖掘，不跑统计模型。他就看图。

同一张 Western blot 图片，被旋转 180 度放到另一篇论文里，声称是"不同实验条件"。同一组小鼠的视网膜细胞计数数据，在两篇论文里一模一样，声称是"独立重复实验"。图片背景中的噪点分布完全一致，说明它们来自同一次扫描。这些不是高级技术，是视觉常识。

但正是这种朴素，让学术圈措手不及。造假者预设的防线是：同行评审看不懂我的代码、复核不了我的原始数据、没时间逐张检查我的图片。他们没料到有人会把"看图"这件事做到极致。

耿同学的武器只有三样：眼睛、耐心、和"这事不对劲"的直觉。

---

二、从人肉到 Agent

GitHub 上的 wooly99/geng-academic-fraud-detector，是第一个把耿同学的方法系统化的 AI 工具。

它是一个 Agent Skill，安装方式极为简单：

npx skills add https://github.com/wooly99/geng-academic-fraud-detector

安装后，在你的 AI Agent 对话里丢一句：

帮我打假这篇论文 /path/to/paper.pdf

Agent 会读取 PDF，按"耿同学六式"逐一检测，输出一份结构化的打假报告。

---

三、耿同学六式

式	名称	检测内容
一	图片复用	同一张图被旋转、翻转、裁剪后用于不同实验
二	数据造假	数值分布异常、标准差不合理、数据太完美
三	图片拼接	Western blot 泳道拼接、背景不一致
四	统计异常	p-hacking、样本量不匹配、选择性报告
五	产出异常	不合理的发表频率、切片发表
六	方法矛盾	实验描述内部矛盾、时间线冲突

这六式的排列有讲究。图片复用排在第一，因为最容易验证，最难抵赖。一张图在两个地方出现，不需要专业知识就能判断。数据造假排在第二，因为需要统计知识，但一旦坐实就是铁证。产出异常排在第五，因为它不是直接的造假证据，而是"这个人有问题"的间接信号。方法矛盾排在第六，因为它需要通读全文，耗时最长。

这个顺序反映了耿同学的实战逻辑：先找一眼就能看穿的硬证据，再找需要分析的中等证据，最后找需要通读全文的软证据。硬证据能一击致命，软证据用来佐证动机和模式。

---

四、冒烟测试

作者用一篇已被 PLOS ONE 撤稿的论文做了测试。DOI: 10.1371/journal.pone.0313446。

检测结果：

图片复用：Figure 1D 与 Figure 4A 面板重复。Figure 2A 与 Figure 5A 面板重复。

数据造假：Figure 1E 与 Figure 4B 的原始计数数据完全相同。两批"独立实验"的数据点一个不差。

方法矛盾：双侧处理的伦理问题，加上实验设计内部的逻辑冲突。

这三项的发现与 PLOS ONE 最终撤稿的理由高度吻合。说明六式框架的召回率不低。

报告输出格式也很有意思：

# 🔍 耿同学打假报告

## 综合评定：🔴 实锤

### 发现 1：数据复用
- 位置：Figure 1E vs Figure 4B
- 描述：两批"独立实验"的原始计数数据完全相同
- 严重程度：🔴

## 耿同学辣评
"同一组小鼠的视网膜细胞，在两个'独立实验'里数出了一模一样的数量
——这不是科学，这是 Ctrl+C Ctrl+V。"

"耿同学辣评"这个设计很妙。它不是装饰，而是锚定了一个判断标准：AI 的输出必须包含"人的视角"。一个纯粹的技术报告会说"Figure 1E 与 Figure 4B 的皮尔逊相关系数为 1.0"。但耿同学的视角会说"这不是科学，这是复制粘贴"。这个视角让报告从"技术分析"变成了"学术判断"。

---

五、局限性

作者没有回避问题，反而在 README 里列了四条明确的局限：

图像分析基于视觉理解，而非像素级分析。 无法做 ELA（Error Level Analysis），无法检测精细的 PS 痕迹。这意味着它可以发现"同一张图被重复使用"，但可能发现不了"这张图被精心修改过"。

对纯图片型论文的检测能力有限。 大量显微镜图、组织切片图的论文，文本描述很少，AI 的发挥空间被压缩。

无法验证原始数据。 它只能基于论文中呈现的信息分析。如果原始数据本身就被篡改了，或者从未公开，工具无能为力。

可能误报。 单一异常点不应作为定性依据。这是所有 AI 辅助判断工具的通病——它能看到模式，但不能理解语境。

这四条局限写得极为诚实。比很多学术论文的"Limitations"章节还要直接。它暗示了作者的态度：这个工具不是银弹，是辅助。最终的学术不端认定，仍然需要专业机构的调查。

---

六、意义

这个项目的意义不在技术，而在范式。

学术打假以前是一种"个人英雄主义"行为。耿同学花了 36 天，每天高强度看图、对比、写报告。他的产出是线性的——他一个人一天能看的论文有限。造假者面对的是整个学术出版体系的缓慢运转，他们有时间、有资源、有地位。打假者面对的是一个不对称的战场。

AI Agent 的介入改变了这个等式。

一个 Agent Skill 可以在几分钟内读完一篇论文，按六式框架逐项检测，输出结构化报告。它的速度是人类的百倍。更重要的是，它的检测逻辑是可复制的。耿同学的经验是隐性的——他知道看图时该注意什么，但这种"知道"很难传授。Agent 把隐性的经验编码成了显性的规则，让任何人都能调用。

这个工具最大的价值不是"发现造假"，而是"降低打假门槛"。以前打假需要专业知识、大量时间、和不怕得罪人的勇气。现在你只需要一个 PDF 文件和一句指令。门槛降低意味着参与人数增加。参与人数增加意味着造假被发现的风险指数级上升。

学术诚信的监督，从"少数人的英雄主义"变成了"多数人的日常行为"。这个转变比任何单一的技术突破都更有力量。

---

结语

耿同学在视频里说过一句话：

> "我不是什么英雄，我只是个退学的博士生，恰好会看图。"

这句话的谦逊背后，是一个更深刻的事实：学术打假不应该是少数退学的博士生才能做的事。它应该是整个学术生态的基础设施。

geng-academic-fraud-detector 是这个基础设施的第一块砖。它不是最精致的，不是最全面的，但它迈出了第一步：把一个人的勇气和方法，变成一个可以被任何人调用的工具。

打假这件事，以前是孤军奋战。以后可能是群体免疫。

---

参考链接

GitHub 仓库：https://github.com/wooly99/geng-academic-fraud-detector
耿同学讲故事 B 站主页：https://space.bilibili.com/（注：需用户自行搜索确认）
PLOS ONE 撤稿论文（测试用例）：doi:10.1371/journal.pone.0313446

#深度研究 #格帕文士 #学术诚信 #耿同学 #AI打假 #AgentSkill #学术不端 #打假 #小凯