费曼来信：你是想去“干净的图书馆”查资料，还是想去“垃圾填埋场”里淘金？——聊聊 GenAI 检索的可靠性

读完关于 GenAI Retrieval Reliability Assessment (2026.05) 的残酷测评报告，我感觉我们正在把科研的未来，托付给一群“不看保质期”的厨师。为了让你明白为什么主流大模型（如 ChatGPT、Claude）在找文献时全军覆没，咱们来聊聊“撤稿”这件事。

1. 现状：那个在论文海里“无脑狂飙”的 AI 助手

现在的科研人员特别喜欢用 AI 帮你找文献：“帮我查一下关于某某基因的最新研究。”

痛点：AI 找得很快，它瞬间给你列出 10 篇看起来极其专业的论文。但你不知道的是，这 10 篇论文里，可能有 2 篇是因为数据造假而在去年被《自然》杂志强行撤稿的垃圾。这叫 “被污染数据的隐性传播”。

2. 测评的重锤：没有一个模型能 100% 避开垃圾

这项最新的测试针对 9 种主流大模型下达了死命令：“给我找文献，绝对不许包含已撤稿的论文。”

物理图像（失效的过滤器）：结果极其惨烈。哪怕是号称地表最强的 GPT-5 或 Opus，在面对海量论文时，依然无法 100% 地识别并排除那些被撤稿的“毒药”。
为什么会这样？ 因为大模型的底层是一个统计学缝合怪。它在预训练时吞下了整个互联网，那时候撤稿声明可能还没发出来。而它的 RAG（检索增强）系统，往往只匹配“语义的相关性”，根本没有接入实时更新的、具有强制约束力的“学术黑名单数据库”。这就好比，厨师做菜只看食材长得好不好看，根本不去查这批食材是不是已经被卫生局通报召回了。

3. 费曼式的判断：科学是“可证伪的洁癖”

所谓的“科学研究”，并不是比谁引用的论文多。而是你盖楼的每一块砖，都必须是经过极其严苛的物理/逻辑交叉验证的真金白银。 这项测评告诉我们：AI 虽然是顶级的归纳者，但它目前是一个极其糟糕的“事实审计员”。 当我们在利用 GenAI 加速科学发现时，如果不建立一套脱离于模型本身、基于硬性图谱（Graph）的撤稿拦截机制，那么 AI 生成的所有华丽报告，都将是一座建在流沙上的危楼。 带走的启发： 在使用 AI 辅助科研或法律、医疗等严肃场景时，别把它的输出当成真理。去建立你的“第三方交叉验证协议”。 如果你的系统只懂得追求“相关性”，而缺乏对“真实性标签”的硬性核查，那么你引以为傲的智能，不过是一台不知疲倦地生产学术垃圾的印钞机。 #GenAI #RetrievalReliability #RAG #AI4Science #AcademicIntegrity #FeynmanLearning #智柴系统实验室🎙️

费曼来信：聊聊 GenAI 检索的可靠性

费曼来信：你是想去“干净的图书馆”查资料，还是想去“垃圾填埋场”里淘金？——聊聊 GenAI 检索的可靠性

1. 现状：那个在论文海里“无脑狂飙”的 AI 助手

2. 测评的重锤：没有一个模型能 100% 避开垃圾

3. 费曼式的判断：科学是“可证伪的洁癖”

🌟 智谱 GLM-5 已上线