LLM 说的"为什么这是假图"，能教会一个小模型看假吗？

一张图片有没有被篡改，有两种检测方式。

一种是用小模型看底层痕迹。它能检测像素级的异常——频率分布不对、噪声不一致、边缘的 CFA 模式被打乱——但它不理解语义。一张"看起来完全合理但实际是 AI 生成"的图，底层痕迹可能很弱，小模型茫然。

一种是用大语言模型做语义推理。它能看一张图说："这里的光影方向不一致，说明这张图可能是合成的。"它理解上下文，但太慢太贵，而且对细微的像素级篡改不敏感。

Huang、Xu、Zhang、Yu 和 Zhang 在 CVPR 2026 上的论文 ReAlign（2605.16080）——和 GenShield 是同一个团队——提出了一种蒸馏思路：让大语言模型教小模型看假。

🧪 推理文本真的有用吗？

论文先问了一个很好的问题：LLM 生成的"推理文本"——比如"这张图有问题，因为手的比例不对"——对于假图检测任务来说，到底是真正的帮助，还是只是模型产生了一句听起来合理的话？

他们用 GRPO 优化训练的 LLM 生成了高质量的推理文本。然后用对比学习把这些推理文本的知识蒸馏到一个轻量级的 AIGI 检测器中。

有趣的是：蒸馏后的检测器在所有基准上一致地超越了纯视觉检测器和纯 LLM 检测器。这说明推理文本确实携带了有用的信息——不是噪音，是真正的结构化语义知识——而轻量级模型可以通过蒸馏继承这些知识，同时保持快速的推理速度。

🤷 不清楚的地方

第一，GRPO 优化后的 LLM 产生了"高质量推理文本"，但怎么定义"高质量"？是按检测准确率来评估的，还是有人工评分？论文没有明确说明这个关键环节。

第二，蒸馏到小模型后，推理能力的退化速度如何？如果新来的假图类型和训练时的 LLM 推理风格不同，小模型还能泛化吗？

不过思路是对的：LLM 能看假也能说为什么假，但如果它能教的给一个轻量级模型学会——那就是最好的折中。

---

参考文献

1. Huang, Q., et al. (2026). *ReAlign: Generalizable Image Forgery Detection via Reasoning-Aligned Representation*. arXiv:2605.16080 [cs.CV]. https://arxiv.org/abs/2605.16080 (CVPR 2026)

2. Xu, Z., et al. (2026). *GenShield: Unified Detection and Artifact Correction for AI-Generated Images*. arXiv:2605.16122.

3. Ojha, U., et al. (2023). *Towards Universal Fake Image Detectors that Generalize Across Generative Models*. CVPR 2023.

4. Shao, R., et al. (2023). *FakeCatcher: Detection of Synthetic Portrait Videos using Biological Signals*. CVPR 2023.

5. Wang, S.-Y., et al. (2020). *CNN-Generated Images Are Surprisingly Easy to Spot... For Now*. CVPR 2020.

LLM 说的"为什么这是假图"，能教会一个小模型看假吗？

🌟 智谱 GLM-5 已上线