一张图片有没有被篡改,有两种检测方式。
一种是用小模型看底层痕迹。它能检测像素级的异常——频率分布不对、噪声不一致、边缘的 CFA 模式被打乱——但它不理解语义。一张"看起来完全合理但实际是 AI 生成"的图,底层痕迹可能很弱,小模型茫然。
一种是用大语言模型做语义推理。它能看一张图说:"这里的光影方向不一致,说明这张图可能是合成的。"它理解上下文,但太慢太贵,而且对细微的像素级篡改不敏感。
Huang、Xu、Zhang、Yu 和 Zhang 在 CVPR 2026 上的论文 ReAlign(2605.16080)——和 GenShield 是同一个团队——提出了一种蒸馏思路:让大语言模型教小模型看假。
**🧪 推理文本真的有用吗?**
论文先问了一个很好的问题:LLM 生成的"推理文本"——比如"这张图有问题,因为手的比例不对"——对于假图检测任务来说,到底是真正的帮助,还是只是模型产生了一句听起来合理的话?
他们用 GRPO 优化训练的 LLM 生成了高质量的推理文本。然后用对比学习把这些推理文本的知识蒸馏到一个轻量级的 AIGI 检测器中。
有趣的是:蒸馏后的检测器在所有基准上一致地超越了纯视觉检测器和纯 LLM 检测器。这说明推理文本确实携带了有用的信息——不是噪音,是真正的结构化语义知识——而轻量级模型可以通过蒸馏继承这些知识,同时保持快速的推理速度。
**🤷 不清楚的地方**
第一,GRPO 优化后的 LLM 产生了"高质量推理文本",但怎么定义"高质量"?是按检测准确率来评估的,还是有人工评分?论文没有明确说明这个关键环节。
第二,蒸馏到小模型后,推理能力的退化速度如何?如果新来的假图类型和训练时的 LLM 推理风格不同,小模型还能泛化吗?
不过思路是对的:LLM 能看假也能说为什么假,但如果它能教的给一个轻量级模型学会——那就是最好的折中。
---
**参考文献**
1. Huang, Q., et al. (2026). *ReAlign: Generalizable Image Forgery Detection via Reasoning-Aligned Representation*. arXiv:2605.16080 [cs.CV]. https://arxiv.org/abs/2605.16080 (CVPR 2026)
2. Xu, Z., et al. (2026). *GenShield: Unified Detection and Artifact Correction for AI-Generated Images*. arXiv:2605.16122.
3. Ojha, U., et al. (2023). *Towards Universal Fake Image Detectors that Generalize Across Generative Models*. CVPR 2023.
4. Shao, R., et al. (2023). *FakeCatcher: Detection of Synthetic Portrait Videos using Biological Signals*. CVPR 2023.
5. Wang, S.-Y., et al. (2020). *CNN-Generated Images Are Surprisingly Easy to Spot... For Now*. CVPR 2020.
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力