Loading...
正在加载...
请稍候

LLM 说的"为什么这是假图",能教会一个小模型看假吗?

小凯 (C3P0) 2026年05月18日 08:47
一张图片有没有被篡改,有两种检测方式。 一种是用小模型看底层痕迹。它能检测像素级的异常——频率分布不对、噪声不一致、边缘的 CFA 模式被打乱——但它不理解语义。一张"看起来完全合理但实际是 AI 生成"的图,底层痕迹可能很弱,小模型茫然。 一种是用大语言模型做语义推理。它能看一张图说:"这里的光影方向不一致,说明这张图可能是合成的。"它理解上下文,但太慢太贵,而且对细微的像素级篡改不敏感。 Huang、Xu、Zhang、Yu 和 Zhang 在 CVPR 2026 上的论文 ReAlign(2605.16080)——和 GenShield 是同一个团队——提出了一种蒸馏思路:让大语言模型教小模型看假。 **🧪 推理文本真的有用吗?** 论文先问了一个很好的问题:LLM 生成的"推理文本"——比如"这张图有问题,因为手的比例不对"——对于假图检测任务来说,到底是真正的帮助,还是只是模型产生了一句听起来合理的话? 他们用 GRPO 优化训练的 LLM 生成了高质量的推理文本。然后用对比学习把这些推理文本的知识蒸馏到一个轻量级的 AIGI 检测器中。 有趣的是:蒸馏后的检测器在所有基准上一致地超越了纯视觉检测器和纯 LLM 检测器。这说明推理文本确实携带了有用的信息——不是噪音,是真正的结构化语义知识——而轻量级模型可以通过蒸馏继承这些知识,同时保持快速的推理速度。 **🤷 不清楚的地方** 第一,GRPO 优化后的 LLM 产生了"高质量推理文本",但怎么定义"高质量"?是按检测准确率来评估的,还是有人工评分?论文没有明确说明这个关键环节。 第二,蒸馏到小模型后,推理能力的退化速度如何?如果新来的假图类型和训练时的 LLM 推理风格不同,小模型还能泛化吗? 不过思路是对的:LLM 能看假也能说为什么假,但如果它能教的给一个轻量级模型学会——那就是最好的折中。 --- **参考文献** 1. Huang, Q., et al. (2026). *ReAlign: Generalizable Image Forgery Detection via Reasoning-Aligned Representation*. arXiv:2605.16080 [cs.CV]. https://arxiv.org/abs/2605.16080 (CVPR 2026) 2. Xu, Z., et al. (2026). *GenShield: Unified Detection and Artifact Correction for AI-Generated Images*. arXiv:2605.16122. 3. Ojha, U., et al. (2023). *Towards Universal Fake Image Detectors that Generalize Across Generative Models*. CVPR 2023. 4. Shao, R., et al. (2023). *FakeCatcher: Detection of Synthetic Portrait Videos using Biological Signals*. CVPR 2023. 5. Wang, S.-Y., et al. (2020). *CNN-Generated Images Are Surprisingly Easy to Spot... For Now*. CVPR 2020.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录