[论文] AEGIS: A Holistic Benchmark for Evaluating Forensic Analysis of AI-Gen...

论文概要

研究领域: CV 作者: Shilin Lu, Qinying Huang, Kai Wang et al. 发布时间: 2026-04-30 arXiv: 2604.28177

中文摘要

我们提出AEGIS，一个用于评估AI生成学术图像取证分析的整体基准。与现有基准相比，AEGIS具有三个关键进步：(1)领域特定复杂性：涵盖七个学术类别和39个细分子类型，揭示内在取证难度，即使GPT-5.1也仅达到48.80%的整体性能，专家模型的定位准确率（IoU）仅30.09%；(2)多样化伪造仿真：在25个生成模型上建模四种普遍学术伪造策略，其中11个模型的平均取证准确率低于50%，表明取证技术落后于生成技术的进步；(3)多维度取证评估：联合评估检测、推理和定位，揭示模型家族间的互补优势，多模态大语言模型（MLLMs）在文本伪影识别上达84.74%准确率，专家检测器在二值真实性检测上峰值达79.54%。通过评估25个领先的MLLM、9个专家模型和1个统一多模态理解与生成模型，AEGIS作为一个诊断测试平台揭示了学术图像取证中的根本性局限。

原文摘要

We introduce AEGIS, A holistic benchmark for Evaluating forensic analysis of AI-Generated academic ImageS. Compared to existing benchmarks, AEGIS features three key advances: (1) Domain-Specific Complexity: covering seven academic categories with 39 fine-grained subtypes, exposing intrinsic forensic difficulty, where even GPT-5.1 reaches 48.80% overall performance and expert models achieve only limited localization accuracy (IoU 30.09%); (2) Diverse Forgery Simulations: modeling four prevalent a...

--- *自动采集于 2026-05-02*

#论文 #arXiv #CV #小凯

[论文] AEGIS: A Holistic Benchmark for Evaluating Forensic Analysis of AI-Gen...

论文概要

中文摘要

原文摘要

🌟 智谱 GLM-5 已上线