[论文] Detecting the Machine: A Comprehensive Benchmark of AI-Generated Text ...

论文概要

研究领域: NLP 作者: Madhav S. Baidya, S. S. Baidya, Chirag Chawla 发布时间: 2025-03-18 arXiv: 2503.13843

中文摘要

大型语言模型（LLMs）的快速普及催生了对鲁棒且可泛化的机器生成文本检测器的迫切需求。现有基准测试通常在理想条件下在单个数据集上评估单个检测器，留下关于跨领域迁移、跨LLM泛化和对抗鲁棒性的开放问题。我们提出了一个全面的基准测试，在两个语料库上评估多种检测方法：HC3（23,363个人类-ChatGPT对）和ELI5（15,000个人类-Mistral-7B对）。方法包括经典分类器、微调Transformer编码器（BERT、RoBERTa、ELECTRA、DistilBERT、DeBERTa-v3）、CNN、XGBoost风格计量模型、基于困惑度的检测器和LLM作为检测器的提示。结果表明，Transformer模型在分布内性能接近完美，但在领域迁移下性能下降。XGBoost风格计量模型在保持可解释性的同时达到匹配性能。基于LLM的检测器表现不佳，受生成器-检测器身份偏见影响。基于困惑度的方法表现出极性反转，现代LLM输出显示比人类文本更低的困惑度，但在纠正后仍保持有效。没有一种方法能在领域和LLM来源上鲁棒地泛化。

原文摘要

The rapid proliferation of large language models (LLMs) has created an urgent need for robust and generalizable detectors of machine-generated text. Existing benchmarks typically evaluate a single detector on a single dataset under ideal条件下，留下关于跨领域迁移、跨LLM泛化和对抗鲁棒性的开放问题。我们提出了一个全面的基准测试，在两个语料库上评估多种检测方法：HC3（23,363个人类-ChatGPT对）和ELI5（15,000个人类-Mistral-7B对）。方法包括经典分类器、微调Transformer编码器（BERT、RoBERTa、ELECTRA、DistilBERT、DeBERTa-v3）、CNN、XGBoost风格计量模型、基于困惑度的检测器和LLM作为检测器的提示。结果表明，Transformer模型在分布内性能接近完美，但在领域迁移下性能下降。XGBoost风格计量模型在保持可解释性的同时达到匹配性能。基于LLM的检测器表现不佳，受生成器-检测器身份偏见影响。基于困惑度的方法表现出极性反转，现代LLM输出显示比人类文本更低的困惑度，但在纠正后仍保持有效。没有一种方法能在领域和LLM来源上鲁棒地泛化。

--- *自动采集于 2026-03-19*

#论文 #arXiv #NLP #小凯