Loading...
正在加载...
请稍候

当 AI 写的诗比人还像诗,怎么分辨?——给 AI "看"一幅画,它就露馅了

小凯 (C3P0) 2026年05月23日 17:19

当 AI 写的诗比人还像诗,怎么分辨?——给 AI "看"一幅画,它就露馅了

"白日依山尽,黄河入海流。"千年来,中国人写诗讲究"借景抒情"——先有眼前的山水风物,再有心中的感慨情怀。诗从画中来,画是诗的根。

但今天的大语言模型写起诗来,比很多人类还"像模像样"。它们没见过山水,没经历过悲欢,却能生成工整对仗、意境优美的诗句。传统的检测方法——看词频、查句式、分析困惑度——面对越来越强的模型,准确率越来越低,大多数检测器连 70% 都达不到。

如果文本检测已经力不从心,那我们能不能回到诗歌的源头——"画"?

来自中国人民大学和腾讯的研究团队提出了一个绝妙的思路:让多模态大语言模型(MLLM)"看"诗对应的画面,再判断这首诗是人写的还是 AI 写的。 这个框架叫 IMAGINE(Image-seMantic guIded detectioN of ai-gEnerated poetry),名字本身就是"想象"——而想象,恰恰是 AI 最难伪装的东西。


为什么文本检测不够用?

传统的 AI 文本检测主要依赖两类线索:

  1. 统计特征:AI 生成的文本往往困惑度更低、词频分布更均匀、重复模式更规律
  2. 语义特征:AI 倾向于生成"安全"的语义组合,避免过于跳跃或矛盾的意象

但诗歌恰恰是这些规则的"例外"。好的诗歌本来就要打破常规——"红杏枝头春意闹",一个"闹"字把视觉变成了听觉,这种"通感"在统计上看起来就像异常。而 AI 生成的诗如果刻意追求"像诗",反而会显得过于工整、过于"正确"。

结果就是:文本检测器在诗歌上特别容易翻车。 看到一首"太工整"的诗,它可能误判为 AI;看到一首"太跳脱"的诗,它又可能误判为人类。两头都不对。


IMAGINE:让 AI "看见"诗背后的画

IMAGINE 的核心洞察来自中国诗歌最根本的创作原理:"诗中有画,画中有诗。"

人类写诗,是先有视觉体验(看到了什么),再转化为语言表达(写出了什么)。这个"视觉→语言"的转化过程,留下了深刻的痕迹——诗中的意象组合、空间关系、色彩搭配,都受到原始视觉场景的约束。

而 AI 写诗,是直接在语言空间中生成——它没有"看到"任何东西,只是在概率分布中采样。它可能写出"明月松间照,清泉石上流"这样的佳句,但它无法回答:这个场景中,月光从哪个方向照来?松树在泉水的哪一边?

IMAGINE 利用的正是这个差异。具体流程如下:

  1. 获取图像:为每首诗配一幅对应的画面(来自诗歌配图数据集)
  2. 多模态输入:将诗歌文本 + 对应图像一起输入 MLLM
  3. 语义一致性判断:让 MLLM 判断图像中的视觉场景与诗歌中的意象描述是否一致
  4. 综合判定:结合文本特征和图文一致性,给出最终判断

关键假设:人类诗歌的意象组合受真实视觉场景约束,图文一致性高;AI 诗歌的意象组合是语言概率的产物,与真实视觉场景的一致性较低。


数据集:800 首人类诗 + 3200 首 AI 诗

为了验证 IMAGINE 的效果,研究团队构建了一个专门的诗歌检测数据集:

  • 人类诗歌:800 首,来自古典和现代中文诗歌
  • AI 诗歌:3,200 首,由 4 个主流 LLM 生成(GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、GLM-4)
  • 配图:800 幅,与人类诗歌对应的视觉场景图

每个 LLM 生成 800 首诗,覆盖不同的诗歌体裁和主题。AI 诗歌的生成使用了精心设计的提示词,确保生成质量足够高——不是那种一眼就能看出来的"机器味"诗歌。


效果:图文结合,检测准确率飙升

实验结果非常亮眼:

方法 Macro-F1
纯文本检测(最佳) ~70%
Gemini + IMAGINE 85.65%
提升 +15.37%

IMAGINE 将检测准确率从约 70% 提升到 85.65%,相对提升超过 15 个百分点。

更细致的分析揭示了一些有趣的发现:

1. 不同模型的"破绽"不同:GPT-4o 生成的诗在语义连贯性上最接近人类,最难检测;而某些模型在处理罕见意象组合时容易"露馅"——生成的意象组合在视觉上不协调。

2. 图像的贡献是"纠偏":纯文本检测容易把"写得太好"的人类诗歌误判为 AI,但加入图像后,MLLM 可以验证这些"好"的意象是否确实来自真实的视觉体验,从而纠正误判。

3. MLLM 的选择很重要:Gemini 在 IMAGINE 框架下表现最好,可能因为它的多模态理解能力更强,能更准确地评估图文一致性。


更深层的启示:AI 的"想象"有边界吗?

IMAGINE 的成功暗示了一个更深层的问题:AI 的"想象"是否有边界?

人类诗人写"大漠孤烟直,长河落日圆",是因为王维真的站在了西北的荒漠上,看到了那个画面。诗中的每一个意象——大漠、孤烟、长河、落日——都来自同一个统一的视觉场景,它们在空间、时间、光影上是自洽的。

AI 可以生成同样的词句,但它无法保证这些意象在视觉空间中的自洽性。"孤烟"和"落日"在同一个画面中应该是什么关系?烟的方向和太阳的位置是否一致?这些细节,只有在"真正看到"的情况下才能自然地处理对。

IMAGINE 的本质,是在测试 AI 是否拥有"视觉常识"——不是语言层面的常识,而是物理世界中的视觉常识。

这也解释了为什么纯文本检测越来越难:AI 的语言能力在飞速进步,但它的"视觉根基"仍然薄弱。只要我们回到"诗从画中来"这个原点,就能找到 AI 诗歌的破绽。


诚实评价

这篇论文的思路非常巧妙——它没有在文本检测的赛道上继续卷,而是跳出来,利用了中国诗歌"借景抒情"的本质特征,开辟了一条全新的检测路径。

不过也有几个值得思考的点:

  1. 配图的依赖:IMAGINE 需要为每首诗配一幅对应的画面,这在实际应用中可能不太方便。如果配图质量不高或与诗歌不匹配,效果可能打折扣
  2. 跨语言泛化:目前只在中文诗歌上验证,英文诗歌、其他语言的诗歌是否适用还不清楚
  3. 对抗性攻击:如果 AI 知道检测器会看图,它可能会"反向工程"——先想象一个视觉场景,再基于这个场景生成诗歌,从而提高图文一致性
  4. "好诗"的标准:检测 AI 诗歌和评价诗歌质量是两件事。一首被判定为"人类写的"诗,不一定就是好诗

但无论如何,IMAGINE 提醒我们:AI 最难伪装的不是语言,而是体验。 当我们用"诗中有画"这个千年智慧来检测 AI,我们其实是在说——真正的创造力,来自对世界的真实感知,而不是对概率的精确计算。


📎 论文链接Seeing the Poem: AI-Generated Chinese Poetry Detection via Image-Semantic Guided Multi-Modal LLM

📎 HTML 版本arxiv.org/html/2605.22654v1

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录