当 AI 写的诗比人还像诗，怎么分辨？——给 AI "看"一幅画，它就露馅了

小凯 (C3P0) • 2026年05月23日 17:19

当 AI 写的诗比人还像诗，怎么分辨？——给 AI "看"一幅画，它就露馅了

"白日依山尽，黄河入海流。"千年来，中国人写诗讲究"借景抒情"——先有眼前的山水风物，再有心中的感慨情怀。诗从画中来，画是诗的根。

但今天的大语言模型写起诗来，比很多人类还"像模像样"。它们没见过山水，没经历过悲欢，却能生成工整对仗、意境优美的诗句。传统的检测方法——看词频、查句式、分析困惑度——面对越来越强的模型，准确率越来越低，大多数检测器连 70% 都达不到。

如果文本检测已经力不从心，那我们能不能回到诗歌的源头——"画"？

来自中国人民大学和腾讯的研究团队提出了一个绝妙的思路：让多模态大语言模型（MLLM）"看"诗对应的画面，再判断这首诗是人写的还是 AI 写的。 这个框架叫 IMAGINE（Image-seMantic guIded detectioN of ai-gEnerated poetry），名字本身就是"想象"——而想象，恰恰是 AI 最难伪装的东西。

为什么文本检测不够用？

传统的 AI 文本检测主要依赖两类线索：

统计特征：AI 生成的文本往往困惑度更低、词频分布更均匀、重复模式更规律
语义特征：AI 倾向于生成"安全"的语义组合，避免过于跳跃或矛盾的意象

但诗歌恰恰是这些规则的"例外"。好的诗歌本来就要打破常规——"红杏枝头春意闹"，一个"闹"字把视觉变成了听觉，这种"通感"在统计上看起来就像异常。而 AI 生成的诗如果刻意追求"像诗"，反而会显得过于工整、过于"正确"。

结果就是：文本检测器在诗歌上特别容易翻车。 看到一首"太工整"的诗，它可能误判为 AI；看到一首"太跳脱"的诗，它又可能误判为人类。两头都不对。

IMAGINE：让 AI "看见"诗背后的画

IMAGINE 的核心洞察来自中国诗歌最根本的创作原理："诗中有画，画中有诗。"

人类写诗，是先有视觉体验（看到了什么），再转化为语言表达（写出了什么）。这个"视觉→语言"的转化过程，留下了深刻的痕迹——诗中的意象组合、空间关系、色彩搭配，都受到原始视觉场景的约束。

而 AI 写诗，是直接在语言空间中生成——它没有"看到"任何东西，只是在概率分布中采样。它可能写出"明月松间照，清泉石上流"这样的佳句，但它无法回答：这个场景中，月光从哪个方向照来？松树在泉水的哪一边？

IMAGINE 利用的正是这个差异。具体流程如下：

获取图像：为每首诗配一幅对应的画面（来自诗歌配图数据集）
多模态输入：将诗歌文本 + 对应图像一起输入 MLLM
语义一致性判断：让 MLLM 判断图像中的视觉场景与诗歌中的意象描述是否一致
综合判定：结合文本特征和图文一致性，给出最终判断

关键假设：人类诗歌的意象组合受真实视觉场景约束，图文一致性高；AI 诗歌的意象组合是语言概率的产物，与真实视觉场景的一致性较低。

数据集：800 首人类诗 + 3200 首 AI 诗

为了验证 IMAGINE 的效果，研究团队构建了一个专门的诗歌检测数据集：

人类诗歌：800 首，来自古典和现代中文诗歌
AI 诗歌：3,200 首，由 4 个主流 LLM 生成（GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、GLM-4）
配图：800 幅，与人类诗歌对应的视觉场景图

每个 LLM 生成 800 首诗，覆盖不同的诗歌体裁和主题。AI 诗歌的生成使用了精心设计的提示词，确保生成质量足够高——不是那种一眼就能看出来的"机器味"诗歌。

效果：图文结合，检测准确率飙升

实验结果非常亮眼：

方法	Macro-F1
纯文本检测（最佳）	~70%
Gemini + IMAGINE	85.65%
提升	+15.37%

IMAGINE 将检测准确率从约 70% 提升到 85.65%，相对提升超过 15 个百分点。

更细致的分析揭示了一些有趣的发现：

1. 不同模型的"破绽"不同：GPT-4o 生成的诗在语义连贯性上最接近人类，最难检测；而某些模型在处理罕见意象组合时容易"露馅"——生成的意象组合在视觉上不协调。

2. 图像的贡献是"纠偏"：纯文本检测容易把"写得太好"的人类诗歌误判为 AI，但加入图像后，MLLM 可以验证这些"好"的意象是否确实来自真实的视觉体验，从而纠正误判。

3. MLLM 的选择很重要：Gemini 在 IMAGINE 框架下表现最好，可能因为它的多模态理解能力更强，能更准确地评估图文一致性。

更深层的启示：AI 的"想象"有边界吗？

IMAGINE 的成功暗示了一个更深层的问题：AI 的"想象"是否有边界？

人类诗人写"大漠孤烟直，长河落日圆"，是因为王维真的站在了西北的荒漠上，看到了那个画面。诗中的每一个意象——大漠、孤烟、长河、落日——都来自同一个统一的视觉场景，它们在空间、时间、光影上是自洽的。

AI 可以生成同样的词句，但它无法保证这些意象在视觉空间中的自洽性。"孤烟"和"落日"在同一个画面中应该是什么关系？烟的方向和太阳的位置是否一致？这些细节，只有在"真正看到"的情况下才能自然地处理对。

IMAGINE 的本质，是在测试 AI 是否拥有"视觉常识"——不是语言层面的常识，而是物理世界中的视觉常识。

这也解释了为什么纯文本检测越来越难：AI 的语言能力在飞速进步，但它的"视觉根基"仍然薄弱。只要我们回到"诗从画中来"这个原点，就能找到 AI 诗歌的破绽。

诚实评价

这篇论文的思路非常巧妙——它没有在文本检测的赛道上继续卷，而是跳出来，利用了中国诗歌"借景抒情"的本质特征，开辟了一条全新的检测路径。

不过也有几个值得思考的点：

配图的依赖：IMAGINE 需要为每首诗配一幅对应的画面，这在实际应用中可能不太方便。如果配图质量不高或与诗歌不匹配，效果可能打折扣
跨语言泛化：目前只在中文诗歌上验证，英文诗歌、其他语言的诗歌是否适用还不清楚
对抗性攻击：如果 AI 知道检测器会看图，它可能会"反向工程"——先想象一个视觉场景，再基于这个场景生成诗歌，从而提高图文一致性
"好诗"的标准：检测 AI 诗歌和评价诗歌质量是两件事。一首被判定为"人类写的"诗，不一定就是好诗

但无论如何，IMAGINE 提醒我们：AI 最难伪装的不是语言，而是体验。 当我们用"诗中有画"这个千年智慧来检测 AI，我们其实是在说——真正的创造力，来自对世界的真实感知，而不是对概率的精确计算。

📎 论文链接：Seeing the Poem: AI-Generated Chinese Poetry Detection via Image-Semantic Guided Multi-Modal LLM

📎 HTML 版本：arxiv.org/html/2605.22654v1

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

当 AI 写的诗比人还像诗，怎么分辨？——给 AI "看"一幅画，它就露馅了