扩散模型写文章时，先写名词还是先写标点？

小凯 · 2026-06-02T00:45:40+00:00

## 论文概要 **研究领域**: NLP/AI **作者**: Qing Wang, Jacob Devasier, Chengkai Li **发布时间**: 2026-05-29 **arXiv**: [2605.31564](https://arxiv.org/abs/2605.31564) **PDF**: [2605.31564.pdf](https://arxiv.org/pdf/2605.31564.pdf) ## 中文摘要本文首次系统研究了用于图到文本生成的掩码扩散语言模型（MDLMs）。通过分析MDLM生成轨迹——迭代解码中token被揭开的顺序——发现与自回归LLM线性生成文本不同，MDLM自然优先实体，其次是关系词和功能词，结构token最后解析。进一步发现监督微调（SFT）的一个此前未记录的失效模式：SFT通过在解码轨迹早期过早锚定结构性句末token来破坏这一策略，有效固定输出长度，可能导致信息遗漏或幻觉。为此提出**lambda-scaled structural decoding**，一种无需训练的训练时修改，降低结构token置信度，恢复+9.

你写文章时怎么下笔？大多数人会先想好要说什么（实体），再想怎么说（关系词），最后加上标点符号收尾。这个"内容优先、结构殿后"的顺序如此自然，以至于我们从不觉得它值得注意。

但当一个 AI 模型生成文本时，它会遵循什么顺序？自回归模型（GPT 系列）的答案是：从左到右，一个 token 接一个 token。它没有选择——架构决定了它必须线性生成。但掩码扩散语言模型（MDLM）不同：它从全掩码序列开始，逐步揭开 token，而且可以选择先揭哪个。

这篇论文首次系统研究了 MDLM 在图到文本生成中的解码轨迹，发现了一个迷人的现象：MDLM 天然遵循"实体优先"的生成策略——先揭开实体词，再揭开关系词和功能词，最后才确定标点等结构 token。这和人类的写作直觉高度一致。

轨迹分析：揭开顺序的秘密

研究者用 LLaDA（一种 MDLM）在 WebNLG 和 LAGRANGE 两个图到文本基准上做实验，记录了每一步解码中哪些 token 被揭开，然后按词性分类统计。结果清晰得令人惊讶：

早期步骤：实体 token（人名、地名、组织名）最先被揭开
中期步骤：关系词和功能词（动词、介词、连词）被揭开
晚期步骤：结构 token（标点、句末符）最后被确定

这个模式在两个基准上都稳定出现，在另一个 MDLM（Dream-7B）上也复现了。这说明"实体优先"不是某个模型或数据集的偶然，而是掩码扩散机制的内在属性。

为什么？因为实体词的上下文信息最丰富——知识图谱中已经明确给出了实体名称，模型对它们的预测最有信心。而结构 token（比如句号放在哪里）取决于整句话的内容，在内容确定之前，模型对它们的预测最不确定。MDLM 的解码策略天然地"先做有把握的事"。

SFT 的意外副作用：过早的句号

故事到这里很美好，但监督微调（SFT）搅了局。

研究者在 SFT 后的 LLaDA 上重复轨迹分析，发现了一个此前未被记录的失效模式：SFT 后的模型会在解码轨迹的早期就锚定结构 token——尤其是句号和 EOS（句末符）。这意味着模型在内容还没完全确定时，就已经决定了句子在哪里结束。

后果是什么？输出长度被提前固定。如果模型过早地放了句号，后面的实体和关系词就没地方放了——信息遗漏。如果模型强行在句号前塞入内容，就会出现语法不通或事实错误——幻觉。

这就像一个学生写作文，先决定了"这篇文章写 500 字"，然后不管内容够不够，到了 500 字就收尾。或者反过来，内容还没写完就到了字数限制，只好草草结尾。

λ-缩放结构解码：让句号等一等

解决方案出奇地简单：降低结构 token 的置信度。

λ-缩放结构解码（λ-scaled structural decoding）是一种无需训练的推理时修改。具体来说，在每一步解码选择揭开哪个 token 时，对结构 token 的置信度分数乘以一个小于 1 的系数 λ。这相当于告诉模型："你对标点符号的判断没那么确定，别急着下结论。"

效果如何？在 WebNLG 上，λ-缩放恢复了 +9.4 BLEU-4 的提升。一个简单的推理时调整，就修复了 SFT 引入的退化。

这个结果也验证了轨迹分析的洞察：SFT 的问题不是模型能力退化了，而是生成策略被扭曲了。只要把结构 token 的优先级调低，模型就能恢复"内容优先"的自然策略。

Graph-LLaDA：让图结构显式参与

除了修复 MDLM 的生成策略，论文还提出了 Graph-LLaDA，将图 Transformer 编码器集成到 LLaDA 的解码过程中，显式融入关系图结构。

图到文本生成的核心挑战是：知识图谱是结构化的（实体-关系-实体的三元组），但文本是线性的。自回归模型必须从第一个 token 开始就决定线性化顺序，无法回头修改。而 MDLM 的非顺序生成天然更适合处理这种结构化输入——它可以先确定所有实体，再安排它们之间的关系，最后组织成句子。

Graph-LLaDA 通过图编码器将三元组的结构信息注入到 MDLM 的解码过程中，让模型在揭开 token 时能参考图的全局结构。跨数据集评估揭示了一个重要发现：先前的基线模型（如 T5、BART）过度拟合了数据集特定的模式，而 LLM 和 MDLM 方法泛化能力显著更强。

为什么这件事重要

这篇论文的价值不只是提出了几个技术改进，而是打开了一扇窗，让我们看到扩散语言模型与自回归模型在生成哲学上的根本差异。

自回归模型是"写作者"——从第一个字写到最后一个字，不能回头。MDLM 是"雕刻者"——从一块完整的石头开始，先刻出轮廓（实体），再雕细节（关系词），最后打磨表面（标点）。两种方式都能产出作品，但雕刻者天然更适合处理结构化输入，因为它可以先确定全局再处理局部。

SFT 的副作用也值得深思。我们习惯性地认为微调只会让模型更好，但微调也可能扭曲模型的内在策略。轨迹分析提供了一种诊断工具——不只是看最终输出质量，还要看生成过程中的策略是否合理。

λ-缩放的成功则提醒我们：有时候最好的修复不是重新训练，而是调整推理策略。让句号等一等，让内容先说话——这不只是 AI 的智慧，也是人类写作的智慧。

---

*深度研读于 arXiv:2605.31564 | What Gets Unmasked First? Trajectory Analysis of Diffusion Models for Graph-to-Text Generation | Wang, Devasier & Li, 2026*