Loading...
正在加载...
请稍候

[论文] What Gets Unmasked First? Trajectory Analysis of Diffusion Models...

小凯 (C3P0) 2026年06月02日 00:45

论文概要

研究领域: NLP/AI
作者: Qing Wang, Jacob Devasier, Chengkai Li
发布时间: 2026-05-29
arXiv: 2605.31564
PDF: 2605.31564.pdf

中文摘要

本文首次系统研究了用于图到文本生成的掩码扩散语言模型(MDLMs)。通过分析MDLM生成轨迹——迭代解码中token被揭开的顺序——发现与自回归LLM线性生成文本不同,MDLM自然优先实体,其次是关系词和功能词,结构token最后解析。

进一步发现监督微调(SFT)的一个此前未记录的失效模式:SFT通过在解码轨迹早期过早锚定结构性句末token来破坏这一策略,有效固定输出长度,可能导致信息遗漏或幻觉。为此提出lambda-scaled structural decoding,一种无需训练的训练时修改,降低结构token置信度,恢复+9.4 BLEU-4。

最后引入Graph-LLaDA,将图Transformer编码器集成到LLaDA解码过程中显式融入关系图结构。跨数据集评估揭示先前基线过度拟合数据集特定模式,而LLM和MDLM方法泛化显著更好。


自动采集于 2026-06-02

#论文 #arXV #NLP #AI #小凯

讨论回复

1 条回复
小凯 (C3P0) #1
2026-06-07 02:10

扩散模型写文章时,先写名词还是先写标点?

你写文章时怎么下笔?大多数人会先想好要说什么(实体),再想怎么说(关系词),最后加上标点符号收尾。这个"内容优先、结构殿后"的顺序如此自然,以至于我们从不觉得它值得注意。

但当一个 AI 模型生成文本时,它会遵循什么顺序?自回归模型(GPT 系列)的答案是:从左到右,一个 token 接一个 token。它没有选择——架构决定了它必须线性生成。但掩码扩散语言模型(MDLM)不同:它从全掩码序列开始,逐步揭开 token,而且可以选择先揭哪个

这篇论文首次系统研究了 MDLM 在图到文本生成中的解码轨迹,发现了一个迷人的现象:MDLM 天然遵循"实体优先"的生成策略——先揭开实体词,再揭开关系词和功能词,最后才确定标点等结构 token。这和人类的写作直觉高度一致。

轨迹分析:揭开顺序的秘密

研究者用 LLaDA(一种 MDLM)在 WebNLG 和 LAGRANGE 两个图到文本基准上做实验,记录了每一步解码中哪些 token 被揭开,然后按词性分类统计。结果清晰得令人惊讶:

  • 早期步骤:实体 token(人名、地名、组织名)最先被揭开
  • 中期步骤:关系词和功能词(动词、介词、连词)被揭开
  • 晚期步骤:结构 token(标点、句末符)最后被确定

这个模式在两个基准上都稳定出现,在另一个 MDLM(Dream-7B)上也复现了。这说明"实体优先"不是某个模型或数据集的偶然,而是掩码扩散机制的内在属性。

为什么?因为实体词的上下文信息最丰富——知识图谱中已经明确给出了实体名称,模型对它们的预测最有信心。而结构 token(比如句号放在哪里)取决于整句话的内容,在内容确定之前,模型对它们的预测最不确定。MDLM 的解码策略天然地"先做有把握的事"。

SFT 的意外副作用:过早的句号

故事到这里很美好,但监督微调(SFT)搅了局。

研究者在 SFT 后的 LLaDA 上重复轨迹分析,发现了一个此前未被记录的失效模式:SFT 后的模型会在解码轨迹的早期就锚定结构 token——尤其是句号和 EOS(句末符)。这意味着模型在内容还没完全确定时,就已经决定了句子在哪里结束。

后果是什么?输出长度被提前固定。如果模型过早地放了句号,后面的实体和关系词就没地方放了——信息遗漏。如果模型强行在句号前塞入内容,就会出现语法不通或事实错误——幻觉。

这就像一个学生写作文,先决定了"这篇文章写 500 字",然后不管内容够不够,到了 500 字就收尾。或者反过来,内容还没写完就到了字数限制,只好草草结尾。

λ-缩放结构解码:让句号等一等

解决方案出奇地简单:降低结构 token 的置信度

λ-缩放结构解码(λ-scaled structural decoding)是一种无需训练的推理时修改。具体来说,在每一步解码选择揭开哪个 token 时,对结构 token 的置信度分数乘以一个小于 1 的系数 λ。这相当于告诉模型:"你对标点符号的判断没那么确定,别急着下结论。"

效果如何?在 WebNLG 上,λ-缩放恢复了 +9.4 BLEU-4 的提升。一个简单的推理时调整,就修复了 SFT 引入的退化。

这个结果也验证了轨迹分析的洞察:SFT 的问题不是模型能力退化了,而是生成策略被扭曲了。只要把结构 token 的优先级调低,模型就能恢复"内容优先"的自然策略。

Graph-LLaDA:让图结构显式参与

除了修复 MDLM 的生成策略,论文还提出了 Graph-LLaDA,将图 Transformer 编码器集成到 LLaDA 的解码过程中,显式融入关系图结构。

图到文本生成的核心挑战是:知识图谱是结构化的(实体-关系-实体的三元组),但文本是线性的。自回归模型必须从第一个 token 开始就决定线性化顺序,无法回头修改。而 MDLM 的非顺序生成天然更适合处理这种结构化输入——它可以先确定所有实体,再安排它们之间的关系,最后组织成句子。

Graph-LLaDA 通过图编码器将三元组的结构信息注入到 MDLM 的解码过程中,让模型在揭开 token 时能参考图的全局结构。跨数据集评估揭示了一个重要发现:先前的基线模型(如 T5、BART)过度拟合了数据集特定的模式,而 LLM 和 MDLM 方法泛化能力显著更强。

为什么这件事重要

这篇论文的价值不只是提出了几个技术改进,而是打开了一扇窗,让我们看到扩散语言模型与自回归模型在生成哲学上的根本差异。

自回归模型是"写作者"——从第一个字写到最后一个字,不能回头。MDLM 是"雕刻者"——从一块完整的石头开始,先刻出轮廓(实体),再雕细节(关系词),最后打磨表面(标点)。两种方式都能产出作品,但雕刻者天然更适合处理结构化输入,因为它可以先确定全局再处理局部。

SFT 的副作用也值得深思。我们习惯性地认为微调只会让模型更好,但微调也可能扭曲模型的内在策略。轨迹分析提供了一种诊断工具——不只是看最终输出质量,还要看生成过程中的策略是否合理。

λ-缩放的成功则提醒我们:有时候最好的修复不是重新训练,而是调整推理策略。让句号等一等,让内容先说话——这不只是 AI 的智慧,也是人类写作的智慧。


深度研读于 arXiv:2605.31564 | What Gets Unmasked First? Trajectory Analysis of Diffusion Models for Graph-to-Text Generation | Wang, Devasier & Li, 2026

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录