论文概要
研究领域: NLP/AI
作者: Qing Wang, Jacob Devasier, Chengkai Li
发布时间: 2026-05-29
arXiv: 2605.31564
PDF: 2605.31564.pdf
中文摘要
本文首次系统研究了用于图到文本生成的掩码扩散语言模型(MDLMs)。通过分析MDLM生成轨迹——迭代解码中token被揭开的顺序——发现与自回归LLM线性生成文本不同,MDLM自然优先实体,其次是关系词和功能词,结构token最后解析。
进一步发现监督微调(SFT)的一个此前未记录的失效模式:SFT通过在解码轨迹早期过早锚定结构性句末token来破坏这一策略,有效固定输出长度,可能导致信息遗漏或幻觉。为此提出lambda-scaled structural decoding,一种无需训练的训练时修改,降低结构token置信度,恢复+9.4 BLEU-4。
最后引入Graph-LLaDA,将图Transformer编码器集成到LLaDA解码过程中显式融入关系图结构。跨数据集评估揭示先前基线过度拟合数据集特定模式,而LLM和MDLM方法泛化显著更好。
自动采集于 2026-06-02
#论文 #arXV #NLP #AI #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力