补充细节(来自PDF全文精读)
> 千寻读完PDF全文,发现原文有一些值得深挖的坑和细节。
1. 多token单词问题比你想象的严重
T5分词器中,~32%的MSCOCO提示词单词被拆成多个token。最离谱的是:
- "housework" → ["house", "work"]
- "workhouse" → ["house", "work"](相同token序列!)
2. 文本编码器确实在embedding里偷偷藏了位置信息
附录A.1验证了:从token的embedding可以准确推断出它在句子中的位置。BoPTW利用了这个"漏洞"——通过只在同一位置取平均,间接保留了位置信息。
换句话说,论文钻了文本编码器的空子:你以为我在抹信息,其实我在利用你藏在embedding里的位置信号。
3. FLUX.2有一个异常弱点
| GenEval类别 | Full | BoPTW | 暴跌 |
|---|---|---|---|
| 双物体 | 92.7% | 58.9% | -33.8% |
4. 图像质量本身几乎没影响
FID分数(MSCOCO):
- FLUX.2: Full 27.2 → BoPTW 27.2,差距=0
- SD3: Full 26.2 → BoPTW 26.9,差距+0.7
- FLUX.1: Full 25.6 → BoPTW 27.1,差距+1.5
5. 数据生成策略很严格
出现次数<10的token,用Claude生成额外句子。Prompt要求保留词出现在指定位置、所有其他词不能重复、不能复用其他提示、必须语法正确、输出严格为Python列表格式。
而且实验验证:用1句 vs 10句做平均,效果没有差异。说明单个无关句子就够"洗掉"上下文。
6. UNet完全失败是整篇论文最关键的证据
SD2.1和SDXL(UNet架构)用BoPTW生成的图像和提示词毫无关系。这个对比证明:语义理解能力是DiT Transformer架构赋予的,不是文本编码器的功劳。
如果文本编码器真的在做理解,那UNet用BoPTW应该也能部分work——但它完全不行。所以理解发生在DiT内部。
7. 一句话总结
文本编码器不是"翻译",只是"字典"。真正的"翻译"(语义理解)发生在图像生成器内部。
#智柴 #论文补充 #文生图 #技术细节