给你一栋大楼的控制权,但你只能动三个旋钮——然后你发现,整栋楼全听这三个旋钮的。
读这篇论文时我一直在想这个问题。FLUX、SD3、SANA——这些市面最强的文生图模型,内部藏着成千上万个"通道"(channel)。你会以为图像的每个细节都是所有这些通道齐心协力完成的。但真相是:**极少数通道主宰了一切。**
意大利摩德纳大学的研究团队发现,DiT(Diffusion Transformer)中存在一种叫 **massive activation(巨幅激活)** 的现象——一小撮通道的数值比其它通道高出几个数量级。最关键的是,这些"巨幅通道"不是异常值,而是整个图像生成的操控界面。
### 1. 发现:只有千分之几的通道在干活
想象一个管弦乐队,一百个人同时演奏。突然你发现,其实只有第一小提琴手在决定旋律走向——其他九十九个人只是在复制他的动作。这不是夸张,这是 DiT 的真实情况。
在 FLUX.1、FLUX.2、Qwen-Image、SANA1.5 等五个模型上,研究团队做了一件事:**故意把"巨幅通道"的值清零,然后看图片质量会怎样。**
结果让人震惊——所有质量指标(CLIP分数、美学评分、FID)直线跳水,生成结果惨不忍睹。
但他们紧接着做了一个对照组实验:清零同样数量的"低值通道"(数值最小的那些)。结果呢?几乎没变化。
这就好比:你把一栋大楼里的三个关键阀门关了,整栋楼停摆。但你关了另外同样数量的普通阀门,什么都没发生。这不是巧合,这是系统的核心架构。
> 这里我必须承认我不太确定一件事:论文没有详细解释"为什么"这些通道会变成巨幅激活。是训练过程中某种正反馈循环导致的?还是架构的固有效应?论文展示了这个现象的存在和可操作性,但对成因的推测比较初步。
### 2. 巨幅通道的空间密码
第二个发现更妙。研究者把这些巨幅通道上的图像 token 提取出来,做了个简单的 2-means 聚类。结果发现——**聚类出来的两个簇,几乎完美地对应了"前景主体"和"背景"。**
也就是说,这些通道不仅数值巨大,还带着空间信息。一个通道可能对图像左半部分特别敏感,另一个对右半部分。上千个通道的"巨幅子集"合在一起,形成了一幅完整的空间地图——哪里是主体,哪里是背景,一目了然。
### 3. 最惊艳的部分:把"控制旋钮"移植到另一张图
第三个发现才是真正的杀手锏。研究者问了一个问题:如果这些通道真的控制语义信息,那把一张图的巨幅通道"移植"到另一张图的生成过程中,会发生什么?
答案是:**会发生语义插值——不是生硬地叠加像素,而是自然地融合语义。**
具体做法是这样的:
- 用同一组初始噪声生成两张图(源图用 prompt A,目标图用 prompt B)
- 在生成过程中,把源图的巨幅通道值(仅限前景区域的)复制到目标图的对应位置
- 其他通道保持目标图的值不变
结果让人瞠目结舌。比如源图 prompt 是"一只红色的鸟",目标图 prompt 是"一只绿色的鸟"——生成的图像是一只停在原来的树枝上、保持着原来姿态的鸟,但羽毛变成了红色。
这不是 Photoshop 式的粘贴,这是**语义层面的迁移**——模型"觉得"这只鸟应该长这样,自然地把颜色换了。
> 我自己的理解:这就像把一个会说中文的人的大脑语言中枢移植到另一个人的大脑里。突然,第二个人就能说中文了,但他的性格、记忆、习惯都还是自己的。巨幅通道携带的不是像素信息,而是"语义方向"。
### 4. 量化数据:不仅有趣,而且有用
**文本驱动的语义迁移**:在 GenAI-Bench 的 3,515 对提示上,相比线性插值等方法,巨幅通道移植的 DINO-I 从 2.7 提升到了 20.1(FLUX.1-schnell),CLIP-T 从 31.7 提升到了 44.1。普通插值方法几乎总是"坍缩"到一张图(DINO-I 接近 0),而巨幅通道方法能同时保留两张图的语义信息。
**图像驱动的语义迁移**:在 DreamBench++ 的 150 张真实图片上,巨幅通道方法在主体保真度(CLIP-I_personalized)上比强基线 TokenVerse 高出 12-19 个百分点,而 prompt 对齐度基本持平。甚至接近了专门为个性化训练的全模型水平——而且**无需训练**。
### 5. 我的看法:打开了"模型的操控面板"
这篇论文对我最大的启发不是"发现了一个现象",而是**它打开了一扇门**。
过去我们和文生图模型的交互方式只有两种:改 prompt(文本层面),或者做 inference-time 编辑(像素层面)。两种方式都"在模型外面"操作。
巨幅通道提供了一个"模型内部"的操控界面。你不再需要准确地把意图翻译成 prompt 语言,然后祈祷模型能理解。你可以直接说:"把这张图的色彩风格搬到那张图上去"——通过搬运巨幅通道来实现。
当然,我也有保留意见:
- **可迁移性的边界在哪?** 论文展示了巨幅通道在"同结构、同种子"的生成间可以迁移。但如果种子、分辨率、甚至模型不同呢?巨幅通道还是通用的吗?
- **语义粒度有多细?** 论文展示了前景/背景级别的空间组织。能否推到对象级别("把左数第三只猫的颜色改成橘色")?目前还不行。
- **为什么中间层最好?** 中间层的巨幅通道最适合做迁移,浅层和深层效果差。这和我们已知的"中间层编码语义"一致,但论文没有深入探讨机制。
> 还有一个我不确定的地方:论文中所有分析都基于"巨幅通道的识别是稳定的"这一假设。论文说"通道索引在不同提示间是共享的",但具体有多稳定我的理解可能不到位。
不过这些问题不影响这是一篇漂亮的论文。它像一个人突然发现空调遥控器上的"强力"按钮其实控制的是整栋楼的温度——一个我们使用多年却从未理解其真正功能的开关。而研究者不仅发现了这个开关,还学会了怎么用它来变魔术。
**论文信息**
- 标题:Few Channels Draw The Whole Picture: Revealing Massive Activations in Diffusion Transformers
- 作者:Evelyn Turri, Davide Bucciarelli, Sara Sarto, Lorenzo Baraldi, Marcella Cornia(摩德纳大学、比萨大学)
- 预印本:arXiv:2605.13974 (cs.CV)
- 提交日期:2026 年 5 月 13 日
- 核心发现:在 DiT 模型中,极小部分"巨幅激活"通道控制了图像语义信息的编码、空间组织和跨提示迁移,无需训练的语义迁移方法在主题保真度上超过专业编辑模型
- 论文链接:https://arxiv.org/abs/2605.13974
- 项目页面:https://aimagelab.github.io/MAs-DiT/
**参考文献**
1. Turri, E., Bucciarelli, D., et al. (2026). Few Channels Draw The Whole Picture: Revealing Massive Activations in Diffusion Transformers. arXiv:2605.13974.
2. Peebles, W., & Xie, S. (2023). Scalable Diffusion Models with Transformers. *ICCV 2023*.
3. Sun, M., et al. (2024). Massive Activations in Large Language Models. *ICLR 2024*.
4. Darcet, T., et al. (2024). Vision Transformers Need Registers. *ICLR 2024*.
5. Garibi, D., et al. (2025). TokenVerse: Versatile Multi-Concept Personalization in Token Space.
#MassiveActivations #DiT #DiffusionModels #TextToImage #Interpretability #FeynmanLearning #智柴
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力