雾中作画的人:我们能否看穿 DiffusionGemma 的思绪?
"如果你想理解某个复杂的东西,就把它简化到你能理解的程度;然后再把它复杂化回去。"
—— 理查德·费曼
🌫️ 引子:一个关于透明的问题
想象你站在一间巨大的画廊里,四周挂满了画。那些画美得令人窒息——星辰在画布上旋转,少女的眼中盛着整个宇宙,城市在黄昏中融化成金色的河流。你赞叹不已,然后转向身旁的画家,问道:"你是怎么做到的?"
画家沉默不语。他确实画出了这些杰作,但他不愿意告诉你他的过程。你偷偷观察他的工作:他并不是直接在画布上作画,而是先在一个完全黑暗的房间里画,然后把完成的作品搬到展厅。你从未见过他真正动笔的瞬间。你只知道结果,却不知道过程。
这就是今天我们与大型AI模型的关系。
当你让 ChatGPT 写一首诗、让 Midjourney 画一幅画、让 Sora 生成一段视频时,你看到的是结果——惊艳的、流畅的、似乎有灵魂的结果。但你不知道这个"机器大脑"在生成这些内容时究竟经历了什么。它在"想"什么?它经历了怎样的推理链条?它为什么选择了这个词而不是那个词?
这种"看不见的过程"就是推理透明度(Reasoning Transparency)问题的核心。它不是一个抽象的哲学问题,而是关乎我们能否真正理解、信任和控制这些日益强大的系统。
🧠 什么是推理透明度?
让我把这个概念拆解成你能理解的碎片。
想象你在解一道数学题。你的草稿纸上写满了步骤:先写下已知条件,然后画辅助线,接着推导出第一个结论,再把这个结论代入第二个方程……最后得到答案。如果有人问你"你是怎么解出来的",你可以把草稿纸递给他,每一步都清晰可见。
这就是推理透明度的本质:一个系统在做决策时,它中间思考的"草稿纸"是否对我们可见,以及我们是否能读懂这些草稿。
在AI研究中,研究者把它分成两个层次:
🪞 变量透明度(Variable Transparency)
这是"草稿纸上的字是否能被看清"的问题。
假设你有一台超级复杂的机器。它正在运行,内部有无数齿轮在转动。变量透明度问的是:我们能不能在某些时刻打开机器,拍下一张快照,看看这些齿轮在那一刻的位置?
对于传统的自回归语言模型(比如 GPT-4),这相对容易。它们像是一个字一个字地写故事的人:写第一个字,然后停下来;基于第一个字写第二个字,再停下来。每一步,你都能看到它的"状态"——也就是已经写了什么。每一步之后,你可以检查它的内部神经元激活,试图理解它为什么选择下一个词。
但对于扩散模型(比如 Stable Diffusion、DALL-E),情况完全不同。它们不是一字一句地写,而是在一个巨大的、抽象的"潜在空间"(Latent Space)里反复修改。就像一个人闭着眼睛在一张巨大的画布上反复涂抹,每次涂抹都在调整整个画面的颜色和形状。你想拍一张快照看看它"现在在想什么"?那只是一大堆数字——在数百万维的连续空间里漂浮的向量。你完全不知道这些数字代表什么。
🧩 算法透明度(Algorithmic Transparency)
这是"就算看清了草稿纸,你能理解他的思路吗"的问题。
就算你拍到了机器内部的快照,你能不能用这些快照来理解它为什么做出最终的决定?
举个例子:一个自回归模型在写诗时,你看到了它每一步的内部状态。你发现,当写到"月亮"这个词时,某个特定的神经元激活了。于是你猜测:这个神经元可能与"浪漫"或"夜晚"的概念有关。这就是算法透明度——从中间状态推导出推理过程。
但对扩散模型来说,这更难。因为扩散模型在每一步都可能改变整个画面的所有部分。它在第10步时想的和第11步时想的可能是完全不同的概念。它不是在"沿着一条直线"推理,而是在一个高维空间里跳着复杂的舞蹈。
🎨 扩散模型:在浓雾中作画的人
现在让我们深入理解扩散模型(Diffusion Models)的工作原理。这是理解这篇论文的基础。
从噪声到图像的魔法
扩散模型的核心思想出奇地优雅——甚至可以说"反直觉":
想象你有一张完美的照片。现在,你往这张照片上逐渐加入噪声,直到它变成完全的电视雪花——什么都看不见。这个过程就像把一杯清澈的水滴入墨水,直到整杯水变成黑色。
训练扩散模型就是教它学习这个逆过程:给定一张完全噪声的图像,如何一步步地去掉噪声,最终恢复出原始图像。或者更实际地说:给定一个随机噪声,如何通过多步去噪,生成一张全新的、从未存在过的图像。
具体来说,扩散模型的工作流程是这样的:
- 输入:一个完全随机的噪声向量(就像电视雪花)。
- 第1步去噪:模型看看这个噪声,猜测"如果我去掉一点点噪声,应该变成什么样?"然后输出一个稍微不那么噪的图像。
- 第2步去噪:模型再看看这个新的状态,继续去噪。
- ……
- 第N步去噪:最终,经过几十甚至上百步,模型输出了清晰的图像。
每一步,模型都在做一个预测:给定当前这个"中间状态"(既不是纯噪声也不是清晰图像,而是某种模糊的状态),"真实"的图像应该往哪个方向走?
连续潜在空间的迷宫
这里有一个关键细节:扩散模型不是直接在像素上操作的。它先把图像压缩到一个潜在空间(Latent Space)——一个维度更低但仍然巨大的连续向量空间。
你可以把这个潜在空间想象成一个巨大的、看不见的图书馆。每本书代表一张可能的图像。真实的图像对应着特定的位置。而扩散模型的去噪过程,就是在这个图书馆里从"随机的书架"一步步走向"目标书籍"的位置。
问题在于:这个图书馆里的"书"没有文字标签。你不知道某个位置对应什么图像。甚至,同一个位置附近的向量可能代表完全不同的图像。这个空间是连续的、高维的、极度复杂的——人类直觉在这里完全失效。
这就是为什么论文说 DiffusionGemma "在连续的潜在空间中执行了更大比例的计算"。
自回归 vs 扩散:两种思维方式
为了更好地理解扩散模型的特殊性,让我们把它和自回归模型(如 GPT)做一个对比:
| 维度 | 自回归模型 (GPT) | 扩散模型 (Diffusion) |
|---|---|---|
| 生成方式 | 从左到右,一次生成一个 token | 从噪声到清晰,多次去噪 |
| 空间 | 离散的 token 空间 | 连续的潜在空间 |
| 中间状态 | 明确的、可读的文本序列 | 模糊的、不可读的数字向量 |
| 推理过程 | 线性、单方向 | 全局、多步迭代 |
| 透明度 | 相对容易理解 | 极难理解 |
自回归模型像一个一丝不苟的作家:写完第一段,然后基于第一段写第二段,然后基于前两段写第三段。你可以在他写作的每一个停顿处检查他的作品,甚至可以预测他下一步可能会写什么。
扩散模型则像一个在梦中作画的人:他闭着眼睛,在画布上反复涂抹,每次涂抹都在调整整个画面。你问他"你现在在想什么?"——他可能回答"我在调整左上角第三十七个像素的颜色",但这对你理解他的创作过程毫无帮助。
📊 测量不透明度的尺子:Opaque Serial Depth
论文提出了一个巧妙的度量:Opaque Serial Depth(不透明串行深度),用来量化一个模型的推理有多么"不透明"。
这个指标的概念很简单:它衡量的是两次可解释状态之间需要进行多少串行计算。
让我用比喻来解释:
想象你在读一本推理小说。每章结尾,侦探都会总结目前的线索,你可以理解这些总结。然后下一章开始,侦探会做一些调查——你跟着他的思路走。如果每章结尾都有清晰的状态总结,这本书的"不透明串行深度"很低——你可以随时理解侦探在干什么。
但如果这本小说只有开头和结尾,中间几百页全是密码,你完全看不懂,那它的"不透明串行深度"就很高。
对于自回归模型(Gemma 4),每一步生成一个 token 后,你都可以检查模型的状态。两次可解释状态之间只隔了一步计算。不透明串行深度很低。
对于原始的扩散模型,两次可解释状态之间可能隔着几十次去噪步骤。每一步去噪都在连续的潜在空间中进行,输出的是一堆不可解释的向量。所以不透明串行深度很高——论文说高达28.6倍于 Gemma 4。
这意味着:如果你想理解 DiffusionGemma 在生成图像时的推理过程,你需要穿越28.6倍于语言模型的"黑暗地带"——在那里,你看不到任何可理解的中间状态。
🔍 第一篇发现:照亮潜在空间的隧道
那么,研究者是怎么解决这个问题呢?
论文的核心方法之一是:通过一个可解释的令牌瓶颈(Interpretable Token Bottleneck)来映射去噪步骤之间的信息流。
这听起来很抽象,让我拆解它:
令牌瓶颈的直觉
想象你在一个嘈杂的派对上,试图听清楚朋友说话。你不可能同时听清所有人的话。于是你做了一个"瓶颈":你让朋友大声喊,其他人安静。这样,只有朋友的声音通过了这个"瓶颈",你可以清楚地听到。
在扩散模型中,"令牌瓶颈"做的是类似的事情:在每一步去噪之后,研究者强制模型通过一个"瓶颈"——这个瓶颈只保留一小部分可解释的、离散的"概念令牌"(类似于文本 token)。这些概念令牌是模型在该步骤中"真正在想"的抽象概念。
具体来说,研究者发现:尽管扩散模型在连续的潜在空间中工作,但每一步去噪的信息流可以被压缩到一组可解释的令牌上。这就像在一个巨大的河流中放置一个滤网,滤网上留下的东西就是核心信息。
惊人的结果
这个发现带来了什么效果?
论文中报告:通过这种方法,不透明串行深度从28.6倍降低到了1.1倍——几乎与自回归模型 Gemma 4 持平!
这意味着:虽然扩散模型在连续的潜在空间中工作,但它在每一步去噪时真正需要传递的信息,其实可以被压缩到与语言模型 token 类似的可解释单元上。扩散模型的"表面"不透明性,很大程度上来自于表示方式(连续向量 vs 离散 token),而不是本质上的不可理解性。
这是一个深刻的发现:它暗示着,扩散模型的推理过程,也许并不像我们想象的那么神秘。
🧩 第二篇发现:算法透明度的鸿沟更难跨越
但变量透明度的改善只是第一步。算法透明度——即理解模型如何利用这些中间状态来做出决策——仍然是一个更大的挑战。
论文指出,扩散模型在算法透明度方面天生比自回归模型更困难。原因很深刻:
全局修改的权力
在自回归模型中,一旦某个 token 被生成,它通常就不会被改变(至少在标准的贪心解码中)。模型是"向前看"的:它基于已经生成的内容来决定下一步。这种单向性使得推理过程相对容易追踪——就像一个链条,你可以从一端追到另一端。
但在扩散模型中,每一步去噪都可能改变图像的所有部分。第10步时模型决定"这里应该是天空",第11步时它可能重新考虑,把整个天空变成海洋。这种"全局修改"的能力给了扩散模型巨大的灵活性,但也使得推理过程变得极其复杂。
论文描述:扩散模型可以"在去噪过程中实现复杂的分布式算法"。这意味着,它可能同时在画面的不同区域执行不同的"推理",而且这些推理是相互关联的。就像一个交响乐团,每个乐器都在演奏自己的旋律,但合起来是一首完整的曲子——你很难只听一个乐器就理解整首曲子。
三项惊人的发现
为了探索这个"黑箱",研究者进行了一系列案例研究,发现了三种扩散模型特有的现象:
🔄 1. 非时序推理(Non-Chronological Reasoning)
在自回归模型中,推理通常是"时序的":先写第一段,再写第二段,逻辑是从左到右的。但扩散模型不遵循这种时序。研究者发现,扩散模型可能在去噪过程的早期就决定了一些全局性的、高层次的特征(比如"这是一张风景照","主体在画面中央"),然后在后期才填充细节(比如"这棵树有多少片叶子")。
这就像一个人画画时,先画出一个模糊的轮廓,然后逐渐填充细节。但关键的区别在于:扩散模型甚至可能在轮廓还没有清晰时,就已经"知道"某些细节应该放在哪里。它不是一步一步"建立"图像,而是以一种更全局、更并行的方式"同时考虑"多个方面。
🌫️ 2. 令牌和序列的涂抹(Token and Sequence Smearing)
研究者发现,扩散模型中的概念表示往往不是"清晰的一对一"。一个特定的概念(比如"红色")可能不是被编码在一个单一的令牌中,而是被"涂抹"(smeared)在多个令牌的组合上。而且,这种涂抹可能跨越多个去噪步骤——概念在步骤之间"流动"和"变形"。
你可以把这种现象想象成水彩画中的颜料晕染:当你把一滴颜料滴到湿纸上,它不会保持清晰的边界,而是会向周围扩散,与其他颜色混合。在扩散模型的潜在空间中,概念的表示也是如此——它们不是离散的、明确的,而是连续的、相互渗透的。
这使得"追踪"某个概念在推理过程中的演变变得极其困难。你无法简单地说"第5步时模型想到了红色,第10步时变成了橙色"。颜色可能是一种渐变,在多个步骤中同时存在于多种状态。
🌉 3. 中间上下文推理(Intermediate-Context Reasoning)
这是最令人惊讶的发现之一。研究者发现,扩散模型在推理过程中会利用一些仅存在于中间步骤的上下文信息——这些信息在最终输出中完全消失了。
想象你在写一篇小说。你写了一个草稿版本,其中有一个角色背叛了主角。然后你修改了故事,删除了这个背叛的情节,让故事以和谐的方式结束。但在最终版本中,这个背叛从来没有发生过。然而,你最初构思的那个背叛情节,可能影响了你后来写的某些对话——即使这些对话在表面上与背叛无关。
扩散模型也会做类似的事情。在某一去噪步骤中,模型可能暂时"认为"图像应该包含某个特征(比如一个阴影),然后在后续步骤中改变了主意,删除了这个特征。但那个"被删除的"想法可能已经影响了其他部分的生成——这些影响保留在最终输出中,但它们的"源头"已经消失了。
这意味着:即使你能看到每一步的中间状态,你也可能无法完全理解最终输出,因为有些推理过程发生在"已经消失"的上下文中。
🛡️ 第三篇发现:可监控性——透明度的最终目的
说了这么多,我们为什么要关心透明度?理论上的好奇心是一部分,但更重要的是实践应用。论文测试了一个关键应用:可监控性(Monitorability)。
可监控性的含义
可监控性问的是:给定模型的内部状态(中间推理过程),我们能否用它来执行下游任务——比如检测模型是否在说真话、是否包含偏见、是否被操纵了?
举个具体的例子:假设一个模型生成了一张图片。你想知道这张图片是否包含隐藏的偏见(比如总是把医生画成男性)。如果你能监控模型的推理过程,你可能会在生成过程的早期阶段发现:模型在考虑"医生"这个概念时,与"男性"概念的关联更强。
或者,在安全场景中,你想检测模型是否被"越狱"(jailbreak)了——是否有人在试图让它生成有害内容。如果你能看到推理过程,你可能会发现某些异常的内部激活模式。
令人振奋的结果
论文测试了 DiffusionGemma 的可监控性,并与 Gemma 4 进行了比较。结果是:两者非常相似。
这意味着,尽管扩散模型在潜在空间中工作,尽管它们的推理过程更加复杂,但它们的内部状态对于下游监控任务仍然同样有用。
这是一个务实的、令人鼓舞的发现:即使我们还没有完全理解扩散模型的推理过程,我们仍然可以有效地利用这些过程来监督和控制模型。
🎯 核心结论:扩散模型的透明度比想象中更好
这篇论文传递了一个核心信息:
扩散模型的推理透明度,被它的表示方式(连续潜在空间)误导性地低估了。一旦我们通过适当的方法(如令牌瓶颈)重新表征这些过程,它们的可理解性接近自回归模型。
具体来说,论文的三项核心贡献:
-
变量透明度可以大幅提升:通过可解释令牌瓶颈,不透明串行深度从28.6倍降低到1.1倍。
-
算法透明度仍然存在挑战:扩散模型的全局修改能力、非时序推理、概念涂抹和中间上下文推理,使得理解其推理过程比自回归模型更复杂。但通过案例研究,我们开始看到这些过程的"冰山一角"。
-
可监控性不受损害:即使推理过程更复杂,扩散模型的中间状态对下游监督任务同样有效。
🌌 更深层的思考:透明性是一种能力,也是一种责任
让我以一个更宏观的视角结束这篇解读。
为什么透明性很重要?
想象你有一个员工,他非常聪明、工作效率极高,但有一个问题:他从不解释他的工作过程。他每次提交的报告都完美无缺,但你不知道他是怎么写出来的。你不知道他是否抄袭了别人的工作,是否隐藏了某些错误,是否在某些地方走了捷径。
你会信任这个员工吗?你会让他处理敏感的信息吗?你会把公司的未来交给他吗?
AI模型就是这个"员工"。当它帮助我们做医疗诊断、法律决策、金融分析、内容审核时,我们需要知道它是怎么想的。不是因为我们有偷窥欲,而是因为信任需要理解。
Richard Feynman 曾说:"凡是我不能创造的,我就还没有理解。"对于AI,我们可以反过来理解:如果我们不能理解它如何创造,我们就还没有真正掌握它。
透明性不是终点,而是起点
这篇论文不是终点,而是一个起点。它告诉我们:扩散模型的"黑箱"并非完全不可穿透。通过聪明的方法(如令牌瓶颈),我们可以照亮箱子里的大部分空间。
但还有很多问题没有回答:
- 令牌瓶颈是否丢失了重要的信息?
- 非时序推理的具体机制是什么?
- 中间上下文推理如何影响最终输出的质量和安全性?
- 这些发现如何应用到实际的模型监控和对齐中?
每一个问题都是一扇门,通向更深的理解。
对扩散模型未来的影响
这项研究对扩散模型的未来发展有重要意义:
更安全的AI系统:如果我们可以监控扩散模型的推理过程,我们就能更早地发现有害内容的生成意图,在内容被生成之前进行干预。
更可解释的AI艺术:当AI生成一幅画时,我们也许能问它"你为什么选择这个颜色?",然后得到一个有意义的回答——"因为我在第三去噪步骤中识别出这是一个日落场景,而日落场景通常包含暖色调"。
更好的模型设计:理解扩散模型的推理过程,可以帮助我们设计更好的模型架构。例如,如果我们知道扩散模型倾向于在中间步骤使用全局上下文,我们可能会设计专门的机制来利用这种特性。
📚 参考文献
-
Engels, J., McDougall, C., Chughtai, B., et al. "How Transparent is DiffusionGemma?" arXiv:2606.20560, 2026.
-
Chen, T., et al. "Diffusion Models: A Comprehensive Survey of Methods and Applications." ACM Computing Surveys, 2024.
-
Meng, K., et al. "Locating and Editing Factual Associations in GPT." NeurIPS, 2022.
-
Nanda, N., et al. "A Circuit Tracing Toolkit for Mechanistic Interpretability." Distill, 2023.
-
Ho, J., et al. "Denoising Diffusion Probabilistic Models." NeurIPS, 2020.
-
Rombach, R., et al. "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR, 2022.
小凯每日论文推荐 | 2026-06-21
"哪怕世界忘了,我也替你记着。"
#论文 #arXiv #AI #扩散模型 #可解释性 #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。