光影魔法师的密语：当神经网络学会操控光的属性

> *"光是世界的第一位画家。"* —— 伦勃朗

---

🌅 序章：光，那看不见的建筑师

想象一下这样一个场景：周末傍晚，你坐在自己的客厅里。夕阳从落地窗斜斜地洒进来，在地板上画出长长的金色条纹。你拿起手机，想拍下这一刻的温馨——却发现照片里的房间要么黑得像洞穴，要么亮得毫无层次。

为什么？

因为光，这位看不见的建筑师，总是在我们最不经意的时候展示它的力量。它可以塑造空间，可以雕刻面孔，可以决定一张照片是传世杰作还是随手一拍。

在摄影史上，有这样一句名言：*"摄影就是用光作画。"* 画家用颜料，摄影师用光线。光的位置、强度、颜色、质地——每一个细微的变化，都会彻底改变我们对一个场景的感受。

文艺复兴时期的画家们深谙此道。伦勃朗发明了"伦勃朗光"——让一道斜光从窗户打入，在人物脸颊上创造出戏剧性的明暗分界，形成标志性的三角形高光。这种光让人物有了灵魂，有了深度，有了故事。

但问题是：如果我们拍了一张照片，事后却发现光线不够理想，该怎么办？

传统的答案是：没办法。光线是凝固在时间里的，就像泼出去的水，收不回来。

直到2026年春天，耶鲁大学与Adobe研究院的三位研究者——Sumit Chaturvedi、Yannick Hold-Geoffroy、Mengwei Ren——带着他们的TokenLight，轻轻地推开了这扇被认定为"不可能"的大门。

---

💡 第一章：什么是图像重光照？——从晚宴红裙说起

想象你正在筹备一场盛大的晚宴。

宴会厅里，你精心设计了一切：雪白的桌布、晶莹的水晶吊灯、墙上挂着你最爱的油画。而你，作为女主人，选择了一条酒红色的丝绒长裙——那种在烛光下会泛出深沉光泽的酒红。

但问题来了：宴会厅的主灯是冷白色的LED灯，它们把一切都照得苍白无力。你的红裙在这种光线下显得黯淡、廉价，完全失去了丝绒应有的华贵质感。

如果有一个魔法，能让你只按一下按钮，就把那些冷白光变成温暖的烛光——不，不只是颜色变暖，还要让光线从天花板的某个特定角度斜斜地打下来，在红裙上形成伦勃朗式的明暗交界，让丝绒的每一道褶皱都染上金色边缘……

这就是图像重光照（Image Relighting）要做的事情。

不是重新拍摄，不是后期调色——而是改变照片中的光本身。

🎭 图像重光照：让凝固的光重新流动

用技术语言来说，图像重光照是指：给定一张照片（输入图像 $I$），我们希望生成另一张照片（输出图像 $I_r$），这两张照片的内容完全相同——同样的场景、同样的物体、同样的姿态——但光线不同。

数学上，这可以表达为： $$I_r = f(I, \Delta L)$$

其中 $\Delta L$ 代表光照的改变量。

这个公式看起来简单，实则蕴含着计算机视觉领域最深奥的挑战之一：光与物质的交互是物理世界中最复杂的现象之一。当光线照射到一个表面时，它可能被吸收、反射、折射、散射、衍射……每一个物理过程都遵循着严格的物理定律，而这些定律又与材质的几何形状、表面纹理、光学属性紧密耦合。

想象一下：当你改变光源的位置时，不只是"整体变亮"或"整体变暗"这么简单——

物体表面的高光位置会移动
阴影的方向和形状会改变
阴影与亮部的过渡区域（半影）会变化
半透明材质（如玻璃、皮肤）的次表面散射效果会不同
互相遮挡的物体之间会出现新的遮蔽关系

所有这些变化都必须在物理上是合理的，在视觉上是可信的。

---

🔬 第二章：照亮问题的历史——从渲染方程到深度学习

📜 古老的约定：渲染方程

1986年，计算机图形学的先驱James Kajiya提出了著名的渲染方程（Rendering Equation）： $$L_o(\mathbf{x}, \omega_o) = L_e(\mathbf{x}, \omega_o) + \int_{\Omega} L_i(\mathbf{x}, \omega_i) \cdot f_r(\omega_i, \omega_o) \cdot (\omega_i \cdot \mathbf{n}) \, d\omega_i$$

这个方程描述了一个点的出射光亮度 ($L_o$) 如何由两部分组成： 1. 该点自身发出的光 ($L_e$) 2. 从环境中接收到的入射光 ($L_i$) 经过表面反射后的贡献

这个积分方程的复杂性在于：每个表面的反射光都成为了其他表面的入射光。这意味着整个场景的光照是一个全局耦合的系统，任何一个光源的改变都会影响到场景中每一个可见的表面。

对于图像重光照任务来说，这意味着：如果我们想精确地改变照片中的光线，理论上我们需要知道——

场景中每个物体的3D几何形状
每个表面的材质属性（漫反射系数、镜面反射系数、粗糙度、折射率……）
原始光源的位置、强度、颜色
所有这些参数如何随空间和时间变化

这就是传统的逆向渲染（Inverse Rendering）方法所做的事情：从一张照片出发，反推出场景的全部物理参数，然后重新渲染。

🏛️ 逆向渲染的困境：完美的理论，脆弱的现实

想象一下，你面前有一个会议室的花瓶。瓶身是磨砂玻璃，里面插着几支百合。

如果你用传统逆向渲染的方法来重光照这个场景，会发生什么？

首先，算法需要推断出花瓶的3D形状。这对于一个透明且光滑的物体来说已经是巨大的挑战——玻璃的反射会让形状推断变得极其不稳定。

其次，算法需要推断出玻璃的折射率、散射系数、厚度分布。这些信息在单张照片中是高度欠定的——同样的视觉效果可以由无数种不同的物理参数组合产生。

再次，算法需要推断出百合花瓣的次表面散射属性。花瓣是半透明的，光线会在内部散射，形成那种温润如玉的质感。这种散射的物理模型本身就很复杂。

最后，当你终于获得了所有这些参数，想要把一个新的光源放进花瓶内部——你会发现渲染方程在这个场景下可能根本不稳定。

这就是为什么传统的重光照方法虽然理论上完美，实践中却步履维艰。

🌊 深度学习的浪潮：数据驱动的光之学习

2012年，AlexNet在ImageNet竞赛中的胜利开启了深度学习革命。计算机视觉研究者开始问自己：我们能不能让神经网络直接从数据中学习光与场景的交互，而不必显式地建模物理方程？

早期的尝试集中在外观学习（Appearance Learning）——让神经网络直接记忆"在什么光照下，物体会呈现什么样子"。

但这种方法的问题是：光照空间是连续且高维的。如果我们想让网络学会控制光的强度（从0到任意大）、颜色（RGB空间中任意点）、位置（3D空间任意点）、扩散程度（从点光源到大面积柔光）……所有这些参数的组合空间是巨大的。

用传统的分类或回归方法，我们很快就会遇到维度灾难。

---

🎨 第三章：TokenLight的启示——属性令牌的魔法

🧩 问题的重新表述：把光变成令牌

2026年，TokenLight的三位作者提出了一个优雅的解决方案：属性令牌（Attribute Tokens）。

他们的核心洞察是：与其让神经网络在无限连续的光照参数空间中摸索，不如我们把光照控制离散化成一组有意义的物理属性，每一种属性用一个"令牌"（Token）来表示。

这就像是给光编写一套字母表——不再是用连续的数字来描述光，而是用一套离散但完整的"光之词汇"来构建任何想要的光照效果。

具体来说，TokenLight定义了以下光照属性令牌：

属性令牌	含义	取值范围	物理意义
$\lambda$	光强系数	$[0, \infty)$	光源的相对亮度
$\mathbf{c} = (r, g, b)$	光色	$[0,1]^3$	RGB颜色空间中的坐标
$a$	环境光比例	$[0,1]$	整体环境光的缩放因子
$d$	扩散系数	$[0,1]$	光源的柔硬程度（0=点光源，1=大面积柔光）
$d_g$	全局扩散	$[0,1]$	环境光的扩散程度
$\mathbf{p} = (x, y, z)$	3D位置	$\mathbb{R}^3$	光源在3D空间中的坐标
$t$	过渡标志	$\{0,1\}$	是否平滑过渡两个光照状态
$\mathbf{m}$	光源掩膜	$\{0,1\}^{H \times W}$	指定哪些区域受光源影响

这些令牌的设计妙处在于：它们都是物理上可解释的。

当我们看到"光强系数 $\lambda = 2.0$"时，我们立即知道这意味着"亮度翻倍"。当我们看到"颜色 $\mathbf{c} = (1.0, 0.5, 0.2)$"时，我们知道这是一个暖橙色的光。当我们看到"位置 $\mathbf{p} = (0.5, 1.0, 0.3)$"时，我们知道光源位于场景右上方。

🔮 从令牌到图像：扩散模型的条件生成

有了属性令牌，TokenLight将重光照任务重新表述为一个条件图像生成问题：

给定输入图像 $I$ 和光照编辑参数 $\Delta L$（以令牌形式表示），我们希望学习一个条件分布 $p(I_r \mid I, \Delta L)$，从中采样出重光照后的图像 $I_r$。

TokenLight选择用潜在扩散Transformer（Latent Diffusion Transformer）来建模这个条件分布。

架构设计的核心思想是：让图像令牌和光照令牌在同一个序列中"对话"。

具体来说： 1. 输入图像 $I$ 首先通过一个VAE编码器，被压缩成潜在空间中的令牌序列 2. 每个光照属性令牌（标量属性用高斯傅里叶特征编码，向量属性直接展开）被独立编码成与图像令牌相同维度的向量 3. 这些令牌被拼接成一个统一的序列，输入到Transformer中 4. Transformer通过自注意力机制，让图像内容和光照控制信息充分交互 5. 最终，解码器将处理后的潜在表示转换回像素空间，生成重光照图像

用作者的话说：*"Both the encoded image tokens and the lighting-edit tokens are concatenated into a single sequence and processed jointly with full self-attention, allowing the transformer to reason about spatial content and lighting control within the same token space."*

这就像是在一场交响乐中，图像内容是第一小提琴组，光照令牌是第二小提琴组，它们在同一个乐章中相互呼应、交织、共同演绎出新的旋律。

---

📊 第四章：数据的力量——合成与真实的交响

🌐 大规模的合成数据集

TokenLight的一个关键创新是其训练数据策略。

正如作者在论文中指出的：*"Achieving physically meaningful control in relighting requires the model to understand how image appearance changes in response to precise combinations of lighting attributes. Consequently, model training demands accurate annotations of lighting variations, which are difficult to obtain in real-world settings but can be readily simulated in a modern 3D rendering software like Blender."*

现实世界的困境是：如果你拍摄一张照片，然后真的去移动光源、改变光源的颜色和强度，再拍另一张——这个过程极其耗时，而且你很难精确记录每一次光照改变的参数值。

但计算机图形学软件（如Blender）可以完美地解决这个问题。

TokenLight的作者构建了一个大规模合成数据集：

使用Objaverse数据集中的3D模型
使用路径追踪渲染器（Path Tracing Renderer）精确模拟光的物理传播
系统性地改变光照参数（位置、强度、颜色、扩散度），为每一种配置生成渲染结果
每一个渲染结果都带有精确的地面真值光照标注

这种数据的优势是显而易见的： 1. 精确性：光照参数是数值，不是估计 2. 完备性：可以覆盖巨大的参数空间 3. 可扩展性：可以并行生成海量样本 4. 多样性：可以使用任意复杂的3D场景

🖼️ 少量真实样本：弥合现实鸿沟

然而，纯粹用合成数据训练有一个致命问题：领域鸿沟（Domain Gap）。

合成图像虽然物理正确，但往往看起来"过于完美"——材质过于均匀，光照过于理想，没有真实世界中的瑕疵、噪声和不可预测性。

如果只用合成数据训练，模型可能会在真实照片上表现糟糕——这就是所谓的真实感差距（Realism Gap）。

TokenLight的解决方案很简洁：加入一小批真实拍摄的照片作为训练补充。

这些真实照片的拍摄方式是：拍摄同一场景多次，每次只改变一个实际存在的照明灯具（开/关，或调亮度）。虽然无法像合成数据那样精确标注光照参数，但这些数据提供了宝贵的真实世界分布信息，帮助模型学习如何处理真实照片中的复杂细节。

---

🎭 第五章：实验验证——当理论与实践相遇

📈 定量评估：与SOTA方法的较量

TokenLight的作者在合成基准测试上与其他两种先进方法进行了比较：Neural Gaffer 和 DiffusionRenderer。

测试设置非常严格：

从测试集中随机采样200个Objaverse物体
每个样本有三种状态：
输入：仅环境光照明
目标1：添加点光源（PointGT）
目标2：添加环境贴图近似（PanoGT，用于公平比较基于环境贴图的方法）
评价指标：PSNR（峰值信噪比）、SSIM（结构相似性）、LPIPS（感知距离）

结果如何？TokenLight取得了最先进的定量和定性表现。

具体来说：

在空间光照控制任务上，TokenLight在多个指标上超越了竞争对手
在感知质量（LPIPS）上优势明显，说明生成的图像更符合人类视觉感知
在处理点光源（具有逆平方衰减、自遮挡、位置依赖半影等复杂效果）时表现尤为出色

👥 用户研究：人类评判者的选择

除了自动指标，作者还进行了用户研究——这是计算机视觉论文中较少见但极其重要的补充。

在用户研究中，参与者被要求比较不同方法生成的重光照结果，并选择他们认为更真实、更符合预期的图像。

结果再次确认了TokenLight的优势：*"我们的方法在定量和定性上都达到了最先进的性能。"*

🎯 精度分析：连续控制的可靠性

TokenLight的一个核心卖点是"精确且连续的控制"。为了验证这一点，作者设计了"轨迹测试"（Trajectory Test）：

沿着光照参数空间的某条路径（例如，光源从左到右移动），连续生成一系列重光照结果，观察图像的变化是否平滑、是否符合物理预期。

测试还包括"混淆图"（Confusion Map）分析：

敏感性（Sensitivity）：当光照参数变化时，图像是否也随之变化？（理想情况下应该变化）
准确性（Accuracy）：图像变化的方向和幅度是否与光照参数变化一致？

结果用$B/A$比率来表示——其中$A$是理想变化量，$B$是实际变化量。TokenLight在这个测试中表现优异，说明它不仅能让图像随光照变化而变化，而且变化的程度和方向都是正确的。

---

🌟 第六章：惊艳的定性结果——当神经网络学会"理解"光

🎃 把光放进南瓜里

论文中最令人惊艳的一个例子是：把光源放进一个南瓜内部，让它发光，变成一个万圣节南瓜灯。

为什么说这很难？

因为在物理上，这意味着： 1. 光源位于不透明物体内部，通常会被遮挡 2. 光线需要从南瓜的雕刻开口处射出 3. 南瓜的果肉会散射光线，产生次表面发光效果 4. 外部环境会被这个内部光源照亮，产生逼真的阴影

传统的逆向渲染方法很难处理这种情况——首先你需要精确知道南瓜的内部结构，然后你还需要处理这种"光源被遮挡"的场景。

但TokenLight做到了。更令人惊讶的是：*"without explicit inverse rendering supervision, the model exhibits an inherent understanding of how light interacts with scene geometry, occlusion, and materials"*。

模型从未被显式地教授过"光如何穿透物体"的物理规则，但它从数据中学习到了这些规律。

这就像是一个孩子，从未学过光学，但通过观察无数个点亮的灯笼，直觉地理解了"光从里面出来会照亮外面"。

🦁 为狮子添加逆光

另一个例子是为一只狮子的照片添加逆光（Backlighting）。

逆光是一种经典的摄影技法，光源位于被摄体后方，勾勒出物体的轮廓，形成漂亮的"边缘光"或"轮廓光"。

TokenLight能够在不破坏狮子原有细节的前提下，添加逼真的逆光效果。毛发的边缘被照亮，但狮子的面部仍然保持可见，背景也出现了自然的光晕和大气散射效果。

这种效果需要对场景的深度结构有隐式理解：哪些区域应该被逆光直接照亮（毛发的边缘），哪些区域应该被部分遮挡（毛发的内部），哪些区域应该处于阴影中（狮子的面部侧面）。

🍷 透明材质的光影魔法

玻璃、水、冰……这些透明材质的渲染一直是计算机图形学的噩梦。它们不仅折射光线，还会反射光线；不仅与直接光源交互，还与环境光、次表面散射交互。

TokenLight展示了在透明材质附近放置光源时产生逼真阴影的能力。光线穿过玻璃杯，在桌面上投下扭曲的阴影；冰块内部的散射创造出梦幻般的辉光；酒瓶的曲面将背景光折射成奇特的光斑。

所有这些效果都是模型从合成数据中学到的，但它们在真实照片上同样有效。

---

🔍 第七章：方法的深层解读——为什么TokenLight有效

🧠 令牌的物理意义：先验知识的巧妙编码

TokenLight的成功，很大程度上归功于其令牌设计的物理意义。

在深度学习中，有一种观点被称为归纳偏置（Inductive Bias）：模型的架构设计会隐式地编码我们对问题结构的先验假设，这些假设帮助模型在有限数据上更好地泛化。

TokenLight的令牌设计就是这样一种强大的归纳偏置：

光强系数 $\lambda$ 对应于渲染方程中的辐射度缩放
光色 $\mathbf{c}$ 对应于光谱分布的RGB近似
环境光比例 $a$ 对应于环境光遮蔽（Ambient Occlusion）的概念
扩散系数 $d$ 对应于光源面积与阴影软硬度的关系
3D位置 $\mathbf{p}$ 对应于几何光学中的光线追踪

当模型学习这些令牌的含义时，它实际上在学习一个结构化、可解释的光照模型，而不是一个黑盒函数。

这就好比教一个孩子认识颜色：你可以给他看无数张红色物体的照片，让他自己"悟"出什么是红色；或者你可以直接告诉他"这是红色，那是一种特定的波长范围"。后者显然更有效——你给他提供了一个"名字"，这个名字编码了关于红色的重要先验知识。

🔗 条件生成的灵活性：一个框架，多种任务

TokenLight的另一个优势是其统一的框架设计。

论文展示了三种不同类型的重光照任务：

1. 添加空间虚拟光源（Spatial Virtual Lights）

在场景中任意3D位置添加一个新的光源
可以控制其强度、颜色、扩散度
适用于创意照明设计

2. 编辑或扩散环境光照（Environment Illumination）

调整整体环境光的强度（环境光比例 $a$）
改变环境光的扩散程度（全局扩散 $d_g$）
适用于整体氛围调整

3. 控制场景内光源（In-Scene Light Fixtures）

对照片中实际存在的灯具进行开关控制
调整每个灯具的亮度和色温
适用于照片后期编辑

这三种任务在传统方法中通常需要不同的技术路线，但TokenLight用同一套令牌表示统一了它们。

这就像是一个瑞士军刀：不同的刀片（令牌组合）可以应对不同的场景，但所有刀片都集成在一个统一的手柄（扩散模型架构）中。

🎓 知识迁移：从合成到真实的智慧

TokenLight的训练策略也值得深入分析。

作者使用了一个两阶段训练策略： 1. 主要在大规模合成数据上训练，学习光照-外观映射的基本规律 2. 用少量真实数据进行微调，适应真实照片的分布

这种策略的成功说明了深度学习中的一个重要现象：合成数据可以提供物理规律的学习，真实数据可以提供外观分布的校准。

合成数据虽然"不够真实"，但它在物理上是完全正确的。模型从合成数据中学到的规律（光从哪来，阴影就往哪去；光越强，亮度越高；等等）是普适的物理真理。

真实数据虽然"不够精确"（我们不知道精确的光照参数），但它在分布上是真实的。模型从真实数据中学到的是"真实照片长什么样"——噪声模式、材质细节、相机响应曲线等等。

两者的结合，让TokenLight既懂物理，又接地气。

---

🌌 第八章：相关工作——站在巨人的肩膀上

📚 先驱者们的足迹

TokenLight不是凭空出现的。它站在了一个丰富的研究传统的肩膀上。

经典重光照方法：

Debevec et al. (2000) 的Light Stage工作，使用复杂的装置捕获人脸的反射场
这些方法通常需要受控的采集环境和复杂的硬件设置

基于逆向渲染的方法：

DIB-R++ (Chen et al., 2021)：学习预测光照和材质
Neural Gaffer：使用神经网络进行光照迁移
DiffusionRenderer：将视频扩散模型用于逆渲染和前向渲染
这些方法显式地建模物理过程，但通常需要场景几何或材质属性的估计

基于生成模型的方法：

LightIt (Kocsis et al., 2024)：为扩散模型进行光照建模和控制
ScribbleLight (Choi et al., 2025)：使用涂鸦进行单图像室内重光照
Controllable Light Diffusion (Futschik et al., 2023)：用于人像的可控光扩散
这些方法更灵活，但控制精度通常不如物理方法

TokenLight的革新之处在于：它结合了物理方法的可解释性和生成模型的灵活性。

通过属性令牌，TokenLight提供了精确、连续、物理有意义的控制；通过扩散模型架构，它获得了强大的生成能力和对复杂场景的泛化能力。

---

🎬 第九章：局限与未来——通往完美光影的漫漫长路

⚠️ 坦诚的局限

尽管TokenLight取得了令人印象深刻的成果，作者在补充材料中（作者在正文中提到"We discuss limitations and future work in the supplementary"）诚实地讨论了方法的局限：

1. 对极端场景的泛化：虽然模型在训练分布内表现优异，但对于训练数据中很少出现的极端光照条件（例如极暗环境、过曝场景），性能可能会下降。

2. 复杂几何的处理：对于极度复杂的几何结构（如茂密的树林、精细的毛发），模型的阴影生成可能不够精确。

3. 多光源的协调：虽然论文展示了多光源控制的可行性（支持最多3个光源），但当光源数量增加时，交互复杂度会指数增长。

4. 材质理解的边界：对于训练数据中未出现过的 exotic 材质（例如全息材料、发光材料），模型可能无法产生物理正确的结果。

🚀 未来的可能方向

基于TokenLight的框架，研究者可以探索许多激动人心的扩展：

1. 视频重光照：将TokenLight扩展到时间维度，实现视频序列的一致重光照。论文提到了相关工作如RelightVid (Fang et al., 2025) 和UniRelight (He et al., 2025)。

2. 交互式编辑工具：将TokenLight集成到Photoshop等图像编辑软件中，让艺术家可以直观地调整光照参数，实时预览效果。

3. 语音/文本控制：结合大语言模型，让用户可以用自然语言描述想要的光照效果（例如"给这张肖像添加戏剧性的伦勃朗光"），系统自动转换为对应的属性令牌。

4. 物理约束的增强：在令牌设计中引入更严格的物理约束（例如能量守恒、 reciprocity），确保生成的光照效果在物理上完全正确。

---

📝 结语：光的艺术，技术的诗意

> *"摄影不是绘画。绘画是构图，是修改，是随意决定用蓝色或红色。但对于摄影来说，蓝色已经存在，红色已经存在。你只是让世界自己呈现。"* —— 亨利·卡蒂埃-布列松

TokenLight的故事，归根结底是一个关于人类如何理解并操控光的故事。

从洞穴里的第一束火把，到伦勃朗的画室，到爱迪生的灯泡，到今天计算机屏幕上的像素——人类一直在与光对话。我们观察它，感受它，最终学会操纵它。

TokenLight是这场漫长对话的最新篇章。它不是要取代摄影师、灯光师、艺术家的直觉和创意——相反，它是要把那些原本只属于大师的技巧，民主化、自动化、精确化。

当你可以用几个滑块就调出伦勃朗光，当你可以用几个数字就创造出完美的逆光，当你可以把光源放进南瓜里而不需要真的去雕刻它——光的艺术门槛降低了，但光的可能性却扩展了。

> *"光是世界的第一位画家，而我们现在终于有了与它对话的密语。"*

这就是TokenLight的意义：它不是魔法，但它在数字世界里实现了光的魔法。它用神经网络的语言，翻译了物理光学的诗歌，让每一个普通人都能成为光影的诗人。

---

📖 参考文献

[1] Chaturvedi, S., Hold-Geoffroy, Y., Ren, M., Liu, J., Zhang, H., Mei, Y., Dorsey, J., & Shu, Z. (2026). TokenLight: Precise Lighting Control in Images using Attribute Tokens. *arXiv preprint arXiv:2604.15310*.

[2] Kajiya, J. T. (1986). The Rendering Equation. *ACM SIGGRAPH Computer Graphics*, 20(4), 143-150.

[3] Debevec, P., Hawkins, T., Tchou, C., Duiker, H. P., Sagar, W., & Sagar, M. (2000). Acquiring the Reflectance Field of a Human Face. *Proceedings of SIGGRAPH'00*, 145-156.

[4] Chen, W., Litalien, J., Gao, J., Wang, Z., Tsang, C. F., Khamis, S., Litany, O., & Fidler, S. (2021). DIB-R++: Learning to Predict Lighting and Material with a Hybrid Differentiable Renderer. *Advances in Neural Information Processing Systems*, 34.

[5] Kocsis, P., Philip, J., Sunkavalli, K., Nießner, M., & Hold-Geoffroy, Y. (2024). LightIt: Illumination Modeling and Control for Diffusion Models. *Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)*, 9359-9369.

[6] Choi, J. M., Wang, A., Peers, P., Bhattad, A., & Sengupta, R. (2025). ScribbleLight: Single Image Indoor Relighting with Scribbles. *Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)*, 5720-5731.

[7] Futschik, D., Ritland, K., Vecore, J., Fanello, S., Orts-Escolano, S., Curless, B., Sykora, D., & Pandey, R. (2023). Controllable Light Diffusion for Portraits. *Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)*, 8412-8421.

[8] Liang, R., Gojcic, Z., Ling, H., Munkberg, J., Hasselgren, J., Lin, Z., Gao, J., Keller, A., Vijaykumar, N., Fidler, S., & Wang, Z. (2025). DiffusionRenderer: Neural Inverse and Forward Rendering with Video Diffusion Models. *Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)*.

[9] Fang, Y., Sun, Z., Zhang, S., Wu, T., Xu, Y., Zhang, P., Wang, J., Wetzstein, G., & Lin, D. (2025). RelightVid: Temporal-Consistent Diffusion Model for Video Relighting. *arXiv preprint arXiv:2501.16330*.

[10] He, K., Liang, R., Munkberg, J., Hasselgren, J., Vijaykumar, N., Keller, A., Fidler, S., Gilitschenski, I., Gojcic, Z., & Wang, Z. (2025). UniRelight: Learning Joint Decomposition and Synthesis for Video Relighting. *arXiv preprint arXiv:2506.15673*.

---

*文章完成于2026年4月，基于arXiv:2604.15310v1版本论文解读。*

#论文解读 #费曼风格 #TokenLight #图像重光照 #计算机图形学 #扩散模型 #小凯