给照片换"滤镜"的新姿势：用自回归模型做风格迁移，效果出奇地好

一个老问题的新解法

你拍了一张风景照，觉得构图不错，但色调太平淡了。你看到梵高的《星月夜》，心想：要是我的照片能有那种旋涡般的笔触就好了。

这就是"风格迁移"（Style Transfer）的经典场景：保留一张图片的内容结构，同时赋予另一张图片的艺术风格。

这个问题并不新。从 2015 年 Gatys 等人的经典论文开始，风格迁移已经走过了近十年的发展历程。从最初的优化方法（每张图都要迭代几百次），到后来的前馈网络（一张图几毫秒），再到扩散模型（质量更高但速度慢），研究者们一直在"质量"和"速度"之间寻找平衡。

2026 年 4 月，杜克大学的 Liqi Jing、Dingming Zhang、Peinian Li 和 Lichen Zhu 提出了一种全新的思路：把风格迁移问题转化为条件离散序列建模问题，用视觉自回归模型（VAR）来解决。

论文题为《StyleVAR: Controllable Image Style Transfer via Visual Autoregressive Modeling》。

为什么选自回归模型？

自回归模型（Autoregressive Model）的核心思想很简单：一个一个地生成。就像写作文，你写完第一个字，再写第二个字，每个字都依赖于之前写过的所有字。

在视觉领域，VAR（Visual Autoregressive Modeling）框架将图像分解为多尺度的 token 序列，然后用 Transformer 按照从粗到细的顺序逐个生成。先确定大轮廓，再填充细节。

StyleVAR 的核心洞察是：风格迁移也可以看作一种"条件生成"——不是从零开始生成图像，而是在"内容"和"风格"两个条件的约束下生成目标图像。

混合交叉注意力：让内容和风格"协商"

StyleVAR 的架构创新在于提出了混合交叉注意力机制（Blended Cross-Attention）。

想象一个画家在创作：他需要同时看着两样东西——参考照片（内容）和风格画作（风格）。他不是简单地"复制"其中任何一个，而是在两者之间不断"协商"。

混合交叉注意力就是这个"协商"过程的数学实现：

1. 目标表示（正在生成的图像 token）作为 Key 和 Value，维护自己的生成历史 2. 风格特征和内容特征作为 Query，决定"从历史中提取什么" 3. 一个尺度相关的混合系数控制风格和内容在每个阶段的相对影响力

这个设计的关键在于"尺度相关"：在生成大轮廓的阶段（低分辨率），内容信息应该占主导——毕竟你得先保证构图正确；在填充细节的阶段（高分辨率），风格信息应该占主导——笔触、纹理、色彩这些"风格"元素主要体现在细节中。

两阶段训练：先监督，再强化

StyleVAR 的训练分两个阶段：

第一阶段：监督微调（SFT）。 使用大量的"内容-风格-目标"图像三元组，在预训练的 VAR 检查点基础上进行微调。这一阶段让模型学会基本的风格迁移能力。

第二阶段：强化学习微调（GRPO）。 使用 Group Relative Policy Optimization（GRPO）算法，以 DreamSim 感知奖励为优化目标。这一阶段进一步提升生成质量。

GRPO 是 DeepSeek 提出的一种强化学习算法，不需要额外的奖励模型，而是通过组内相对比较来估计策略梯度。在 StyleVAR 中，研究者还引入了逐动作归一化权重（per-action normalization weighting），来解决 VAR 多尺度层次结构中不同尺度 token 的信用分配不均衡问题。

简单来说：VAR 生成图像时，不同尺度的 token 对最终质量的影响不同。粗粒度 token 影响全局，细粒度 token 影响局部。如果用统一的奖励信号，模型可能会过度优化某些尺度而忽略其他。逐动作归一化权重让每个尺度的 token 都能得到"公平"的优化。

效果如何？

在三个基准测试上（覆盖域内、近域和域外分布），StyleVAR 在几乎所有指标上都超越了 AdaIN 基线：

Style Loss（风格损失）：更低
Content Loss（内容损失）：更低
LPIPS（感知相似度）：更好
SSIM（结构相似度）：更好
DreamSim（感知奖励）：更好
CLIP Similarity（语义相似度）：更好

GRPO 强化学习阶段在 SFT 基础上带来了进一步的提升，尤其是在与奖励对齐的感知指标上。

定性来看，StyleVAR 在风景和建筑场景上表现特别出色——能够很好地转移纹理风格，同时保持语义结构。

也有短板

论文也诚实地指出了几个局限：

人脸风格迁移效果不佳。 这是一个老问题了——人脸的风格迁移一直是难点，因为人脸的"内容"和"风格"边界比风景模糊得多。改变一个人的"风格"很容易改变他的"身份"。

互联网图像的泛化差距。 在训练分布之外的图像上，效果会有所下降。这说明模型对"风格"的理解仍然受限于训练数据的覆盖范围。

内容多样性不足。 训练数据中的内容类型不够多样，限制了模型处理新颖内容的能力。

诚实评价

StyleVAR 的贡献在于它提供了一个新的范式：将风格迁移从"图像变换"问题重新定义为"条件序列生成"问题。这种视角的转换带来了几个好处：

1. 理论上更优雅。 不需要专门设计风格迁移的架构，直接利用 VAR 的生成能力 2. 扩展性更好。 可以利用 VAR 生态中已有的各种改进 3. 质量有保障。 自回归模型在生成质量上一直有优势

但也要看到，自回归模型的推理速度仍然是一个瓶颈。虽然论文没有详细报告推理时间，但逐 token 生成的本质决定了它不会比单次前馈的方法更快。

另外，两阶段训练（SFT + GRPO）增加了训练复杂度。对于实际应用来说，是否值得这种额外的训练成本，取决于对质量的要求。

总的来说，这是一篇在风格迁移领域做出了有意义的创新尝试的论文。它不是"革命性"的突破，但提供了一个值得关注的新方向——也许未来的图像编辑工具，真的会基于自回归模型来构建。

---

论文链接：arXiv:2604.21052 开源代码：GitHub - StyleVAR 模型权重：HuggingFace - StyleVAR