🔬 DyCo-RL深度拆解：多模态大模型视觉推理的'注意力协调'革命

> 论文：DyCo-RL: Dynamic Cross-Modal Coordination for Visual Reasoning > 作者：Hangui Lin, Yan Shu, Zhengyang Liang, Chi Liu, Xiangrui Liu, Minghao Qin, Teng Long, Zheng Liu, Nicu Sebe > 单位：University of Trento, BAAI (智源研究院), Singapore Management University, IQuest Research > arXiv：https://arxiv.org/abs/2606.08035 > 代码：https://github.com/Sammy20207109/DyCo-RL

---

🔥 一句话总结

DyCo-RL 发现：多模态大模型（MLLM）在视觉推理时出错，不是因为模型不够聪明，而是因为它没学会在正确的时间看图片、在正确的时间想文字——跨模态协调崩了。DyCo-RL 用 Fisher-Rao 测地线距离测量每个 token 的注意力"转向幅度"，给 token 分配功能角色（视觉导向/文本导向），然后根据角色和实际注意力的匹配度动态重加权优势函数。即插即用，无需改模型结构，在 GRPO/DAPO/SAPO/GSPO 四种主流 RLVR 算法上全部生效，7 个 benchmark 一致提升。

---

🎯 背景：RLVR 火了，但有一个盲区

RLVR 是什么？

Reinforcement Learning with Verifiable Rewards (RLVR) 是 2024-2025 年最火的大模型训练范式之一。代表算法：

GRPO (DeepSeekMath)：组内相对优势，不需要 value model
DAPO：非对称裁剪 + 动态 rollout，稳定长链推理
SAPO：软门控机制，解决优化不连续
GSPO：轨迹级累积似然比，优化长链一致性

核心思路：让模型生成多条推理路径（Chain-of-Thought），用可验证的奖励（如答案是否正确）指导策略优化。在数学题、代码题上效果显著。

视觉推理的特殊性

视觉推理不只是"看图片→给答案"，而是多步交替： 1. 看图片找线索（视觉导向） 2. 根据文字上下文推理（文本导向） 3. 再看图片验证（视觉导向） 4. 继续文字推导（文本导向） 5. ...

这要求模型在生成每个 token 时，动态切换对视觉 patch 和文本上下文的注意力分配。

现有 RLVR 的盲区

所有现有 RLVR 方法都有一个共同假设：每个 token 对最终答案的贡献是一样的。

GRPO 的公式：

L_GRPO = E[ (1/G) Σ_i (1/|o_i|) Σ_t min(ρ_{i,t} * Â_i, clip(ρ_{i,t}) * Â_i) ]

注意：Â_i 是序列级的标量优势，被均匀广播到所有 token 位置。也就是说，无论这个 token 是在"看图片"还是在"写公式"，它收到的学习信号强度完全相同。

这导致一个问题：模型可能学会"猜答案"的捷径，但没有学会在正确的时间做正确的事——该看图片的时候没看，该锚定前文的时候走神了。

---

🧠 核心发现：协调崩了，不是能力不够

诊断实验1：相关性分析

作者从 MathVerse 和 MathVision 收集了 200 条错误 rollouts，人工标注每个 token 的功能角色：

𝒫 ( visually-oriented )：从图片中提取信息（如"angle ADE is 80°"）
ℛ ( text-oriented )：基于前文文本推理（如"since Eq.(3) implies"）

然后对比正确/错误样本中这两类 token 的注意力分配：

Token 类型	正确样本	错误样本	差距
视觉导向 𝒫	高度关注图片	对图片关注不足	显著
文本导向 ℛ	高度关注前文	对前文关注不足	显著

发现：错误样本中，视觉导向 token 没在看图片，文本导向 token 没在看前文。协调崩了。

诊断实验2：因果干预

为了证明这不是"相关但不因果"，作者做了一个注意力增强干预实验：

对于错误样本中的视觉导向 token，强制增强它对图片 patch 的注意力（乘以 1+λ）；对于文本导向 token，强制增强它对文本上下文的注意力。

结果：中等程度的增强（λ≈0.5）能稳定恢复正确率！过度增强（λ>1）反而破坏原有平衡。

这直接证明：纠正注意力错配就能修复推理错误——协调崩了是因果性的。

---

🔬 DyCo-RL 方法：两步走

Step 1：Token 角色分配（Fisher-Rao 测地线距离）

怎么知道一个 token 应该"看图片"还是"想文字"？作者观察到：如果一个 token 在生成时，某个模态内部的注意力分布发生了剧烈重组，说明它正在从那个模态主动提取信息。

测量工具：Fisher-Rao 测地线距离

Fisher-Rao 距离是信息几何中衡量概率分布差异的度量。对于两个注意力分布 p 和 q：

v_t^m = 2 * arccos( Σ_j √(p_{t-1,j}^m * p_{t,j}^m) )

其中 m ∈ {vis, txt}，表示视觉或文本模态。

v_t^m 很大：注意力在这个模态内部剧烈重组 → 这个 token 正在从该模态主动提取信息
v_t^m ≈ 0：注意力分布没变化 → 惯性行为，没有主动提取

然后比较视觉和文本的 Fisher-Rao 距离：

如果 v_t^vis - v_t^txt > τ → 视觉导向 token (𝒟^vis)
如果 v_t^txt - v_t^vis > τ → 文本导向 token (𝒟^txt)
否则 → 中性 token

为什么用 Fisher-Rao 而不是 KL？

KL 散度不对称：KL(p||q) ≠ KL(q||p)，不适合测量"转向"
Fisher-Rao 对称且有界（0 到 π），更适合衡量注意力"几何结构"的变化
对于嘈杂的注意力动态，Fisher-Rao 更稳定

Step 2：对齐引导的优势重加权

给每个 token 分配了角色后，需要检查它是否"按角色行事"：

对齐分数 s_t：

s_t = r̃_t^vis * 1_{t∈𝒟^vis} + r̃_t^txt * 1_{t∈𝒟^txt}

视觉导向 token：s_t = 实际对图片的注意力比例
文本导向 token：s_t = 实际对文本的注意力比例
对齐分数高 = 角色和行为匹配

重加权公式：

Ã_t = (1 + α * w_t) * Â
w_t = |o| * exp(s_t) / Σ_k exp(s_k)

Â：标准的序列级优势（如 GRPO 的组相对优势）
α：重加权强度（实验中 0.2 最优）
w_t：softmax 归一化的对齐权重

效果：

协调好的 token（s_t 高）→ 优势放大 → 学习信号增强
协调差的 token（s_t 低）→ 优势缩小 → 负面影响被抑制
整体：鼓励模型在正确的时间做正确的事

最终目标函数

L_DyCo-RL = E[ (1/G) Σ_i (1/|o_i|) Σ_t min(ρ_{i,t} * Ã_{i,t}, clip(ρ_{i,t}) * Ã_{i,t}) ]

和 GRPO 的区别：Â_i（统一广播）→ Ã_{i,t}（token 级动态重加权）。

---

📊 实验结果：即插即用，全面生效

设置

模型：Qwen2.5-VL-3B / 7B
训练数据：ThinkLite-hard-11K（11,031 条复杂推理实例）
基线算法：GRPO、DAPO、SAPO、GSPO
评测：7 个 benchmark（3 数学 + 4 视觉）
数学：WeMath、MathVision、MathVerse
视觉：LogicVista、HallusionBench、MME、MMBench
超参：α=0.2，τ=0.05，学习率 1e-6，batch size 64，1 epoch
硬件：8×A100 80GB，3B 约 48 GPU-hours，7B 约 72 GPU-hours

主结果：四种算法全部提升

Qwen2.5-VL-3B（平均提升 1.8-2.4 分）：

算法	WeMath	MathVision	MathVerse	LogicVista	HallusionBench	MME	MMBench	平均
GRPO	23.0	21.4	34.4	39.8	60.8	79.9	54.8	44.9
+DyCo-RL	25.9	22.4	36.0	41.0	62.4	80.7	58.2	46.7
DAPO	27.4	17.1	34.0	39.8	60.7	81.0	51.7	44.5
+DyCo-RL	26.9	22.8	36.6	41.4	62.7	82.1	54.8	46.8
SAPO	31.5	20.1	35.0	39.4	59.7	82.1	53.0	45.8
+DyCo-RL	32.0	19.7	35.3	44.5	63.9	81.1	54.8	47.3
GSPO	27.2	19.7	34.0	35.8	62.4	79.6	54.9	44.8
+DyCo-RL	26.0	24.0	34.1	37.4	62.0	81.9	56.3	46.0

Qwen2.5-VL-7B（平均提升 1.4-2.9 分，单 benchmark 最高 +13.1）：

算法	平均	亮点
GRPO	55.6	基线
+DyCo-RL	58.3	MMBench +13.1
DAPO	52.2	基线
+DyCo-RL	54.8	全面回暖
SAPO	55.0	基线
+DyCo-RL	55.8	LogicVista +5.4
GSPO	53.4	基线
+DyCo-RL	56.5	MMBench +9.7

关键观察

1. 算法无关：不管底层是 GRPO（组相对）、DAPO（非对称裁剪）、SAPO（软门控）还是 GSPO（轨迹级），DyCo-RL 都有效。说明它解决的是RLVR 的共性盲区，而非某个特定算法的 bug。

2. 跨域一致：数学题（需要推理）和视觉题（需要感知）都有提升。说明动态协调是通用需求，不限于特定任务类型。

3. 大模型也有效：7B 模型基线已经很高，DyCo-RL 仍能提升。说明即使是更强的模型，协调崩了的问题依然存在。

---

🔍 消融实验：验证每个组件的必要性

1. Fisher-Rao vs 其他角色分配策略

策略	平均	说明
GRPO 基线	44.9	-
Random（随机分配）	43.8	比基线还差，说明乱重加权是噪声
Reverse（反向分配）	43.3	最差，反向惩罚 → 反向崩溃
Entropy（静态熵）	45.7	能捕捉注意力集中度，但混淆了不确定性和角色
KL Divergence	46.1	能捕捉动态，但不对称导致不稳定
Fisher-Rao（DyCo-RL）	46.7	最优，对称、有界、几何意义明确

Reverse 最差这个结果是强有力的方向性证明：Fisher-Rao 确实分配了正确的角色。如果反向分配会崩溃，正向分配会提升，说明角色分配的逻辑是正确的。

2. 对齐重加权 vs 单模态偏置

策略	平均	说明
GRPO 基线	44.9	-
统一增强视觉注意力	44.5	视觉任务提升，文本任务暴跌
统一增强文本注意力	44.6	文本任务提升，视觉任务暴跌
DyCo-RL（动态切换）	46.7	双域提升，最稳健

关键洞察：单纯鼓励"多看图"或"多思考"都不够。协调才是关键——在正确的时间做正确的事。

3. 重加权强度 α

α	平均	说明
0.0（基线）	44.9	-
0.1	46.2	有提升但信号弱
0.2	46.8	最优
0.3	46.5	接近最优
0.4	43.7	过度重加权破坏内在协调
0.5	41.9	严重崩溃

α 是敏感超参：太小没效果，太大强制模型进入次优平衡。0.2 是"温和引导"的甜点。

4. 优势重加权 vs 奖励塑形

策略	平均	说明
GRPO 基线	44.7	-
Reward Shaping（奖励塑形）	45.7	在轨迹级奖励加对齐分数，但不稳定
Advantage Reweighting（优势重加权）	46.8	更稳定，在组归一化后注入

Reward shaping 直接改 R，会扭曲 group normalization 的统计量；Advantage reweighting 在 Â 计算后修改，保留了 baseline 的稳定性。

5. Rollout 数量

R	平均	说明
4（默认）	46.7	-
8	47.3	有提升
16	48.2	边际提升递减

R=4 性价比最高，R=16 的收益不值得 doubled compute。

---

🧬 机制分析：DyCo-RL 改变了什么？

1. 角色-注意力对齐增强

训练后，模型内部的注意力分配更"听话"了：

视觉导向 token：对图片的注意力显著增加，对文本的注意力被抑制
文本导向 token：对文本的注意力显著增加，对图片的注意力被抑制

这说明 DyCo-RL 不只是表面提升分数，而是真正改变了模型的注意力行为。

2. 时间动态重塑

基线模型的注意力分布是刚性分阶段的：

前半段： predominantly 视觉（看图片）
后半段： predominantly 文本（写推理）

DyCo-RL 训练后：

视觉导向 token 在中间阶段（0.4-0.6 位置）保持持续存在 → 推理过程中可以重新回看图片验证
文本导向 token 更早激活且分布更均匀 → 推理开始得更早，分布更自然

这克服了"先感知后推理"的瓶颈，实现了动态交替。

---

💡 为什么 DyCo-RL 重要

1. 从"结果优化"到"过程优化"

现有 RLVR 只关心最终答案对不对。DyCo-RL 首次把过程协调纳入优化目标——不光要答案对，还要生成过程中每个 token 都"各司其职"。

这类似于：

传统 RLVR：只看考试分数
DyCo-RL：还看答题过程——该画图的时候画了吗？该列公式的时候列了吗？

2. 注意力几何的新工具：Fisher-Rao

Fisher-Rao 距离通常用于信息几何、统计流形。DyCo-RL 把它借用到注意力分析中，说明注意力分布的变化几何可以揭示 token 的功能角色。

这暗示了一个更大的研究方向：LLM 的注意力不只是"看哪里"，而是概率分布空间中的运动轨迹。Fisher-Rao、Wasserstein、Hellinger 等度量可能都是分析注意力动态的有效工具。

3. 即插即用的普适性

DyCo-RL 不改模型结构、不改基线算法、不需要额外训练数据。它只是一个优势重加权插件。这意味着：

任何人用 RLVR 训练 MLLM 都可以加
成本增加很小（计算 attention stats 和 Fisher-Rao 距离的 overhead）
与未来的 RLVR 算法也兼容

4. 可解释性增强

通过角色分配和对齐分数，DyCo-RL 提供了一种机械性解释模型行为的方法：

这个 token 应该看图片，它看了吗？对齐分数是多少？
为什么这条 rollout 错了？因为第 15 个 token（视觉导向）对图片关注不足。

这比传统的"attention map 可视化"更结构化。

---

⚠️ 局限

1. 计算开销

虽然不加额外可训练参数，但每个 rollout 需要计算：

每个 token 的双模态注意力分解
连续 token 的 Fisher-Rao 距离
对齐分数和重加权

论文报告：3B 模型约 48 GPU-hours，7B 约 72 GPU-hours。比 vanilla RLVR 慢一点，但"可接受"。对于更长的 rollout（如 4096 token），overhead 可能显著增加。

2. 只测了 3B/7B

所有实验在 Qwen2.5-VL-3B/7B 上完成。更大的模型（72B 级）可能有定性不同的注意力动态（如 attention sink 效应更强）。是否有效待验证。

3. 人工标注的局限性

诊断实验依赖 200 条人工标注的 token 级角色（Cohen's κ=0.85，一致性很高）。但：

200 条样本量有限
只覆盖了数学/几何题型
更开放域的任务（如视频理解、文档问答）的 token 角色更难定义

4. 超参敏感性

α（重加权强度）和 τ（角色分配阈值）都需要调。α 的 sweet spot 很窄（0.2），不同任务/模型可能需要不同值。自动调参是未来的方向。

5. 与视觉编码器的耦合

论文解冻了 vision tower（视觉编码器）进行全参数训练。但 DyCo-RL 的角色分配依赖视觉 patch 的 attention。如果 vision tower 被冻结（常见的 LoRA/Adapter 设置），视觉 patch 的注意力动态可能不够丰富，DyCo-RL 的效果可能受限。

---

🎯 应用场景

数学视觉推理：几何题、图表题、工程图理解——需要反复在"看图"和"推导"之间切换
医疗影像诊断：看 CT/MRI 找病灶 + 结合病史推理 → 需要动态协调
自动驾驶：感知摄像头输入 + 结合交通规则/地图推理 → 实时协调关键
文档/表格理解：看版面结构 + 提取文字信息 + 跨段落推理 → 复杂协调
视频理解：时间轴上的视觉事件 + 文本描述/QA → 长序列协调

---

📚 核心信息

论文：DyCo-RL: Dynamic Cross-Modal Coordination for Visual Reasoning (arXiv:2606.08035)
作者：Hangui Lin et al. (Trento, BAAI, SMU, IQuest)
代码：https://github.com/Sammy20207109/DyCo-RL
核心创新：Fisher-Rao 测地线距离分配 token 角色 + 对齐引导的优势重加权
基线覆盖：GRPO、DAPO、SAPO、GSPO（四种主流 RLVR）
模型：Qwen2.5-VL-3B/7B
训练数据：ThinkLite-hard-11K
评测：7 benchmark（WeMath、MathVision、MathVerse、LogicVista、HallusionBench、MME、MMBench）
关键超参：α=0.2（重加权强度），τ=0.05（角色分配阈值）
训练成本：3B 48 GPU-hours，7B 72 GPU-hours（8×A100 80GB）
核心洞察：错误样本中，视觉导向 token 对图片关注不足，文本导向 token 对前文关注不足——协调崩了是因果性的

---

> "DyCo-RL 的本质是一个简单的追问：你生成的每个 token，真的在干它该干的事吗？在 AI 学会思考之前，也许它需要先学会——在正确的时间看正确的模态。"

#DyCo-RL #多模态大模型 #视觉推理 #RLVR #GRPO #DAPO #FisherRao #注意力机制 #token级优化 #Qwen #智源研究院 #小凯