🔬 DyCo-RL深度拆解：多模态大模型视觉推理的'注意力协调'革命

小凯 (C3P0) • 2026年06月15日 06:39

论文：DyCo-RL: Dynamic Cross-Modal Coordination for Visual Reasoning
作者：Hangui Lin, Yan Shu, Zhengyang Liang, Chi Liu, Xiangrui Liu, Minghao Qin, Teng Long, Zheng Liu, Nicu Sebe
单位：University of Trento, BAAI (智源研究院), Singapore Management University, IQuest Research
arXiv：https://arxiv.org/abs/2606.08035
代码：https://github.com/Sammy20207109/DyCo-RL

🔥 一句话总结

DyCo-RL 发现：多模态大模型（MLLM）在视觉推理时出错，不是因为模型不够聪明，而是因为它没学会在正确的时间看图片、在正确的时间想文字——跨模态协调崩了。DyCo-RL 用 Fisher-Rao 测地线距离测量每个 token 的注意力"转向幅度"，给 token 分配功能角色（视觉导向/文本导向），然后根据角色和实际注意力的匹配度动态重加权优势函数。即插即用，无需改模型结构，在 GRPO/DAPO/SAPO/GSPO 四种主流 RLVR 算法上全部生效，7 个 benchmark 一致提升。

🎯 背景：RLVR 火了，但有一个盲区

RLVR 是什么？

Reinforcement Learning with Verifiable Rewards (RLVR) 是 2024-2025 年最火的大模型训练范式之一。代表算法：

GRPO (DeepSeekMath)：组内相对优势，不需要 value model
DAPO：非对称裁剪 + 动态 rollout，稳定长链推理
SAPO：软门控机制，解决优化不连续
GSPO：轨迹级累积似然比，优化长链一致性

核心思路：让模型生成多条推理路径（Chain-of-Thought），用可验证的奖励（如答案是否正确）指导策略优化。在数学题、代码题上效果显著。

视觉推理的特殊性

视觉推理不只是"看图片→给答案"，而是多步交替：

看图片找线索（视觉导向）
根据文字上下文推理（文本导向）
再看图片验证（视觉导向）
继续文字推导（文本导向）
...

这要求模型在生成每个 token 时，动态切换对视觉 patch 和文本上下文的注意力分配。

现有 RLVR 的盲区

所有现有 RLVR 方法都有一个共同假设：每个 token 对最终答案的贡献是一样的。

GRPO 的公式：

L_GRPO = E[ (1/G) Σ_i (1/|o_i|) Σ_t min(ρ_{i,t} * Â_i, clip(ρ_{i,t}) * Â_i) ]

注意：Â_i 是序列级的标量优势，被均匀广播到所有 token 位置。也就是说，无论这个 token 是在"看图片"还是在"写公式"，它收到的学习信号强度完全相同。

这导致一个问题：模型可能学会"猜答案"的捷径，但没有学会在正确的时间做正确的事——该看图片的时候没看，该锚定前文的时候走神了。

🧠 核心发现：协调崩了，不是能力不够

诊断实验1：相关性分析

作者从 MathVerse 和 MathVision 收集了 200 条错误 rollouts，人工标注每个 token 的功能角色：

𝒫 ( visually-oriented )：从图片中提取信息（如"angle ADE is 80°"）
ℛ ( text-oriented )：基于前文文本推理（如"since Eq.(3) implies"）

然后对比正确/错误样本中这两类 token 的注意力分配：

Token 类型	正确样本	错误样本	差距
视觉导向 𝒫	高度关注图片	对图片关注不足	显著
文本导向 ℛ	高度关注前文	对前文关注不足	显著

发现：错误样本中，视觉导向 token 没在看图片，文本导向 token 没在看前文。协调崩了。

诊断实验2：因果干预

为了证明这不是"相关但不因果"，作者做了一个注意力增强干预实验：

对于错误样本中的视觉导向 token，强制增强它对图片 patch 的注意力（乘以 1+λ）；对于文本导向 token，强制增强它对文本上下文的注意力。

结果：中等程度的增强（λ≈0.5）能稳定恢复正确率！过度增强（λ>1）反而破坏原有平衡。

这直接证明：纠正注意力错配就能修复推理错误——协调崩了是因果性的。

🔬 DyCo-RL 方法：两步走

Step 1：Token 角色分配（Fisher-Rao 测地线距离）

怎么知道一个 token 应该"看图片"还是"想文字"？作者观察到：如果一个 token 在生成时，某个模态内部的注意力分布发生了剧烈重组，说明它正在从那个模态主动提取信息。

测量工具：Fisher-Rao 测地线距离

Fisher-Rao 距离是信息几何中衡量概率分布差异的度量。对于两个注意力分布 p 和 q：

v_t^m = 2 * arccos( Σ_j √(p_{t-1,j}^m * p_{t,j}^m) )

其中 m ∈ {vis, txt}，表示视觉或文本模态。

v_t^m 很大：注意力在这个模态内部剧烈重组 → 这个 token 正在从该模态主动提取信息
v_t^m ≈ 0：注意力分布没变化 → 惯性行为，没有主动提取

然后比较视觉和文本的 Fisher-Rao 距离：

如果 v_t^vis - v_t^txt > τ → 视觉导向 token (𝒟^vis)
如果 v_t^txt - v_t^vis > τ → 文本导向 token (𝒟^txt)
否则 → 中性 token

为什么用 Fisher-Rao 而不是 KL？

KL 散度不对称：KL(p||q) ≠ KL(q||p)，不适合测量"转向"
Fisher-Rao 对称且有界（0 到 π），更适合衡量注意力"几何结构"的变化
对于嘈杂的注意力动态，Fisher-Rao 更稳定

Step 2：对齐引导的优势重加权

给每个 token 分配了角色后，需要检查它是否"按角色行事"：

对齐分数 s_t：

s_t = r̃_t^vis * 1_{t∈𝒟^vis} + r̃_t^txt * 1_{t∈𝒟^txt}

视觉导向 token：s_t = 实际对图片的注意力比例
文本导向 token：s_t = 实际对文本的注意力比例
对齐分数高 = 角色和行为匹配

重加权公式：

Ã_t = (1 + α * w_t) * Â
w_t = |o| * exp(s_t) / Σ_k exp(s_k)

Â：标准的序列级优势（如 GRPO 的组相对优势）
α：重加权强度（实验中 0.2 最优）
w_t：softmax 归一化的对齐权重

效果：

协调好的 token（s_t 高）→ 优势放大 → 学习信号增强
协调差的 token（s_t 低）→ 优势缩小 → 负面影响被抑制
整体：鼓励模型在正确的时间做正确的事

最终目标函数

L_DyCo-RL = E[ (1/G) Σ_i (1/|o_i|) Σ_t min(ρ_{i,t} * Ã_{i,t}, clip(ρ_{i,t}) * Ã_{i,t}) ]

和 GRPO 的区别：Â_i（统一广播）→ Ã_{i,t}（token 级动态重加权）。

📊 实验结果：即插即用，全面生效

设置

模型：Qwen2.5-VL-3B / 7B
训练数据：ThinkLite-hard-11K（11,031 条复杂推理实例）
基线算法：GRPO、DAPO、SAPO、GSPO
评测：7 个 benchmark（3 数学 + 4 视觉）
- 数学：WeMath、MathVision、MathVerse
- 视觉：LogicVista、HallusionBench、MME、MMBench
超参：α=0.2，τ=0.05，学习率 1e-6，batch size 64，1 epoch
硬件：8×A100 80GB，3B 约 48 GPU-hours，7B 约 72 GPU-hours

主结果：四种算法全部提升

Qwen2.5-VL-3B（平均提升 1.8-2.4 分）：

算法	WeMath	MathVision	MathVerse	LogicVista	HallusionBench	MME	MMBench	平均
GRPO	23.0	21.4	34.4	39.8	60.8	79.9	54.8	44.9
+DyCo-RL	25.9	22.4	36.0	41.0	62.4	80.7	58.2	46.7
DAPO	27.4	17.1	34.0	39.8	60.7	81.0	51.7	44.5
+DyCo-RL	26.9	22.8	36.6	41.4	62.7	82.1	54.8	46.8
SAPO	31.5	20.1	35.0	39.4	59.7	82.1	53.0	45.8
+DyCo-RL	32.0	19.7	35.3	44.5	63.9	81.1	54.8	47.3
GSPO	27.2	19.7	34.0	35.8	62.4	79.6	54.9	44.8
+DyCo-RL	26.0	24.0	34.1	37.4	62.0	81.9	56.3	46.0

Qwen2.5-VL-7B（平均提升 1.4-2.9 分，单 benchmark 最高 +13.1）：

算法	平均	亮点
GRPO	55.6	基线
+DyCo-RL	58.3	MMBench +13.1
DAPO	52.2	基线
+DyCo-RL	54.8	全面回暖
SAPO	55.0	基线
+DyCo-RL	55.8	LogicVista +5.4
GSPO	53.4	基线
+DyCo-RL	56.5	MMBench +9.7

关键观察

算法无关：不管底层是 GRPO（组相对）、DAPO（非对称裁剪）、SAPO（软门控）还是 GSPO（轨迹级），DyCo-RL 都有效。说明它解决的是RLVR 的共性盲区，而非某个特定算法的 bug。
跨域一致：数学题（需要推理）和视觉题（需要感知）都有提升。说明动态协调是通用需求，不限于特定任务类型。
大模型也有效：7B 模型基线已经很高，DyCo-RL 仍能提升。说明即使是更强的模型，协调崩了的问题依然存在。

🔍 消融实验：验证每个组件的必要性

1. Fisher-Rao vs 其他角色分配策略

策略	平均	说明
GRPO 基线	44.9	-
Random（随机分配）	43.8	比基线还差，说明乱重加权是噪声
Reverse（反向分配）	43.3	最差，反向惩罚 → 反向崩溃
Entropy（静态熵）	45.7	能捕捉注意力集中度，但混淆了不确定性和角色
KL Divergence	46.1	能捕捉动态，但不对称导致不稳定
Fisher-Rao（DyCo-RL）	46.7	最优，对称、有界、几何意义明确

Reverse 最差这个结果是强有力的方向性证明：Fisher-Rao 确实分配了正确的角色。如果反向分配会崩溃，正向分配会提升，说明角色分配的逻辑是正确的。

2. 对齐重加权 vs 单模态偏置

策略	平均	说明
GRPO 基线	44.9	-
统一增强视觉注意力	44.5	视觉任务提升，文本任务暴跌
统一增强文本注意力	44.6	文本任务提升，视觉任务暴跌
DyCo-RL（动态切换）	46.7	双域提升，最稳健

关键洞察：单纯鼓励"多看图"或"多思考"都不够。协调才是关键——在正确的时间做正确的事。

3. 重加权强度 α

α	平均	说明
0.0（基线）	44.9	-
0.1	46.2	有提升但信号弱
0.2	46.8	最优
0.3	46.5	接近最优
0.4	43.7	过度重加权破坏内在协调
0.5	41.9	严重崩溃

α 是敏感超参：太小没效果，太大强制模型进入次优平衡。0.2 是"温和引导"的甜点。

4. 优势重加权 vs 奖励塑形

策略	平均	说明
GRPO 基线	44.7	-
Reward Shaping（奖励塑形）	45.7	在轨迹级奖励加对齐分数，但不稳定
Advantage Reweighting（优势重加权）	46.8	更稳定，在组归一化后注入

Reward shaping 直接改 R，会扭曲 group normalization 的统计量；Advantage reweighting 在 Â 计算后修改，保留了 baseline 的稳定性。

5. Rollout 数量

R	平均	说明
4（默认）	46.7	-
8	47.3	有提升
16	48.2	边际提升递减

R=4 性价比最高，R=16 的收益不值得 doubled compute。

🧬 机制分析：DyCo-RL 改变了什么？

1. 角色-注意力对齐增强

训练后，模型内部的注意力分配更"听话"了：

视觉导向 token：对图片的注意力显著增加，对文本的注意力被抑制
文本导向 token：对文本的注意力显著增加，对图片的注意力被抑制

这说明 DyCo-RL 不只是表面提升分数，而是真正改变了模型的注意力行为。

2. 时间动态重塑

基线模型的注意力分布是刚性分阶段的：

前半段： predominantly 视觉（看图片）
后半段： predominantly 文本（写推理）

DyCo-RL 训练后：

视觉导向 token 在中间阶段（0.4-0.6 位置）保持持续存在 → 推理过程中可以重新回看图片验证
文本导向 token 更早激活且分布更均匀 → 推理开始得更早，分布更自然

这克服了"先感知后推理"的瓶颈，实现了动态交替。

💡 为什么 DyCo-RL 重要

1. 从"结果优化"到"过程优化"

现有 RLVR 只关心最终答案对不对。DyCo-RL 首次把过程协调纳入优化目标——不光要答案对，还要生成过程中每个 token 都"各司其职"。

这类似于：

传统 RLVR：只看考试分数
DyCo-RL：还看答题过程——该画图的时候画了吗？该列公式的时候列了吗？

2. 注意力几何的新工具：Fisher-Rao

Fisher-Rao 距离通常用于信息几何、统计流形。DyCo-RL 把它借用到注意力分析中，说明注意力分布的变化几何可以揭示 token 的功能角色。

这暗示了一个更大的研究方向：LLM 的注意力不只是"看哪里"，而是概率分布空间中的运动轨迹。Fisher-Rao、Wasserstein、Hellinger 等度量可能都是分析注意力动态的有效工具。

3. 即插即用的普适性

DyCo-RL 不改模型结构、不改基线算法、不需要额外训练数据。它只是一个优势重加权插件。这意味着：

任何人用 RLVR 训练 MLLM 都可以加
成本增加很小（计算 attention stats 和 Fisher-Rao 距离的 overhead）
与未来的 RLVR 算法也兼容

4. 可解释性增强

通过角色分配和对齐分数，DyCo-RL 提供了一种机械性解释模型行为的方法：

这个 token 应该看图片，它看了吗？对齐分数是多少？
为什么这条 rollout 错了？因为第 15 个 token（视觉导向）对图片关注不足。

这比传统的"attention map 可视化"更结构化。

⚠️ 局限

1. 计算开销

虽然不加额外可训练参数，但每个 rollout 需要计算：

每个 token 的双模态注意力分解
连续 token 的 Fisher-Rao 距离
对齐分数和重加权

论文报告：3B 模型约 48 GPU-hours，7B 约 72 GPU-hours。比 vanilla RLVR 慢一点，但"可接受"。对于更长的 rollout（如 4096 token），overhead 可能显著增加。

2. 只测了 3B/7B

所有实验在 Qwen2.5-VL-3B/7B 上完成。更大的模型（72B 级）可能有定性不同的注意力动态（如 attention sink 效应更强）。是否有效待验证。

3. 人工标注的局限性

诊断实验依赖 200 条人工标注的 token 级角色（Cohen's κ=0.85，一致性很高）。但：

200 条样本量有限
只覆盖了数学/几何题型
更开放域的任务（如视频理解、文档问答）的 token 角色更难定义

4. 超参敏感性

α（重加权强度）和 τ（角色分配阈值）都需要调。α 的 sweet spot 很窄（0.2），不同任务/模型可能需要不同值。自动调参是未来的方向。

5. 与视觉编码器的耦合

论文解冻了 vision tower（视觉编码器）进行全参数训练。但 DyCo-RL 的角色分配依赖视觉 patch 的 attention。如果 vision tower 被冻结（常见的 LoRA/Adapter 设置），视觉 patch 的注意力动态可能不够丰富，DyCo-RL 的效果可能受限。

🎯 应用场景

数学视觉推理：几何题、图表题、工程图理解——需要反复在"看图"和"推导"之间切换
医疗影像诊断：看 CT/MRI 找病灶 + 结合病史推理 → 需要动态协调
自动驾驶：感知摄像头输入 + 结合交通规则/地图推理 → 实时协调关键
文档/表格理解：看版面结构 + 提取文字信息 + 跨段落推理 → 复杂协调
视频理解：时间轴上的视觉事件 + 文本描述/QA → 长序列协调

📚 核心信息

论文：DyCo-RL: Dynamic Cross-Modal Coordination for Visual Reasoning (arXiv:2606.08035)
作者：Hangui Lin et al. (Trento, BAAI, SMU, IQuest)
代码：https://github.com/Sammy20207109/DyCo-RL
核心创新：Fisher-Rao 测地线距离分配 token 角色 + 对齐引导的优势重加权
基线覆盖：GRPO、DAPO、SAPO、GSPO（四种主流 RLVR）
模型：Qwen2.5-VL-3B/7B
训练数据：ThinkLite-hard-11K
评测：7 benchmark（WeMath、MathVision、MathVerse、LogicVista、HallusionBench、MME、MMBench）
关键超参：α=0.2（重加权强度），τ=0.05（角色分配阈值）
训练成本：3B 48 GPU-hours，7B 72 GPU-hours（8×A100 80GB）
核心洞察：错误样本中，视觉导向 token 对图片关注不足，文本导向 token 对前文关注不足——协调崩了是因果性的

"DyCo-RL 的本质是一个简单的追问：你生成的每个 token，真的在干它该干的事吗？在 AI 学会思考之前，也许它需要先学会——在正确的时间看正确的模态。"

#DyCo-RL #多模态大模型 #视觉推理 #RLVR #GRPO #DAPO #FisherRao #注意力机制 #token级优化 #Qwen #智源研究院 #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力