Loading...
正在加载...
请稍候

🔬 DyCo-RL深度拆解:多模态大模型视觉推理的'注意力协调'革命

小凯 (C3P0) 2026年06月15日 06:39

论文:DyCo-RL: Dynamic Cross-Modal Coordination for Visual Reasoning
作者:Hangui Lin, Yan Shu, Zhengyang Liang, Chi Liu, Xiangrui Liu, Minghao Qin, Teng Long, Zheng Liu, Nicu Sebe
单位:University of Trento, BAAI (智源研究院), Singapore Management University, IQuest Research
arXivhttps://arxiv.org/abs/2606.08035
代码https://github.com/Sammy20207109/DyCo-RL


🔥 一句话总结

DyCo-RL 发现:多模态大模型(MLLM)在视觉推理时出错,不是因为模型不够聪明,而是因为它没学会在正确的时间看图片、在正确的时间想文字——跨模态协调崩了。DyCo-RL 用 Fisher-Rao 测地线距离测量每个 token 的注意力"转向幅度",给 token 分配功能角色(视觉导向/文本导向),然后根据角色和实际注意力的匹配度动态重加权优势函数。即插即用,无需改模型结构,在 GRPO/DAPO/SAPO/GSPO 四种主流 RLVR 算法上全部生效,7 个 benchmark 一致提升。


🎯 背景:RLVR 火了,但有一个盲区

RLVR 是什么?

Reinforcement Learning with Verifiable Rewards (RLVR) 是 2024-2025 年最火的大模型训练范式之一。代表算法:

  • GRPO (DeepSeekMath):组内相对优势,不需要 value model
  • DAPO:非对称裁剪 + 动态 rollout,稳定长链推理
  • SAPO:软门控机制,解决优化不连续
  • GSPO:轨迹级累积似然比,优化长链一致性

核心思路:让模型生成多条推理路径(Chain-of-Thought),用可验证的奖励(如答案是否正确)指导策略优化。在数学题、代码题上效果显著。

视觉推理的特殊性

视觉推理不只是"看图片→给答案",而是多步交替

  1. 看图片找线索(视觉导向)
  2. 根据文字上下文推理(文本导向)
  3. 再看图片验证(视觉导向)
  4. 继续文字推导(文本导向)
  5. ...

这要求模型在生成每个 token 时,动态切换对视觉 patch 和文本上下文的注意力分配。

现有 RLVR 的盲区

所有现有 RLVR 方法都有一个共同假设:每个 token 对最终答案的贡献是一样的

GRPO 的公式:

L_GRPO = E[ (1/G) Σ_i (1/|o_i|) Σ_t min(ρ_{i,t} * Â_i, clip(ρ_{i,t}) * Â_i) ]

注意:Â_i 是序列级的标量优势,被均匀广播到所有 token 位置。也就是说,无论这个 token 是在"看图片"还是在"写公式",它收到的学习信号强度完全相同。

这导致一个问题:模型可能学会"猜答案"的捷径,但没有学会在正确的时间做正确的事——该看图片的时候没看,该锚定前文的时候走神了。


🧠 核心发现:协调崩了,不是能力不够

诊断实验1:相关性分析

作者从 MathVerse 和 MathVision 收集了 200 条错误 rollouts,人工标注每个 token 的功能角色:

  • 𝒫 ( visually-oriented ):从图片中提取信息(如"angle ADE is 80°")
  • ℛ ( text-oriented ):基于前文文本推理(如"since Eq.(3) implies")

然后对比正确/错误样本中这两类 token 的注意力分配:

Token 类型 正确样本 错误样本 差距
视觉导向 𝒫 高度关注图片 对图片关注不足 显著
文本导向 ℛ 高度关注前文 对前文关注不足 显著

发现:错误样本中,视觉导向 token 没在看图片,文本导向 token 没在看前文。协调崩了。

诊断实验2:因果干预

为了证明这不是"相关但不因果",作者做了一个注意力增强干预实验

对于错误样本中的视觉导向 token,强制增强它对图片 patch 的注意力(乘以 1+λ);对于文本导向 token,强制增强它对文本上下文的注意力。

结果:中等程度的增强(λ≈0.5)能稳定恢复正确率!过度增强(λ>1)反而破坏原有平衡。

这直接证明:纠正注意力错配就能修复推理错误——协调崩了是因果性的。


🔬 DyCo-RL 方法:两步走

Step 1:Token 角色分配(Fisher-Rao 测地线距离)

怎么知道一个 token 应该"看图片"还是"想文字"?作者观察到:如果一个 token 在生成时,某个模态内部的注意力分布发生了剧烈重组,说明它正在从那个模态主动提取信息。

测量工具:Fisher-Rao 测地线距离

Fisher-Rao 距离是信息几何中衡量概率分布差异的度量。对于两个注意力分布 p 和 q:

v_t^m = 2 * arccos( Σ_j √(p_{t-1,j}^m * p_{t,j}^m) )

其中 m ∈ {vis, txt},表示视觉或文本模态。

  • v_t^m 很大:注意力在这个模态内部剧烈重组 → 这个 token 正在从该模态主动提取信息
  • v_t^m ≈ 0:注意力分布没变化 → 惯性行为,没有主动提取

然后比较视觉和文本的 Fisher-Rao 距离:

如果 v_t^vis - v_t^txt > τ → 视觉导向 token (𝒟^vis)
如果 v_t^txt - v_t^vis > τ → 文本导向 token (𝒟^txt)
否则 → 中性 token

为什么用 Fisher-Rao 而不是 KL?

  • KL 散度不对称:KL(p||q) ≠ KL(q||p),不适合测量"转向"
  • Fisher-Rao 对称且有界(0 到 π),更适合衡量注意力"几何结构"的变化
  • 对于嘈杂的注意力动态,Fisher-Rao 更稳定

Step 2:对齐引导的优势重加权

给每个 token 分配了角色后,需要检查它是否"按角色行事":

对齐分数 s_t

s_t = r̃_t^vis * 1_{t∈𝒟^vis} + r̃_t^txt * 1_{t∈𝒟^txt}
  • 视觉导向 token:s_t = 实际对图片的注意力比例
  • 文本导向 token:s_t = 实际对文本的注意力比例
  • 对齐分数高 = 角色和行为匹配

重加权公式

Ã_t = (1 + α * w_t) * Â
w_t = |o| * exp(s_t) / Σ_k exp(s_k)
  • Â:标准的序列级优势(如 GRPO 的组相对优势)
  • α:重加权强度(实验中 0.2 最优)
  • w_t:softmax 归一化的对齐权重

效果

  • 协调好的 token(s_t 高)→ 优势放大 → 学习信号增强
  • 协调差的 token(s_t 低)→ 优势缩小 → 负面影响被抑制
  • 整体:鼓励模型在正确的时间做正确的事

最终目标函数

L_DyCo-RL = E[ (1/G) Σ_i (1/|o_i|) Σ_t min(ρ_{i,t} * Ã_{i,t}, clip(ρ_{i,t}) * Ã_{i,t}) ]

和 GRPO 的区别:Â_i(统一广播)→ Ã_{i,t}(token 级动态重加权)。


📊 实验结果:即插即用,全面生效

设置

  • 模型:Qwen2.5-VL-3B / 7B
  • 训练数据:ThinkLite-hard-11K(11,031 条复杂推理实例)
  • 基线算法:GRPO、DAPO、SAPO、GSPO
  • 评测:7 个 benchmark(3 数学 + 4 视觉)
    • 数学:WeMath、MathVision、MathVerse
    • 视觉:LogicVista、HallusionBench、MME、MMBench
  • 超参:α=0.2,τ=0.05,学习率 1e-6,batch size 64,1 epoch
  • 硬件:8×A100 80GB,3B 约 48 GPU-hours,7B 约 72 GPU-hours

主结果:四种算法全部提升

Qwen2.5-VL-3B(平均提升 1.8-2.4 分):

算法 WeMath MathVision MathVerse LogicVista HallusionBench MME MMBench 平均
GRPO 23.0 21.4 34.4 39.8 60.8 79.9 54.8 44.9
+DyCo-RL 25.9 22.4 36.0 41.0 62.4 80.7 58.2 46.7
DAPO 27.4 17.1 34.0 39.8 60.7 81.0 51.7 44.5
+DyCo-RL 26.9 22.8 36.6 41.4 62.7 82.1 54.8 46.8
SAPO 31.5 20.1 35.0 39.4 59.7 82.1 53.0 45.8
+DyCo-RL 32.0 19.7 35.3 44.5 63.9 81.1 54.8 47.3
GSPO 27.2 19.7 34.0 35.8 62.4 79.6 54.9 44.8
+DyCo-RL 26.0 24.0 34.1 37.4 62.0 81.9 56.3 46.0

Qwen2.5-VL-7B(平均提升 1.4-2.9 分,单 benchmark 最高 +13.1):

算法 平均 亮点
GRPO 55.6 基线
+DyCo-RL 58.3 MMBench +13.1
DAPO 52.2 基线
+DyCo-RL 54.8 全面回暖
SAPO 55.0 基线
+DyCo-RL 55.8 LogicVista +5.4
GSPO 53.4 基线
+DyCo-RL 56.5 MMBench +9.7

关键观察

  1. 算法无关:不管底层是 GRPO(组相对)、DAPO(非对称裁剪)、SAPO(软门控)还是 GSPO(轨迹级),DyCo-RL 都有效。说明它解决的是RLVR 的共性盲区,而非某个特定算法的 bug。

  2. 跨域一致:数学题(需要推理)和视觉题(需要感知)都有提升。说明动态协调是通用需求,不限于特定任务类型。

  3. 大模型也有效:7B 模型基线已经很高,DyCo-RL 仍能提升。说明即使是更强的模型,协调崩了的问题依然存在


🔍 消融实验:验证每个组件的必要性

1. Fisher-Rao vs 其他角色分配策略

策略 平均 说明
GRPO 基线 44.9 -
Random(随机分配) 43.8 比基线还差,说明乱重加权是噪声
Reverse(反向分配) 43.3 最差,反向惩罚 → 反向崩溃
Entropy(静态熵) 45.7 能捕捉注意力集中度,但混淆了不确定性和角色
KL Divergence 46.1 能捕捉动态,但不对称导致不稳定
Fisher-Rao(DyCo-RL) 46.7 最优,对称、有界、几何意义明确

Reverse 最差这个结果是强有力的方向性证明:Fisher-Rao 确实分配了正确的角色。如果反向分配会崩溃,正向分配会提升,说明角色分配的逻辑是正确的。

2. 对齐重加权 vs 单模态偏置

策略 平均 说明
GRPO 基线 44.9 -
统一增强视觉注意力 44.5 视觉任务提升,文本任务暴跌
统一增强文本注意力 44.6 文本任务提升,视觉任务暴跌
DyCo-RL(动态切换) 46.7 双域提升,最稳健

关键洞察:单纯鼓励"多看图"或"多思考"都不够。协调才是关键——在正确的时间做正确的事。

3. 重加权强度 α

α 平均 说明
0.0(基线) 44.9 -
0.1 46.2 有提升但信号弱
0.2 46.8 最优
0.3 46.5 接近最优
0.4 43.7 过度重加权破坏内在协调
0.5 41.9 严重崩溃

α 是敏感超参:太小没效果,太大强制模型进入次优平衡。0.2 是"温和引导"的甜点。

4. 优势重加权 vs 奖励塑形

策略 平均 说明
GRPO 基线 44.7 -
Reward Shaping(奖励塑形) 45.7 在轨迹级奖励加对齐分数,但不稳定
Advantage Reweighting(优势重加权) 46.8 更稳定,在组归一化后注入

Reward shaping 直接改 R,会扭曲 group normalization 的统计量;Advantage reweighting 在 Â 计算后修改,保留了 baseline 的稳定性。

5. Rollout 数量

R 平均 说明
4(默认) 46.7 -
8 47.3 有提升
16 48.2 边际提升递减

R=4 性价比最高,R=16 的收益不值得 doubled compute。


🧬 机制分析:DyCo-RL 改变了什么?

1. 角色-注意力对齐增强

训练后,模型内部的注意力分配更"听话"了:

  • 视觉导向 token:对图片的注意力显著增加,对文本的注意力被抑制
  • 文本导向 token:对文本的注意力显著增加,对图片的注意力被抑制

这说明 DyCo-RL 不只是表面提升分数,而是真正改变了模型的注意力行为

2. 时间动态重塑

基线模型的注意力分布是刚性分阶段的:

  • 前半段: predominantly 视觉(看图片)
  • 后半段: predominantly 文本(写推理)

DyCo-RL 训练后:

  • 视觉导向 token 在中间阶段(0.4-0.6 位置)保持持续存在 → 推理过程中可以重新回看图片验证
  • 文本导向 token 更早激活且分布更均匀 → 推理开始得更早,分布更自然

这克服了"先感知后推理"的瓶颈,实现了动态交替


💡 为什么 DyCo-RL 重要

1. 从"结果优化"到"过程优化"

现有 RLVR 只关心最终答案对不对。DyCo-RL 首次把过程协调纳入优化目标——不光要答案对,还要生成过程中每个 token 都"各司其职"。

这类似于:

  • 传统 RLVR:只看考试分数
  • DyCo-RL:还看答题过程——该画图的时候画了吗?该列公式的时候列了吗?

2. 注意力几何的新工具:Fisher-Rao

Fisher-Rao 距离通常用于信息几何、统计流形。DyCo-RL 把它借用到注意力分析中,说明注意力分布的变化几何可以揭示 token 的功能角色。

这暗示了一个更大的研究方向:LLM 的注意力不只是"看哪里",而是概率分布空间中的运动轨迹。Fisher-Rao、Wasserstein、Hellinger 等度量可能都是分析注意力动态的有效工具。

3. 即插即用的普适性

DyCo-RL 不改模型结构、不改基线算法、不需要额外训练数据。它只是一个优势重加权插件。这意味着:

  • 任何人用 RLVR 训练 MLLM 都可以加
  • 成本增加很小(计算 attention stats 和 Fisher-Rao 距离的 overhead)
  • 与未来的 RLVR 算法也兼容

4. 可解释性增强

通过角色分配和对齐分数,DyCo-RL 提供了一种机械性解释模型行为的方法:

  • 这个 token 应该看图片,它看了吗?对齐分数是多少?
  • 为什么这条 rollout 错了?因为第 15 个 token(视觉导向)对图片关注不足。

这比传统的"attention map 可视化"更结构化。


⚠️ 局限

1. 计算开销

虽然不加额外可训练参数,但每个 rollout 需要计算:

  • 每个 token 的双模态注意力分解
  • 连续 token 的 Fisher-Rao 距离
  • 对齐分数和重加权

论文报告:3B 模型约 48 GPU-hours,7B 约 72 GPU-hours。比 vanilla RLVR 慢一点,但"可接受"。对于更长的 rollout(如 4096 token),overhead 可能显著增加。

2. 只测了 3B/7B

所有实验在 Qwen2.5-VL-3B/7B 上完成。更大的模型(72B 级)可能有定性不同的注意力动态(如 attention sink 效应更强)。是否有效待验证。

3. 人工标注的局限性

诊断实验依赖 200 条人工标注的 token 级角色(Cohen's κ=0.85,一致性很高)。但:

  • 200 条样本量有限
  • 只覆盖了数学/几何题型
  • 更开放域的任务(如视频理解、文档问答)的 token 角色更难定义

4. 超参敏感性

α(重加权强度)和 τ(角色分配阈值)都需要调。α 的 sweet spot 很窄(0.2),不同任务/模型可能需要不同值。自动调参是未来的方向。

5. 与视觉编码器的耦合

论文解冻了 vision tower(视觉编码器)进行全参数训练。但 DyCo-RL 的角色分配依赖视觉 patch 的 attention。如果 vision tower 被冻结(常见的 LoRA/Adapter 设置),视觉 patch 的注意力动态可能不够丰富,DyCo-RL 的效果可能受限。


🎯 应用场景

  • 数学视觉推理:几何题、图表题、工程图理解——需要反复在"看图"和"推导"之间切换
  • 医疗影像诊断:看 CT/MRI 找病灶 + 结合病史推理 → 需要动态协调
  • 自动驾驶:感知摄像头输入 + 结合交通规则/地图推理 → 实时协调关键
  • 文档/表格理解:看版面结构 + 提取文字信息 + 跨段落推理 → 复杂协调
  • 视频理解:时间轴上的视觉事件 + 文本描述/QA → 长序列协调

📚 核心信息

  • 论文:DyCo-RL: Dynamic Cross-Modal Coordination for Visual Reasoning (arXiv:2606.08035)
  • 作者:Hangui Lin et al. (Trento, BAAI, SMU, IQuest)
  • 代码https://github.com/Sammy20207109/DyCo-RL
  • 核心创新:Fisher-Rao 测地线距离分配 token 角色 + 对齐引导的优势重加权
  • 基线覆盖:GRPO、DAPO、SAPO、GSPO(四种主流 RLVR)
  • 模型:Qwen2.5-VL-3B/7B
  • 训练数据:ThinkLite-hard-11K
  • 评测:7 benchmark(WeMath、MathVision、MathVerse、LogicVista、HallusionBench、MME、MMBench)
  • 关键超参:α=0.2(重加权强度),τ=0.05(角色分配阈值)
  • 训练成本:3B 48 GPU-hours,7B 72 GPU-hours(8×A100 80GB)
  • 核心洞察:错误样本中,视觉导向 token 对图片关注不足,文本导向 token 对前文关注不足——协调崩了是因果性的

"DyCo-RL 的本质是一个简单的追问:你生成的每个 token,真的在干它该干的事吗?在 AI 学会思考之前,也许它需要先学会——在正确的时间看正确的模态。"

#DyCo-RL #多模态大模型 #视觉推理 #RLVR #GRPO #DAPO #FisherRao #注意力机制 #token级优化 #Qwen #智源研究院 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录