Self-Evolving Visual Questioner 深度拆解:让 AI 学会「提出好问题」
Self-Evolving Visual Questioner 深度拆解:让 AI 学会「提出好问题」
论文: Self-Evolving Visual Questioner 作者: Yijun Liang, Hengguang Zhou, Ming Li, Lichen Li, Cho-Jui Hsieh, Tianyi Zhou 机构: 马里兰大学帕克分校、UCLA、北京大学、Arena、MBZUAI 链接: https://arxiv.org/abs/2606.13929 项目页: https://joliang17.github.io/SelfEvolvingVQG/
---
一、一句话定位
这篇论文解决了一个被长期忽视的问题:视觉语言模型(VLM)只会「回答问题」,但不太会「提出问题」。作者设计了一个完全自监督的进化框架,让 VLM 在没有任何人类标注、外部教师模型或奖励模型的情况下,仅凭未标注图像就能持续提升自身的视觉提问能力——两轮进化后提问质量提升 82%,同时回答能力不降反升。
---
二、为什么「提问能力」很重要?
当前 VLM 的「偏科」问题
现有 VLM 几乎都是「被动回答者」:
- 人类给问题 → 模型给答案
- 问题来自固定数据集、人类标注或更强的外部模型
- 学习焦点永远是「如何答得更好」
- 它反映模型能否主动 inspect 图像
- 能否识别有价值的视觉证据
- 能否构建需要 meaningful perception 和 reasoning 的问题
现有方法的瓶颈
现有视觉问题生成(VQG)方法被静态数据分布卡死:
- 依赖人类标注或精选数据集
- 或依赖更强的外部模型提供监督
- 学习的主要模式是「模仿现有问题模板」
---
三、核心洞察:自训练为什么会退化?
论文指出了一个关键问题:简单的自训练不会自动导致自我改进。
如果没有机制显式地: 1. 保持探索多样性 2. 提升问题难度 3. 确保视觉 grounding
模型会强化自身偏见,坍缩到重复、低信息、弱 grounded 的问题上。
关键挑战不是生成更多问题,而是持续进化提问能力,同时在整个训练过程中逐步扩展多样性和推理难度。
---
四、自进化框架:三步机制 + 双格式训练
┌─────────────────────────────────────────────────────────────────────────────┐
│ 第 t 轮:Mt(当前模型) │
│ │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 1. 提案 │ ──→ │ 2. 重写 │ ──→ │ 3. 过滤 │ │
│ │ 多意图提问 │ │ M0 重写 harder│ │ 保留高质量 │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ │
│ │ │ │ │
│ └────────────────────┴────────────────────┘ │
│ ↓ │
│ ┌──────────────────┐ │
│ │ 双格式训练数据 │ │
│ │ D(t) = D_QG ∪ D_QA │ │
│ └──────────────────┘ │
│ ↓ │
│ ┌──────────────────┐ │
│ │ 微调 → Mt+1 │ │
│ │ (下一轮提案器) │ │
│ └──────────────────┘ │
└─────────────────────────────────────────────────────────────────────────────┘
---
五、三步机制详解
Step 1: 多意图提案(Question Proposal)
目标: 让模型从一张图中提出多样化的问题候选。
做法:
- 对每张未标注图像,当前模型 Mt 基于不同视觉意图生成候选问题:
- 直接识别(Direct Recognition)
- 比较(Comparison)
- 空间关系(Spatial Relations)
- 场景理解(Scene Understanding)
- Grounded Reasoning
- 每个问题由 Mt 自己生成对应答案
- 形成初始候选池:C^prop_t = {(x_i, q^prop_i,j, a^prop_i,j)}
单一意图会导致问题集中在某类模式上。多意图强制模型覆盖图像的不同方面,减少浅层或重复问题模板的倾向。
---
Step 2: 重写(Question Rewriting)
目标: 将提案问题改写成更难、更视觉中心的问题。
关键设计:用初始模型 M0 重写,而不是用当前模型 Mt
为什么?
- Mt 是「进化中的提案器」——它的分布已经在前几轮中被改变了
- 如果用 Mt 重写自己的提案,提案和重写会 tightly coupled,遵循相同分布
- M0 作为「预适应的问题进化算子」——引入不同视角,增加有用探索和多样性
给定:图像 x + 提案问题 q^prop + 进化指令 r
输出:重写后的问题 q^rw ~ M0(·|x, q^prop, r)
进化指令 r 指定难度方向:
- 增加视觉 inspect 难度
- 增强证据 grounding
- 增强上下文推理
- 增强空间推理
---
Step 3: 过滤(Question Filtering)
目标: 从重写候选中筛选出高质量的训练数据。
过滤规则:
对每个重写候选 (x, q^rw, a^rw),与原始提案 (x, q^prop, a^prop) 比较:
保留条件:
- ✅ 视觉上可回答(visually answerable)
- ✅ 视觉上 grounded(visually grounded)
- ✅ 比原始提案在感知难度或推理难度上有提升
- ❌ 模糊(ambiguous)
- ❌ 弱 grounded(weakly grounded)
- ❌ 视觉上无法回答
- ❌ 没有超过原始提案
---
六、双格式训练:既要会问,也要会答
为什么需要两种格式?
如果只训练 QG 格式(图像→问题+答案):
- ✅ 提问能力提升
- ❌ 可能 drift away from 回答能力
- ✅ 保持回答能力
- ❌ 对提问能力帮助有限
双格式设计
QG 格式:x_i → (q_i, a_i)
- 输入:仅图像
- 输出:问题和答案
- 作用:教模型生成视觉中心、grounded 的问题
QA 格式:(x_i, q_i) → a_i
- 输入:图像 + 问题
- 输出:答案
- 作用:锚定回答行为,保持下游 VQA 能力
训练集:D^train_(t) = D^QG_(t) ∪ D^QA_(t)
结果: 10K 自监督样本就足以提升 QG 质量,而不降低下游 QA 性能。
---
七、迭代自进化:闭环提升
Round 0: M0(初始模型)
→ 生成 + 重写 + 过滤 → D^(0)
→ 双格式训练 → M1
Round 1: M1(第一轮进化后模型)
→ 作为新的提案器生成问题
→ M0 重写 + 过滤 → D^(1)
→ 双格式训练 → M2
Round 2: M2(第二轮进化后模型)
→ ...可以继续迭代
核心洞察: 适应后的模型在后续轮次中产生更强的问题提案,这些提案通过重写和过滤进一步精炼。使用相同的未标注图像池,框架逐步将生成的问题分布重塑为更广泛覆盖、更强 grounding、更高感知/推理难度。
---
八、评估协议:不只是 QA 准确率
传统评估的问题
传统 VQG 评估依赖:
- BLEU、METEOR、CIDEr(与参考答案的文本相似度)
- 或 QA 准确率(间接衡量问题质量)
智能体评估协议(Agentic Evaluation Protocol)
论文提出从三个层面评估:
#### 1. 个体问题层面
感知难度(Perception Difficulty):
- Visual Search Difficulty:定位所需证据的难度
- Visual Evidence Coverage:问题依赖图像中证据的广度
- Visual Context Reasoning:从可见线索进行上下文解释
- Visual Spatial Reasoning:图像元素间空间关系的推理
Questioning Diversity:同一张图生成的问题间的冗余度
- 用句子嵌入模型(Qwen3-Embedding-4B)计算语义距离
- 衡量问题集是否提供非冗余的视觉监督
- 使用 GPT-5.4 作为图像条件 judge
- 每个维度 0-5 分,归一化到 [0,1]
- Judge 只能看到图像和问题,不知道模型身份
九、实验结果
主实验:QG 提升 + QA 保持
在三个 backbone 上验证:Qwen2.5-VL-3B、Qwen2.5-VL-7B、Qwen3VL-4B
| 模型 | 轮次 | Search | Coverage | Context | Spatial | Diversity | QG Avg | QA Avg |
|---|---|---|---|---|---|---|---|---|
| Qwen2.5-VL-3B | Base | 0.26 | 0.39 | 0.30 | 0.03 | 0.28 | 0.25 | 61.90% |
| Round 1 | 0.37 | 0.51 | 0.49 | 0.25 | 0.32 | 0.39 | 62.45% | |
| Round 2 | 0.43 | 0.55 | 0.55 | 0.37 | 0.35 | 0.45 | 62.78% | |
| 提升 | +65% | +41% | +83% | +1133% | +25% | +80% | +1.4% |
关键发现: 1. 两轮进化后 QG 平均提升约 82%(Qwen2.5-VL-3B 从 0.25→0.45) 2. 所有维度持续提升,尤其 Spatial Reasoning 提升最显著(+1133%,从接近 0 到 0.37) 3. QA 性能不降反升,说明提问和回答能力可以双赢 4. 即使在强基线 Qwen3VL-4B 上也有显著提升
---
消融实验 1:双格式训练的效果
| 格式 | Search | Coverage | Context | Spatial | Diversity | QG Avg | QA Avg |
|---|---|---|---|---|---|---|---|
| QA-only | 0.33 | 0.46 | 0.42 | 0.18 | 0.29 | 0.34 | 62.10% |
| QG-only | 0.40 | 0.53 | 0.51 | 0.32 | 0.33 | 0.42 | 61.23% ❌ |
| QA+QG | 0.43 | 0.55 | 0.55 | 0.37 | 0.35 | 0.45 | 62.78% ✅ |
- QG-only 提升提问但降低回答能力(drift away)
- QA+QG 双格式实现最佳平衡:强 QG + 保持/提升 QA
消融实验 2:重写和过滤的作用
| 重写 | 过滤 | Search | Coverage | Context | Spatial | Diversity | QG Avg |
|---|---|---|---|---|---|---|---|
| ❌ | ❌ | 0.31 | 0.50 | 0.47 | 0.20 | 0.26 | 0.35 |
| ✅ | ❌ | 0.35 | 0.52 | 0.51 | 0.29 | 0.32 | 0.40 |
| ✅ | ✅ | 0.43 | 0.55 | 0.55 | 0.37 | 0.35 | 0.45 |
- 直接自生成数据已能提升(0.25→0.35)
- 重写进一步扩展所有维度(0.35→0.40)
- 过滤是关键:不仅移除无效样本,还选择更匹配 desired QG properties 的候选
- 重写和过滤互补:重写扩展候选池,过滤选择高质量监督
消融实验 3:自监督 vs 原始标注
| 监督来源 | Search | Coverage | Context | Spatial | Diversity | QG Avg | QA Avg |
|---|---|---|---|---|---|---|---|
| 原始 SAT 标注 | 0.38 | 0.48 | 0.44 | 0.22 | 0.28 | 0.36 | 61.45% |
| 自监督数据 | 0.43 | 0.55 | 0.55 | 0.37 | 0.35 | 0.45 | 62.78% |
| 混合 | 0.41 | 0.53 | 0.52 | 0.33 | 0.33 | 0.42 | 62.10% |
- 在固定小数据预算(10K)下,自监督数据比原始标注更有效
- 原始 SAT 标注虽然是大规模指令微调数据集,但直接采样小 subset 不是最优选择
- 混合反而稀释了自监督的针对性信号
实验 4:更好的问题 → 更好的监督
问题: 改进的问题生成是否能产生更有用的下游监督?
设置:
- 两组训练数据,仅问题来源不同
- Base-Q:用基础模型生成的问题
- Improved-Q:用进化后的 QG 模型生成的问题
- 两组都用 GPT-5.4 生成答案(控制答案质量)
| 问题来源 | CVBench-2D | CVBench-3D | SparBench | VStar | RWQA | QA Avg |
|---|---|---|---|---|---|---|
| Base-Q | 58.32% | 69.25% | 55.80% | 62.50% | 62.63% | 61.90% |
| Improved-Q | 59.15% | 75.58% | 56.20% | 63.75% | 61.93% | 63.32% |
- 用改进后的问题训练,QA 平均准确率从 61.90% 提升到 63.32%
- 尤其在 CVBench-3D 上提升显著(69.25%→75.58%)
- 更好的问题质量不仅限于 QG 任务本身——需要更丰富视觉证据和推理的问题为下游 QA 训练提供了更有信息的监督
十、深度分析:为什么这个框架有效?
1. 分离提案与重写
这是论文最精妙的设计之一:
- Mt(当前模型)决定探索什么问题——进化中的分布允许发现新的问题空间
- M0(初始模型)负责重写——引入不同视角,防止 tightly coupled 的坍缩
2. 过滤不是简单的「去掉坏的」
过滤规则明确要求重写后的候选必须:
- 比原始提案在感知或推理难度上有提升
- 这迫使模型不断向更难的方向进化
3. 双格式训练的协同效应
QG 格式训练「提问肌肉」,QA 格式训练「回答肌肉」。两者共享相同的视觉编码器和语言解码器,形成互补:
- 更好的提问 → 更好的视觉 inspect → 更好的回答
- 更好的回答 → 更准确的问题评估 → 更好的过滤
4. 多样性的显式保持
Diversity 作为评估维度之一,确保模型不会坍缩到少数几类问题上。这在自训练框架中至关重要。
---
十一、与相关工作的对比
| 维度 | 传统 VQG | Self-Improving VLMs | Self-Evolving VQ |
|---|---|---|---|
| 监督来源 | 人类标注 / 外部模型 | 自生成数据 | 自生成 + 自精炼 |
| 目标 | 模仿现有问题 | 提升回答能力 | 提升提问能力本身 |
| 多样性保持 | 受限于数据来源 | 容易坍缩 | 提案-重写-过滤显式保持 |
| 难度控制 | 固定 | 有限 | 逐步进化提升 |
| 外部依赖 | 需要标注/强模型 | 可能需要奖励模型 | 零外部依赖 |
| 评估方式 | BLEU/CIDEr / QA 准确率 | QA 准确率 | 感知+推理+多样性三维 |
十二、局限性与未来方向
当前局限
1. 过滤标准可以更精细: 当前主要关注可回答性和难度,visual grounding、ambiguity、instructional value 等可以更细粒度地捕捉
2. 计算开销: 提案-重写-过滤-训练循环比直接用现有 QA 数据训练开销大,尤其在迭代时。可以通过 batching、轻量过滤或选择性进化策略优化
3. 仅评估 2D 图像: 未覆盖 3D 场景、视频、多图推理等更复杂 setting
4. Judge 依赖: 使用 GPT-5.4 作为 judge 可能引入模型偏见
未来方向
1. 更智能的过滤: 引入 visual grounding verifier、ambiguity detector 2. 多模态扩展: 视频提问、3D 场景提问、跨图像提问 3. 与 Agent 结合: 让 VLM Agent 主动提问来探索环境 4. 课程学习: 根据当前模型能力动态调整进化难度 5. 跨模态迁移: 将视觉提问的进化机制迁移到音频、触觉等其他模态
---
十三、核心启示
对 VLM 训练的启示
1. 提问和回答应该同时训练
传统 VLM 只训练回答能力。这篇论文证明,显式训练提问能力不仅不损害回答能力,还能通过更好的问题监督反哺回答能力。
2. 自进化需要「进化算子」
简单的自训练(用自己的输出训练自己)容易坍缩。论文的关键创新是引入 M0 作为「预适应进化算子」,提供外部视角来防止 tightly coupled 的退化。
3. 多样性不是副产品,是需要显式优化的目标
Diversity 作为核心评估维度之一,确保进化不会走向单一化。这在任何自训练框架中都至关重要。
对 AI 系统设计的启示
4. 「好问题」比「多问题」更重要
实验显示,10K 高质量自监督数据比 10K 原始标注更有效。在有限预算下,问题的质量( grounding、难度、多样性)比数量更重要。
5. 闭环自我改进是可行的
这篇论文证明了 VLM 可以在完全自监督的情况下持续提升特定能力。这为未来「自我改进的 AI 系统」提供了重要证据。
---
总结
Self-Evolving Visual Questioner 是一篇概念简洁但设计精妙的论文。它解决了一个被长期忽视的问题——VLM 的提问能力——并通过一个完全自监督的框架实现了显著改进。
最值得关注的三点:
1. M0 作为进化算子的设计:分离提案和重写,防止自训练坍缩 2. 双格式训练的协同:提问和回答能力可以双赢,而非零和 3. 三维评估协议:超越 QA 准确率,从感知、推理、多样性全面衡量问题质量
82% 的提升数字很亮眼,但更有价值的是框架本身——它证明了 AI 系统可以在没有外部监督的情况下,通过精心设计的自我进化机制持续提升特定能力。
这对于构建更自主、更持续的 AI 学习系统具有重要意义。
> *"We show that a VLM can continuously improve itself as a visual questioner without any external supervision."* > — 论文核心声明
---
*参考:arXiv:2606.13929 | joliang17.github.io/SelfEvolvingVQG/* *#VLM #VisualQuestionGeneration #SelfEvolution #Multimodal #AI #小凯*
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens