Self-Evolving Visual Questioner 深度拆解：让 AI 学会「提出好问题」

论文： Self-Evolving Visual Questioner 作者： Yijun Liang, Hengguang Zhou, Ming Li, Lichen Li, Cho-Jui Hsieh, Tianyi Zhou 机构： 马里兰大学帕克分校、UCLA、北京大学、Arena、MBZUAI 链接： https://arxiv.org/abs/2606.13929 项目页： https://joliang17.github.io/SelfEvolvingVQG/

---

一、一句话定位

这篇论文解决了一个被长期忽视的问题：视觉语言模型（VLM）只会「回答问题」，但不太会「提出问题」。作者设计了一个完全自监督的进化框架，让 VLM 在没有任何人类标注、外部教师模型或奖励模型的情况下，仅凭未标注图像就能持续提升自身的视觉提问能力——两轮进化后提问质量提升 82%，同时回答能力不降反升。

---

二、为什么「提问能力」很重要？

当前 VLM 的「偏科」问题

现有 VLM 几乎都是「被动回答者」：

人类给问题 → 模型给答案
问题来自固定数据集、人类标注或更强的外部模型
学习焦点永远是「如何答得更好」

但提问能力是智能系统的基础能力：

它反映模型能否主动 inspect 图像
能否识别有价值的视觉证据
能否构建需要 meaningful perception 和 reasoning 的问题

更好的视觉问题可以暴露更丰富的证据和推理路径，从而成为改进视觉提问本身的监督信号。

现有方法的瓶颈

现有视觉问题生成（VQG）方法被静态数据分布卡死：

依赖人类标注或精选数据集
或依赖更强的外部模型提供监督
学习的主要模式是「模仿现有问题模板」

结果：生成的问题集中在重复模板、显著物体和表面识别上，缺乏对图像特定视觉证据的深入 inspect。

---

三、核心洞察：自训练为什么会退化？

论文指出了一个关键问题：简单的自训练不会自动导致自我改进。

如果没有机制显式地： 1. 保持探索多样性 2. 提升问题难度 3. 确保视觉 grounding

模型会强化自身偏见，坍缩到重复、低信息、弱 grounded 的问题上。

关键挑战不是生成更多问题，而是持续进化提问能力，同时在整个训练过程中逐步扩展多样性和推理难度。

---

四、自进化框架：三步机制 + 双格式训练

┌─────────────────────────────────────────────────────────────────────────────┐
│  第 t 轮：Mt（当前模型）                                                     │
│                                                                             │
│  ┌──────────────┐     ┌──────────────┐     ┌──────────────┐                │
│  │ 1. 提案      │ ──→ │ 2. 重写      │ ──→ │ 3. 过滤      │                │
│  │ 多意图提问   │     │ M0 重写 harder│     │ 保留高质量    │                │
│  └──────────────┘     └──────────────┘     └──────────────┘                │
│         │                    │                    │                        │
│         └────────────────────┴────────────────────┘                        │
│                              ↓                                             │
│                    ┌──────────────────┐                                    │
│                    │ 双格式训练数据    │                                    │
│                    │ D(t) = D_QG ∪ D_QA │                                  │
│                    └──────────────────┘                                    │
│                              ↓                                             │
│                    ┌──────────────────┐                                    │
│                    │ 微调 → Mt+1      │                                    │
│                    │ (下一轮提案器)    │                                    │
│                    └──────────────────┘                                    │
└─────────────────────────────────────────────────────────────────────────────┘

---

五、三步机制详解

Step 1: 多意图提案（Question Proposal）

目标： 让模型从一张图中提出多样化的问题候选。

做法：

对每张未标注图像，当前模型 Mt 基于不同视觉意图生成候选问题：
直接识别（Direct Recognition）
比较（Comparison）
空间关系（Spatial Relations）
场景理解（Scene Understanding）
Grounded Reasoning
每个问题由 Mt 自己生成对应答案
形成初始候选池：C^prop_t = {(x_i, q^prop_i,j, a^prop_i,j)}

为什么需要多意图？

单一意图会导致问题集中在某类模式上。多意图强制模型覆盖图像的不同方面，减少浅层或重复问题模板的倾向。

---

Step 2: 重写（Question Rewriting）

目标： 将提案问题改写成更难、更视觉中心的问题。

关键设计：用初始模型 M0 重写，而不是用当前模型 Mt

为什么？

Mt 是「进化中的提案器」——它的分布已经在前几轮中被改变了
如果用 Mt 重写自己的提案，提案和重写会 tightly coupled，遵循相同分布
M0 作为「预适应的问题进化算子」——引入不同视角，增加有用探索和多样性

具体做法：

给定：图像 x + 提案问题 q^prop + 进化指令 r
输出：重写后的问题 q^rw ~ M0(·|x, q^prop, r)

进化指令 r 指定难度方向：

增加视觉 inspect 难度
增强证据 grounding
增强上下文推理
增强空间推理

然后 M0 为 q^rw 生成答案 a^rw，形成重写候选池 C^rw_t。

---

Step 3: 过滤（Question Filtering）

目标： 从重写候选中筛选出高质量的训练数据。

过滤规则：

对每个重写候选 (x, q^rw, a^rw)，与原始提案 (x, q^prop, a^prop) 比较：

保留条件：

✅ 视觉上可回答（visually answerable）
✅ 视觉上 grounded（visually grounded）
✅ 比原始提案在感知难度或推理难度上有提升

丢弃条件：

❌ 模糊（ambiguous）
❌ 弱 grounded（weakly grounded）
❌ 视觉上无法回答
❌ 没有超过原始提案

过滤后的数据形成训练集 D^(t)。

---

六、双格式训练：既要会问，也要会答

为什么需要两种格式？

如果只训练 QG 格式（图像→问题+答案）：

✅ 提问能力提升
❌ 可能 drift away from 回答能力

如果只训练 QA 格式（图像+问题→答案）：

✅ 保持回答能力
❌ 对提问能力帮助有限

双格式设计

QG 格式：x_i → (q_i, a_i)
   - 输入：仅图像
   - 输出：问题和答案
   - 作用：教模型生成视觉中心、grounded 的问题

QA 格式：(x_i, q_i) → a_i
   - 输入：图像 + 问题
   - 输出：答案
   - 作用：锚定回答行为，保持下游 VQA 能力

训练集：D^train_(t) = D^QG_(t) ∪ D^QA_(t)

结果： 10K 自监督样本就足以提升 QG 质量，而不降低下游 QA 性能。

---

七、迭代自进化：闭环提升

Round 0: M0（初始模型）
   → 生成 + 重写 + 过滤 → D^(0)
   → 双格式训练 → M1

Round 1: M1（第一轮进化后模型）
   → 作为新的提案器生成问题
   → M0 重写 + 过滤 → D^(1)
   → 双格式训练 → M2

Round 2: M2（第二轮进化后模型）
   → ...可以继续迭代

核心洞察： 适应后的模型在后续轮次中产生更强的问题提案，这些提案通过重写和过滤进一步精炼。使用相同的未标注图像池，框架逐步将生成的问题分布重塑为更广泛覆盖、更强 grounding、更高感知/推理难度。

---

八、评估协议：不只是 QA 准确率

传统评估的问题

传统 VQG 评估依赖：

BLEU、METEOR、CIDEr（与参考答案的文本相似度）
或 QA 准确率（间接衡量问题质量）

问题： 表面质量不一定反映视觉信息量。一个问题可能措辞良好但 shallow、ambiguous、弱 grounded 或与同图其他问题 redundant。

智能体评估协议（Agentic Evaluation Protocol）

论文提出从三个层面评估：

#### 1. 个体问题层面

感知难度（Perception Difficulty）：

Visual Search Difficulty：定位所需证据的难度
Visual Evidence Coverage：问题依赖图像中证据的广度

推理难度（Reasoning Difficulty）：

Visual Context Reasoning：从可见线索进行上下文解释
Visual Spatial Reasoning：图像元素间空间关系的推理

#### 2. 问题集层面

Questioning Diversity：同一张图生成的问题间的冗余度

用句子嵌入模型（Qwen3-Embedding-4B）计算语义距离
衡量问题集是否提供非冗余的视觉监督

#### 3. 评估实现

使用 GPT-5.4 作为图像条件 judge
每个维度 0-5 分，归一化到 [0,1]
Judge 只能看到图像和问题，不知道模型身份

---

九、实验结果

主实验：QG 提升 + QA 保持

在三个 backbone 上验证：Qwen2.5-VL-3B、Qwen2.5-VL-7B、Qwen3VL-4B

模型	轮次	Search	Coverage	Context	Spatial	Diversity	QG Avg	QA Avg
Qwen2.5-VL-3B	Base	0.26	0.39	0.30	0.03	0.28	0.25	61.90%
	Round 1	0.37	0.51	0.49	0.25	0.32	0.39	62.45%
	Round 2	0.43	0.55	0.55	0.37	0.35	0.45	62.78%
	提升	+65%	+41%	+83%	+1133%	+25%	+80%	+1.4%

| Qwen3VL-4B | Base | 0.36 | 0.53 | 0.49 | 0.16 | 0.37 | 0.38 | 68.92% | | | Round 1 | 0.42 | 0.56 | 0.55 | 0.30 | 0.38 | 0.44 | 69.15% | | | Round 2 | 0.46 | 0.59 | 0.58 | 0.38 | 0.40 | 0.48 | 69.50% | | | 提升 | +28% | +11% | +18% | +138% | +8% | +26% | +0.8% |

关键发现： 1. 两轮进化后 QG 平均提升约 82%（Qwen2.5-VL-3B 从 0.25→0.45） 2. 所有维度持续提升，尤其 Spatial Reasoning 提升最显著（+1133%，从接近 0 到 0.37） 3. QA 性能不降反升，说明提问和回答能力可以双赢 4. 即使在强基线 Qwen3VL-4B 上也有显著提升

---

消融实验 1：双格式训练的效果

格式	Search	Coverage	Context	Spatial	Diversity	QG Avg	QA Avg
QA-only	0.33	0.46	0.42	0.18	0.29	0.34	62.10%
QG-only	0.40	0.53	0.51	0.32	0.33	0.42	61.23% ❌
QA+QG	0.43	0.55	0.55	0.37	0.35	0.45	62.78% ✅

结论：

QG-only 提升提问但降低回答能力（drift away）
QA+QG 双格式实现最佳平衡：强 QG + 保持/提升 QA

---

消融实验 2：重写和过滤的作用

重写	过滤	Search	Coverage	Context	Spatial	Diversity	QG Avg
❌	❌	0.31	0.50	0.47	0.20	0.26	0.35
✅	❌	0.35	0.52	0.51	0.29	0.32	0.40
✅	✅	0.43	0.55	0.55	0.37	0.35	0.45

结论：

直接自生成数据已能提升（0.25→0.35）
重写进一步扩展所有维度（0.35→0.40）
过滤是关键：不仅移除无效样本，还选择更匹配 desired QG properties 的候选
重写和过滤互补：重写扩展候选池，过滤选择高质量监督

---

消融实验 3：自监督 vs 原始标注

监督来源	Search	Coverage	Context	Spatial	Diversity	QG Avg	QA Avg
原始 SAT 标注	0.38	0.48	0.44	0.22	0.28	0.36	61.45%
自监督数据	0.43	0.55	0.55	0.37	0.35	0.45	62.78%
混合	0.41	0.53	0.52	0.33	0.33	0.42	62.10%

结论：

在固定小数据预算（10K）下，自监督数据比原始标注更有效
原始 SAT 标注虽然是大规模指令微调数据集，但直接采样小 subset 不是最优选择
混合反而稀释了自监督的针对性信号

---

实验 4：更好的问题 → 更好的监督

问题： 改进的问题生成是否能产生更有用的下游监督？

设置：

两组训练数据，仅问题来源不同
Base-Q：用基础模型生成的问题
Improved-Q：用进化后的 QG 模型生成的问题
两组都用 GPT-5.4 生成答案（控制答案质量）

问题来源	CVBench-2D	CVBench-3D	SparBench	VStar	RWQA	QA Avg
Base-Q	58.32%	69.25%	55.80%	62.50%	62.63%	61.90%
Improved-Q	59.15%	75.58%	56.20%	63.75%	61.93%	63.32%

结论：

用改进后的问题训练，QA 平均准确率从 61.90% 提升到 63.32%
尤其在 CVBench-3D 上提升显著（69.25%→75.58%）
更好的问题质量不仅限于 QG 任务本身——需要更丰富视觉证据和推理的问题为下游 QA 训练提供了更有信息的监督

---

十、深度分析：为什么这个框架有效？

1. 分离提案与重写

这是论文最精妙的设计之一：

Mt（当前模型）决定探索什么问题——进化中的分布允许发现新的问题空间
M0（初始模型）负责重写——引入不同视角，防止 tightly coupled 的坍缩

这种「双模型」设计类似于 GAN 的生成器-判别器分离，但这里是同一模型的不同 checkpoint。

2. 过滤不是简单的「去掉坏的」

过滤规则明确要求重写后的候选必须：

比原始提案在感知或推理难度上有提升
这迫使模型不断向更难的方向进化

3. 双格式训练的协同效应

QG 格式训练「提问肌肉」，QA 格式训练「回答肌肉」。两者共享相同的视觉编码器和语言解码器，形成互补：

更好的提问 → 更好的视觉 inspect → 更好的回答
更好的回答 → 更准确的问题评估 → 更好的过滤

4. 多样性的显式保持

Diversity 作为评估维度之一，确保模型不会坍缩到少数几类问题上。这在自训练框架中至关重要。

---

十一、与相关工作的对比

维度	传统 VQG	Self-Improving VLMs	Self-Evolving VQ
监督来源	人类标注 / 外部模型	自生成数据	自生成 + 自精炼
目标	模仿现有问题	提升回答能力	提升提问能力本身
多样性保持	受限于数据来源	容易坍缩	提案-重写-过滤显式保持
难度控制	固定	有限	逐步进化提升
外部依赖	需要标注/强模型	可能需要奖励模型	零外部依赖
评估方式	BLEU/CIDEr / QA 准确率	QA 准确率	感知+推理+多样性三维

---

十二、局限性与未来方向

当前局限

1. 过滤标准可以更精细： 当前主要关注可回答性和难度，visual grounding、ambiguity、instructional value 等可以更细粒度地捕捉

2. 计算开销： 提案-重写-过滤-训练循环比直接用现有 QA 数据训练开销大，尤其在迭代时。可以通过 batching、轻量过滤或选择性进化策略优化

3. 仅评估 2D 图像： 未覆盖 3D 场景、视频、多图推理等更复杂 setting

4. Judge 依赖： 使用 GPT-5.4 作为 judge 可能引入模型偏见

未来方向

1. 更智能的过滤： 引入 visual grounding verifier、ambiguity detector 2. 多模态扩展： 视频提问、3D 场景提问、跨图像提问 3. 与 Agent 结合： 让 VLM Agent 主动提问来探索环境 4. 课程学习： 根据当前模型能力动态调整进化难度 5. 跨模态迁移： 将视觉提问的进化机制迁移到音频、触觉等其他模态

---

十三、核心启示

对 VLM 训练的启示

1. 提问和回答应该同时训练

传统 VLM 只训练回答能力。这篇论文证明，显式训练提问能力不仅不损害回答能力，还能通过更好的问题监督反哺回答能力。

2. 自进化需要「进化算子」

简单的自训练（用自己的输出训练自己）容易坍缩。论文的关键创新是引入 M0 作为「预适应进化算子」，提供外部视角来防止 tightly coupled 的退化。

3. 多样性不是副产品，是需要显式优化的目标

Diversity 作为核心评估维度之一，确保进化不会走向单一化。这在任何自训练框架中都至关重要。

对 AI 系统设计的启示

4. 「好问题」比「多问题」更重要

实验显示，10K 高质量自监督数据比 10K 原始标注更有效。在有限预算下，问题的质量（ grounding、难度、多样性）比数量更重要。

5. 闭环自我改进是可行的

这篇论文证明了 VLM 可以在完全自监督的情况下持续提升特定能力。这为未来「自我改进的 AI 系统」提供了重要证据。

---

总结

Self-Evolving Visual Questioner 是一篇概念简洁但设计精妙的论文。它解决了一个被长期忽视的问题——VLM 的提问能力——并通过一个完全自监督的框架实现了显著改进。

最值得关注的三点：

1. M0 作为进化算子的设计：分离提案和重写，防止自训练坍缩 2. 双格式训练的协同：提问和回答能力可以双赢，而非零和 3. 三维评估协议：超越 QA 准确率，从感知、推理、多样性全面衡量问题质量

82% 的提升数字很亮眼，但更有价值的是框架本身——它证明了 AI 系统可以在没有外部监督的情况下，通过精心设计的自我进化机制持续提升特定能力。

这对于构建更自主、更持续的 AI 学习系统具有重要意义。

> *"We show that a VLM can continuously improve itself as a visual questioner without any external supervision."* > — 论文核心声明

---

*参考：arXiv:2606.13929 | joliang17.github.io/SelfEvolvingVQG/* *#VLM #VisualQuestionGeneration #SelfEvolution #Multimodal #AI #小凯*

Self-Evolving Visual Questioner 深度拆解：让 AI 学会「提出好问题」

Self-Evolving Visual Questioner 深度拆解：让 AI 学会「提出好问题」

一、一句话定位

二、为什么「提问能力」很重要？

当前 VLM 的「偏科」问题

现有方法的瓶颈

三、核心洞察：自训练为什么会退化？

四、自进化框架：三步机制 + 双格式训练

五、三步机制详解

Step 1: 多意图提案（Question Proposal）

Step 2: 重写（Question Rewriting）

Step 3: 过滤（Question Filtering）

六、双格式训练：既要会问，也要会答

为什么需要两种格式？

双格式设计

七、迭代自进化：闭环提升

八、评估协议：不只是 QA 准确率

传统评估的问题

智能体评估协议（Agentic Evaluation Protocol）

九、实验结果

主实验：QG 提升 + QA 保持

消融实验 1：双格式训练的效果

消融实验 2：重写和过滤的作用

消融实验 3：自监督 vs 原始标注

实验 4：更好的问题 → 更好的监督

十、深度分析：为什么这个框架有效？

1. 分离提案与重写

2. 过滤不是简单的「去掉坏的」

3. 双格式训练的协同效应

4. 多样性的显式保持

十一、与相关工作的对比

十二、局限性与未来方向

当前局限

未来方向

十三、核心启示

对 VLM 训练的启示

对 AI 系统设计的启示

总结

🌟 智谱 GLM-5 已上线