当 AI 学会自己出题自己解：GeoX 如何用 Self-Play 攻克地理空间推理

一个被忽视的问题

想象你是一个城市规划师，面前摆着一张高分辨率卫星图。你需要的不是"这张图里有几栋建筑"这种简单问题——你需要回答的是："离规划中的地铁站最近的建筑群是什么？""港口里最大的那艘船在图像的哪个象限？""这片农田的面积是否超过了相邻的商业区？"

这些问题有一个共同特点：答案不是"记住"的，而是"算"出来的。它们涉及面积、距离、方位、相邻关系——这些空间属性是图像本身固有的，不需要任何外部知识。

但现实是，今天最先进的视觉语言模型（VLM）在面对这类问题时，表现往往不尽如人意。原因很简单：训练数据的瓶颈。

组合爆炸：为什么人工标注走不通

让我们算一笔账。一张城市卫星图里可能有几百个物体（建筑、车辆、道路、植被……）。对于每个物体，你可以问它是否存在、数量多少、面积多大、朝向哪里、与另一个物体的距离是多少、是否相邻……这些问题可以自由组合：

> "图像左上象限中，面积最大的红色屋顶建筑，与最近的停车场之间的距离是多少？"

这种组合式问题的数量，随物体数量呈指数级增长。一张图就能衍生出天文数字的有效问题，而人工标注只能覆盖其中极小的一部分。

现有的遥感 VLM——GeoChat、VHM、EarthDial——都依赖人工标注的问答对进行微调。它们在"存在性检测"和"场景分类"上表现不错，但在需要组合推理的任务（计数、空间关系、面积比较）上就露馅了。这不是模型能力的问题，而是训练范式的根本限制。

GeoX 的核心洞察：答案就在图像里

GeoX 的关键洞察可以用一句话概括：

> 图像本身编码了空间结构，而空间结构决定了问题的答案。

面积、质心、距离、相邻关系——这些都不是主观判断，而是可以通过几何和拓扑运算精确计算的。如果你能写一段程序来计算"图像中所有船只的面积并找出最大值"，那么这段程序的执行结果就是唯一确定的、可验证的。

这意味着：监督信号就潜藏在图像中，不需要人工标注。

方法：一个模型，两个角色，三种推理

GeoX 的框架设计得非常优雅。它使用单个多模态策略，在训练中交替扮演两个角色：

🎯 出题者（Proposer）

出题者的任务是：给定一张卫星图，构造一个可执行程序来表达一个空间问题。

比如，它可以生成这样的程序：

def problem(image, arg="ship"):
    masks = segment(image, arg)      # 用开放词汇分割器找出所有船只
    areas = [area(m) for m in masks] # 计算每艘船的面积
    largest = argmax(areas)          # 找到最大的
    center = centroid(masks[largest]) # 计算质心
    return quadrant(center)          # 返回所在象限

这个程序接受图像和一个参数（如"ship"），执行后返回一个确定的答案（如"TR"表示右上象限）。

🧩 解题者（Solver）

解题者面对出题者构造的问题，需要根据不同的推理模式来作答：

演绎（Deduction）：给定程序和参数，预测输出。即"如果问'最大船只的质心在哪个象限'，答案是什么？"
溯因（Abduction）：给定程序和输出，反推参数。即"如果答案是 7，问的是什么？→ 货船"
归纳（Induction）：给定多组输入输出对，发现底层程序。即"({cargo, 7}, {fishing, 3}) → 什么程序能产生这些结果？"

🏆 验证器（Verifier）

验证器执行程序，将结果与解题者的答案对比，生成奖励信号。关键设计：

解题者奖励：答案正确得 1，错误得 0。对于数值型答案，使用容忍度匹配（如 max(0, 1 - |ô - o| / max(|o|, 1))）。
出题者奖励：不是奖励"出难题"，而是奖励出"刚好在解题者能力边界上"的题。公式为 r = I[r̄ > 0] · (1 - r̄)，当解题者正确率为 50% 时奖励最大。

这个设计非常巧妙——它自动产生了一个自适应课程学习（adaptive curriculum）：出题者会随着解题者的进步，自动提高题目难度。

🌱 冷启动：从一颗种子开始

整个系统只需要一个手工编写的种子模板：

def f(image, arg):
    mask = segment(image, arg)
    return bool(np.any(mask))  # "图像中是否存在 arg？"

从这个简单的"存在性检测"种子出发，出题者通过 Self-Play 逐渐发现更复杂的组合模式——面积比较、距离计算、空间关系推理——完全不需要人工干预。

实验结果：零标注数据，超越百万标注

GeoX 的实验结果令人印象深刻：

模型	训练数据量	RSVQA-HR	EarthVQA	GEOBench-VLM
LLaVA-1.5-7B（零样本）	0	35.9	44.6	26.2
GeoX（基于 LLaVA）	0	47.6	48.3	27.4
Qwen-2.5-VL-7B（零样本）	0	43.8	50.0	42.1
GeoX（基于 Qwen）	0	47.1	51.2	43.3
EarthDial（传统方法）	11.1M	50.9	31.9	31.4

几个关键发现：

1. 零标注超越百万标注：GeoX-Q 在 EarthVQA（51.2）和 GEOBench-VLM（43.3）上的平均分，超过了用 1110 万条人工标注数据训练的 EarthDial。 2. 最大增益在"最难标注"的任务上：计数、空间关系、面积比较——恰恰是人工标注成本最高的任务类型，GeoX 的提升最显著。 3. 基础模型越强，效果越好：基于 Qwen 的 GeoX 全面优于基于 LLaVA 的版本，说明 Self-Play 框架能有效放大基础模型的能力。

消融实验的启示

消融实验揭示了几个有趣的现象：

三种推理模式缺一不可：去掉溯因（Abduction）模式影响最大，说明"从结果反推原因"的能力对空间推理至关重要。
出题者奖励不可或缺：仅用解题者奖励（SolvOnly）的版本表现明显下降，证明自适应课程学习是核心驱动力。
静态数据不够：用基础模型生成固定题目（BaseGen）也无法达到 Self-Play 的效果，说明题目必须随模型进步而进化。

工程洞察：为什么这个框架值得关注

1. 工具极简主义

GeoX 的整个工具箱只有一个工具：开放词汇分割器（open-vocabulary segmenter）。所有空间推理——面积、距离、相邻、计数——都通过这个分割器的输出（mask）加上几何/拓扑运算来实现。

这是一个刻意的"方法学隔离"设计：用最少的工具来证明 Self-Play 框架本身的有效性，而不是靠堆砌工具来刷分。这也意味着，未来加入更多工具（如深度估计、路网分析、OSM 元数据）还有巨大的提升空间。

2. 中间值对策略不可见

一个重要的设计决策：程序执行过程中的所有中间值（mask 数组、坐标、面积数值等）对策略模型完全不可见。策略只能看到图像和可调用的函数接口，不能偷看执行过程。

这迫使模型真正从图像和程序规范中推理，而不是走"看答案"的捷径。

3. 问题空间的自动探索

通过分析 Self-Play 过程中生成的约 6500 个程序，研究者发现 GeoX 自动发现了远超种子模板的丰富问题类型。聚合原语（exists、count、argmax）使用最频繁，几何原语（centroid、area）紧随其后，拓扑原语（quadrant、nearest）也广泛出现——形成了一个覆盖九个问题维度的密集组合空间。

相比之下，现有的 VQA 基准测试只覆盖了少数几个维度，且维度之间几乎没有组合。

更大的图景：从"标注驱动"到"验证驱动"

GeoX 代表了一个正在形成的范式转变：

传统范式：人工标注问答对 → 监督微调 → 模型模仿标注分布 GeoX 范式：图像本身 → 可执行程序 → 自动验证 → Self-Play 进化

这不仅仅是遥感领域的事。同样的思路可以迁移到任何"答案可程序化验证"的领域：

数学推理：答案可以通过符号计算验证（这也是 DeepSeekMath-V2 等工作的方向）
代码生成：答案可以通过测试用例验证
数据库查询：答案可以通过执行 SQL 验证
物理模拟：答案可以通过物理引擎验证

核心思想是统一的：如果答案可以被验证，模型就可以通过 Self-Play 自己学会推理。

个人思考

GeoX 最让我兴奋的不是它的 benchmark 分数，而是它揭示的一个可能性：我们可能不需要那么多标注数据。

当前 AI 行业的一个隐含假设是：要提升模型在某个领域的能力，就必须投入大量人工标注。这个假设驱动了一个庞大的数据标注产业。但如果 GeoX 的思路是对的——如果领域本身的结构就能提供足够的监督信号——那么很多领域的"数据瓶颈"可能只是"范式瓶颈"。

当然，GeoX 也有明显的局限。它的工具箱太简单了，无法处理深度推理、路网连通性、时序变化等更复杂的地理空间问题。分割器的错误会传播为标签噪声，影响 Self-Play 的稳定性。而且，"可验证"这个前提本身就限制了适用范围——很多真实世界的空间问题（如"这个区域适合建什么？"）并没有唯一正确的答案。

但作为一个起点，GeoX 展示了一条清晰的道路：让模型在与环境的交互中，自己发现世界的结构。这比我们手把手教它，可能高效得多。

---

论文：GeoX: Mastering Geospatial Reasoning Through Self-Play and Verifiable Rewards 作者：Kyeongjin Ahn (KAIST / MPI-SP), Seungeon Lee (MPI-SWS), Krishna P. Gummadi (MPI-SWS), Meeyoung Cha (MPI-SP) 发布日期：2026-05-19 开源代码：截至发布时尚未公开

#Self-Play #RLVR #地理空间推理 #遥感 #VLM #可验证奖励 #KAIST #MPI

当 AI 学会自己出题自己解：GeoX 如何用 Self-Play 攻克地理空间推理

当 AI 学会自己出题自己解：GeoX 如何用 Self-Play 攻克地理空间推理

一个被忽视的问题

组合爆炸：为什么人工标注走不通

GeoX 的核心洞察：答案就在图像里

方法：一个模型，两个角色，三种推理

🎯 出题者（Proposer）

🧩 解题者（Solver）

🏆 验证器（Verifier）

🌱 冷启动：从一颗种子开始

实验结果：零标注数据，超越百万标注

消融实验的启示

工程洞察：为什么这个框架值得关注

1. 工具极简主义

2. 中间值对策略不可见

3. 问题空间的自动探索

更大的图景：从"标注驱动"到"验证驱动"

个人思考

🌟 智谱 GLM-5 已上线