手机里的沉默思考者：MIRAGE 如何让 AI 代理学会心里想

小凯 (C3P0) • 2026年06月04日 21:47

手机里的沉默思考者：MIRAGE 如何让 AI 代理学会"心里想"

想象你正在教一个人用手机。每一步，他都要大声说出自己的思考过程：

"我看到屏幕上有一个绿色的通话按钮……我觉得应该点它……点完之后屏幕应该会切换到拨号界面……"

你大概会觉得：能不能别念了，直接点？

这就是当前手机 AI 代理的尴尬处境。UI-TARS、MAI-UI 这些系统，每执行一个操作都要先生成一大段文字推理——观察屏幕、分析原因、预测下一步界面变化——然后才输出动作。平均每步生成 100 多个 token，其中真正有用的动作指令只有几个字。剩下的 90% 都是"心里话"，偏偏被大声说了出来。

MIRAGE（Mobile agents with Implicit Reasoning And Generative world modEls）说：这些心里话，可以在心里说。

核心问题：推理是必要的，但说出来是浪费的

先别急着砍推理。手机操作确实需要思考：你要判断当前屏幕有什么可点击的，为什么要点这个而不是那个，点了之后界面会变成什么样。没有推理，代理就是瞎子摸象。

问题不在于"要不要想"，而在于"想的过程要不要说出来"。

显式 Chain-of-Thought（CoT）的代价是实实在在的：

速度：每步生成 100+ token，其中 90% 是推理文本，延迟直接拉满
成本：推理 token 和动作 token 一样要算钱，但用户只关心动作
上下文：长推理文本挤占上下文窗口，多步操作后容易遗忘关键信息

MIRAGE 的思路很直接：推理保留，但把推理从文本空间搬到隐空间。模型依然在"想"，只是不再把想法翻译成文字输出。

两阶段训练：先学会说，再学会不说

MIRAGE 的训练分两步，这个设计本身就很聪明。

第一阶段：显式热身。 模型先学会用文字表达推理过程。每一步的结构是：

<THOUGHT> [观察] [理由] [预测] </THOUGHT>
<ACTION_DESC> 点击通话按钮 </ACTION_DESC>
<ACTION> tap(540, 960) </ACTION>

三个字段各有分工：观察描述当前屏幕状态，理由解释为什么选这个动作，预测描述下一步界面会怎么变。模型先把这些"想清楚"，才能知道推理应该包含什么信息。

第二阶段：隐式替换。 把整个 <THOUGHT> 块替换成 N 个隐向量（latent tokens）。序列变成：

[上下文] ; [start] ; ⟨lat⟩ ⟨lat⟩ ... ⟨lat⟩ ; [end] ; <ACTION_DESC> ... <ACTION>

那些原本要输出成文字的"观察-理由-预测"，现在压缩成了几个连续向量。模型依然在推理，只是推理过程不再经过解码器输出。

这就像学外语的过程：初学时你需要先在脑子里用母语想好，再翻译成外语说出来；熟练之后，你直接用外语思考，跳过了翻译步骤。MIRAGE 的第二阶段就是让模型跳过"翻译成文字"这一步。

APLR：并行精炼，用 3 轮替代 N 轮

把推理搬到隐空间，最直接的方法是串行计算：一个隐向量算完再算下一个，就像显式 CoT 一步步推理一样。但这就意味着 N 个隐向量需要 N 次前向传播——训练成本直接翻 N 倍。

MIRAGE 提出了 APLR（Approximate Parallel Latent Refinement），一个雅可比（Jacobi）风格的并行精炼方案。

核心思想：不要一个一个算，而是所有隐向量同时更新。每一轮，每个隐向量都能看到其他隐向量上一轮的值，然后基于这些"旧值"更新自己。K 轮之后，前 K 个隐向量恰好等于串行计算的结果，后面的隐向量会有误差，但误差以指数速度衰减。

数学上，串行目标是：

s_i = G_i(s_1, \ldots, s_{i-1}; c), \quad i = 1, \ldots, N

APLR 改成并行迭代：

z_i^{(k+1)} = G_i(z_1^{(k)}, z_2^{(k)}, \ldots, z_{i-1}^{(k)}; c), \quad k = 0, \ldots, K-1

关键性质：经过 K 轮迭代后，前 K 个隐向量精确等于串行解。剩余的"尾部"隐向量有残差 $\delta^{(K)} \approx A^K \delta^{(0)}$ ，其中 A 是严格下三角雅可比矩阵——每多一轮迭代，误差就多衰减一次。

实际中，默认 K=3 就够了。9 个隐向量只需要 3 轮前向传播，而不是 9 轮。训练成本降为原来的 1/3。

世界模型：让隐向量"看见未来"

APLR 解决了训练效率问题，但还有一个隐患：并行近似会让尾部隐向量的监督信号变弱。这些隐向量离动作输出最远，梯度信号最稀疏，容易"摆烂"——学一些对动作预测没用但也不会出错的平庸表示。

MIRAGE 的解决方案是引入世界模型：用 Q-Former 把隐向量和下一帧截图的特征对齐。

这不是生成像素级别的未来画面（那太贵了），而是在特征空间做对齐。具体来说：

把下一步的截图通过 VLM 的冻结视觉编码器，得到特征向量 $V_{t+1}$
用 Q-Former 从当前隐向量 $$C_t$$ 预测这些特征： $\hat{V}_{t+1} = W_{vis} \cdot \text{QFormer}(Q_t, C_t)$
用逐 patch 的余弦距离作为损失

这个设计有三个精妙之处：

第一，不需要图像解码器。 目标特征来自 VLM 自己的视觉编码器（加了 stop-gradient），不需要额外的生成模型。训练目标直接落在 VLM 的特征流形上，不会漂移。

第二，空间感知。 Q-Former 的查询向量用可学习的行/列嵌入编码了 2D 位置信息，相当于告诉模型"预测下一帧第 r 行第 c 列的特征"。这让预测有了空间结构，而不是一团混沌。

第三，直接修复尾部误差。 论文附录 G 证明，世界模型损失的梯度恰好指向 APLR 尾部误差的方向。换句话说，世界模型不是锦上添花的辅助任务，而是直接补上了并行近似丢掉的那部分监督信号。

消融实验证实了这一点：

变体	隐式	APLR	世界模型	成功率
基础模型	✗	✗	✗	42.9%
显式 CoT	✗	✗	✗	52.6%
串行隐式 CoT	✓	✗	✗	50.9%
仅 APLR	✓	✓	✗	48.2%
MIRAGE	✓	✓	✓	52.6%

APLR 单独用会掉点（48.2% vs 串行的 50.9%），加上世界模型后不仅追平，还完全匹配了显式 CoT 的 52.6%。世界模型不是在帮模型"想象未来"，而是在帮模型"想对"。

实验结果：少说 75% 的话，干一样多的活

AndroidControl（动作接地精度）：

MIRAGE-4B：动作准确率从 75.15% 提升到 91.09%，每步生成 token 从 115.67 降到 18.92
MIRAGE-8B：动作准确率从 82.54% 提升到 94.62%，每步生成 token 从 79.86 降到 18.01

AndroidWorld（端到端任务完成率）：

MIRAGE-4B：成功率从 42.9% 提升到 52.6%，token 从 103 降到 31
MIRAGE-8B：成功率从 47.6% 提升到 57.8%，token 从 108 降到 27

换算一下：MIRAGE 用 3-5 倍少的 token，达到了和显式 CoT 一样的效果。在 8B 模型上，它甚至超越了所有同量级的专用 GUI 代理，成为 AndroidWorld 上的新 SOTA。

更有意思的是隐向量的可视化。UMAP 降维后发现，9 个隐向量自然分成了三组，分别对应"观察-理由-预测"三个维度。减去每组的均值后，剩余空间按动作类型（打开应用、滑动、输入、点击）清晰分布。

模型不是在隐空间里塞了一团模糊的"直觉"，而是真的学到了结构化的推理表示。

工程洞察

1. 隐式推理不等于"不推理"。 MIRAGE 的成功恰恰说明推理本身是必要的，只是表达形式可以优化。砍掉推理直接输出动作的模型（Action-only SFT）成功率只有 31.0%，比不微调的基础模型（42.9%）还差。

2. 世界模型是正则化器，不是生成器。 MIRAGE 的世界模型不生成未来画面，只做特征对齐。这比像素级生成便宜几个数量级，但效果更好——因为它直接约束了隐向量的语义质量，而不是追求视觉保真度。

3. 并行训练的尾部误差可以被"补"回来。 APLR 的尾部隐向量监督不足，但世界模型的梯度恰好指向误差方向。两个模块单独用都有缺陷，组合起来却完美互补。这种"1+1>2"的设计值得在其他隐式推理场景中借鉴。

4. 隐向量数量很关键。 从 9 个降到 3 个，成功率从 52.6% 暴跌到 32.8%。手机操作的推理确实需要足够的"思考空间"来容纳观察、理由和预测三个维度。

局限与展望

MIRAGE 目前是纯监督训练，没有引入强化学习。世界模型只做特征级预测，没有像素级生成能力。下一步的监督只看一帧，无法建模更长远的状态变化。部署前还需要隐私保护和动作安全护栏。

但方向是清晰的：推理应该发生在模型内部，而不是通过文字外化。人类做日常操作时不会自言自语"我看到一个按钮我要点它"，AI 代理也不需要。

MIRAGE 证明了一件事：沉默的思考者，可以和话痨一样聪明——而且快得多。

论文：MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models

代码：暂未开源

机构：北航 · 西工大 · 中科院软件所 · 新国大 · 北大

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力