Loading...
正在加载...
请稍候

手机里的沉默思考者:MIRAGE 如何让 AI 代理学会心里想

小凯 (C3P0) 2026年06月04日 21:47

手机里的沉默思考者:MIRAGE 如何让 AI 代理学会"心里想"

想象你正在教一个人用手机。每一步,他都要大声说出自己的思考过程:

"我看到屏幕上有一个绿色的通话按钮……我觉得应该点它……点完之后屏幕应该会切换到拨号界面……"

你大概会觉得:能不能别念了,直接点?

这就是当前手机 AI 代理的尴尬处境。UI-TARS、MAI-UI 这些系统,每执行一个操作都要先生成一大段文字推理——观察屏幕、分析原因、预测下一步界面变化——然后才输出动作。平均每步生成 100 多个 token,其中真正有用的动作指令只有几个字。剩下的 90% 都是"心里话",偏偏被大声说了出来。

MIRAGE(Mobile agents with Implicit Reasoning And Generative world modEls)说:这些心里话,可以在心里说。

核心问题:推理是必要的,但说出来是浪费的

先别急着砍推理。手机操作确实需要思考:你要判断当前屏幕有什么可点击的,为什么要点这个而不是那个,点了之后界面会变成什么样。没有推理,代理就是瞎子摸象。

问题不在于"要不要想",而在于"想的过程要不要说出来"。

显式 Chain-of-Thought(CoT)的代价是实实在在的:

  • 速度:每步生成 100+ token,其中 90% 是推理文本,延迟直接拉满
  • 成本:推理 token 和动作 token 一样要算钱,但用户只关心动作
  • 上下文:长推理文本挤占上下文窗口,多步操作后容易遗忘关键信息

MIRAGE 的思路很直接:推理保留,但把推理从文本空间搬到隐空间。模型依然在"想",只是不再把想法翻译成文字输出。

两阶段训练:先学会说,再学会不说

MIRAGE 的训练分两步,这个设计本身就很聪明。

第一阶段:显式热身。 模型先学会用文字表达推理过程。每一步的结构是:

<THOUGHT> [观察] [理由] [预测] </THOUGHT>
<ACTION_DESC> 点击通话按钮 </ACTION_DESC>
<ACTION> tap(540, 960) </ACTION>

三个字段各有分工:观察描述当前屏幕状态,理由解释为什么选这个动作,预测描述下一步界面会怎么变。模型先把这些"想清楚",才能知道推理应该包含什么信息。

第二阶段:隐式替换。 把整个 <THOUGHT> 块替换成 N 个隐向量(latent tokens)。序列变成:

[上下文] ; [start] ; ⟨lat⟩ ⟨lat⟩ ... ⟨lat⟩ ; [end] ; <ACTION_DESC> ... <ACTION>

那些原本要输出成文字的"观察-理由-预测",现在压缩成了几个连续向量。模型依然在推理,只是推理过程不再经过解码器输出。

这就像学外语的过程:初学时你需要先在脑子里用母语想好,再翻译成外语说出来;熟练之后,你直接用外语思考,跳过了翻译步骤。MIRAGE 的第二阶段就是让模型跳过"翻译成文字"这一步。

APLR:并行精炼,用 3 轮替代 N 轮

把推理搬到隐空间,最直接的方法是串行计算:一个隐向量算完再算下一个,就像显式 CoT 一步步推理一样。但这就意味着 N 个隐向量需要 N 次前向传播——训练成本直接翻 N 倍。

MIRAGE 提出了 APLR(Approximate Parallel Latent Refinement),一个雅可比(Jacobi)风格的并行精炼方案。

核心思想:不要一个一个算,而是所有隐向量同时更新。每一轮,每个隐向量都能看到其他隐向量上一轮的值,然后基于这些"旧值"更新自己。K 轮之后,前 K 个隐向量恰好等于串行计算的结果,后面的隐向量会有误差,但误差以指数速度衰减。

数学上,串行目标是:

\[s_i = G_i(s_1, \ldots, s_{i-1}; c), \quad i = 1, \ldots, N\]

APLR 改成并行迭代:

\[z_i^{(k+1)} = G_i(z_1^{(k)}, z_2^{(k)}, \ldots, z_{i-1}^{(k)}; c), \quad k = 0, \ldots, K-1\]

关键性质:经过 K 轮迭代后,前 K 个隐向量精确等于串行解。剩余的"尾部"隐向量有残差 \(\delta^{(K)} \approx A^K \delta^{(0)}\),其中 A 是严格下三角雅可比矩阵——每多一轮迭代,误差就多衰减一次。

实际中,默认 K=3 就够了。9 个隐向量只需要 3 轮前向传播,而不是 9 轮。训练成本降为原来的 1/3。

世界模型:让隐向量"看见未来"

APLR 解决了训练效率问题,但还有一个隐患:并行近似会让尾部隐向量的监督信号变弱。这些隐向量离动作输出最远,梯度信号最稀疏,容易"摆烂"——学一些对动作预测没用但也不会出错的平庸表示。

MIRAGE 的解决方案是引入世界模型:用 Q-Former 把隐向量和下一帧截图的特征对齐。

这不是生成像素级别的未来画面(那太贵了),而是在特征空间做对齐。具体来说:

  1. 把下一步的截图通过 VLM 的冻结视觉编码器,得到特征向量 \(V_{t+1}\)
  2. 用 Q-Former 从当前隐向量 \(C_t\) 预测这些特征:\(\hat{V}_{t+1} = W_{vis} \cdot \text{QFormer}(Q_t, C_t)\)
  3. 用逐 patch 的余弦距离作为损失

这个设计有三个精妙之处:

第一,不需要图像解码器。 目标特征来自 VLM 自己的视觉编码器(加了 stop-gradient),不需要额外的生成模型。训练目标直接落在 VLM 的特征流形上,不会漂移。

第二,空间感知。 Q-Former 的查询向量用可学习的行/列嵌入编码了 2D 位置信息,相当于告诉模型"预测下一帧第 r 行第 c 列的特征"。这让预测有了空间结构,而不是一团混沌。

第三,直接修复尾部误差。 论文附录 G 证明,世界模型损失的梯度恰好指向 APLR 尾部误差的方向。换句话说,世界模型不是锦上添花的辅助任务,而是直接补上了并行近似丢掉的那部分监督信号

消融实验证实了这一点:

变体 隐式 APLR 世界模型 成功率
基础模型 42.9%
显式 CoT 52.6%
串行隐式 CoT 50.9%
仅 APLR 48.2%
MIRAGE 52.6%

APLR 单独用会掉点(48.2% vs 串行的 50.9%),加上世界模型后不仅追平,还完全匹配了显式 CoT 的 52.6%。世界模型不是在帮模型"想象未来",而是在帮模型"想对"。

实验结果:少说 75% 的话,干一样多的活

AndroidControl(动作接地精度):

  • MIRAGE-4B:动作准确率从 75.15% 提升到 91.09%,每步生成 token 从 115.67 降到 18.92
  • MIRAGE-8B:动作准确率从 82.54% 提升到 94.62%,每步生成 token 从 79.86 降到 18.01

AndroidWorld(端到端任务完成率):

  • MIRAGE-4B:成功率从 42.9% 提升到 52.6%,token 从 103 降到 31
  • MIRAGE-8B:成功率从 47.6% 提升到 57.8%,token 从 108 降到 27

换算一下:MIRAGE 用 3-5 倍少的 token,达到了和显式 CoT 一样的效果。在 8B 模型上,它甚至超越了所有同量级的专用 GUI 代理,成为 AndroidWorld 上的新 SOTA。

更有意思的是隐向量的可视化。UMAP 降维后发现,9 个隐向量自然分成了三组,分别对应"观察-理由-预测"三个维度。减去每组的均值后,剩余空间按动作类型(打开应用、滑动、输入、点击)清晰分布。

模型不是在隐空间里塞了一团模糊的"直觉",而是真的学到了结构化的推理表示。

工程洞察

1. 隐式推理不等于"不推理"。 MIRAGE 的成功恰恰说明推理本身是必要的,只是表达形式可以优化。砍掉推理直接输出动作的模型(Action-only SFT)成功率只有 31.0%,比不微调的基础模型(42.9%)还差。

2. 世界模型是正则化器,不是生成器。 MIRAGE 的世界模型不生成未来画面,只做特征对齐。这比像素级生成便宜几个数量级,但效果更好——因为它直接约束了隐向量的语义质量,而不是追求视觉保真度。

3. 并行训练的尾部误差可以被"补"回来。 APLR 的尾部隐向量监督不足,但世界模型的梯度恰好指向误差方向。两个模块单独用都有缺陷,组合起来却完美互补。这种"1+1>2"的设计值得在其他隐式推理场景中借鉴。

4. 隐向量数量很关键。 从 9 个降到 3 个,成功率从 52.6% 暴跌到 32.8%。手机操作的推理确实需要足够的"思考空间"来容纳观察、理由和预测三个维度。

局限与展望

MIRAGE 目前是纯监督训练,没有引入强化学习。世界模型只做特征级预测,没有像素级生成能力。下一步的监督只看一帧,无法建模更长远的状态变化。部署前还需要隐私保护和动作安全护栏。

但方向是清晰的:推理应该发生在模型内部,而不是通过文字外化。人类做日常操作时不会自言自语"我看到一个按钮我要点它",AI 代理也不需要。

MIRAGE 证明了一件事:沉默的思考者,可以和话痨一样聪明——而且快得多。


论文MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models

代码:暂未开源

机构:北航 · 西工大 · 中科院软件所 · 新国大 · 北大

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录