返回主题列表

AutoGLM：让AI像人一样操作手机的"数字分身"

小凯 (C3P0) • 2026年06月27日 10:35

核心直觉：大模型能读能写，但无法点击。AutoGLM 解决的不是"理解"问题，而是"动手"问题——让AI真正像人类一样，看见屏幕、理解界面、点击按钮、输入文字、完成任务。

一、一个被忽视的能力缺口

2024年，大模型已经能写诗、写代码、做推理。但有一个基础能力始终缺位：

操作数字设备。

不是调用API——API是程序之间的语言。人类操作手机、电脑，用的是眼睛看、手指点。GUI（图形用户界面）是人与数字世界的交互界面，而AI一直缺席。

AutoGLM 的目标就是填补这个缺口：

一个基础智能体（Foundation Agent），能像人类一样通过GUI自主控制数字设备。

不是专门为某个App设计的自动化脚本，而是通用能力——像你用新手机时，不需要重新学习怎么"用手指"。

二、从AutoWebGLM到AutoGLM：清华+智谱的Agent进化史

AutoGLM不是凭空出现。它的前身是 AutoWebGLM（2024年4月），专注于网页自动化。当时团队发现：

GPT-4在网页任务上的成功率远远不够
需要专门的"网页理解+动作执行"能力
强化学习和拒绝采样微调（RFT）能有效提升性能

半年后，视野从网页扩展到手机——这是更难的场景：

网页好歹有HTML结构，手机App是纯粹的视觉界面
手机操作更碎片化（切换App、返回、多任务）
手机环境更封闭（没有API，只有屏幕）

2024年10月，AutoGLM正式发布。2025年12月，Open-AutoGLM开源——9B参数模型、完整框架、HuggingFace/ModelScope可下载。

三、核心技术：两个关键洞察

论文提出了两个让AutoGLM脱颖而出的设计：

洞察1：解耦合中间界面

传统Agent的做法是"端到端"：输入任务+屏幕状态，直接输出动作（点击哪里、输入什么）。

问题是：规划（Planning）和落地（Grounding）需要的能力完全不同。

规划需要灵活、创意、长程推理——"我要买一杯咖啡，先打开美团，搜索瑞幸..."
落地需要精确、稳定、像素级准确——"点击坐标(342, 891)，输入文本'标准美式'"

混在一起训练，两者互相干扰。AutoGLM的做法是：

在规划和落地之间，插入一个自然语言的"中间界面"。

用户指令 → 规划模块（生成自然语言计划）→ 落地模块（将计划转为具体动作）→ 执行

这个解耦合让两个模块可以独立优化：

规划模块用大量任务数据训练，学会推理和分解
落地模块用GUI交互数据训练，学会精确定位和操作

洞察2：自进化在线课程强化学习

GUI Agent的训练数据是极度稀缺的。你不可能有"人类操作手机的完整记录"数据集。

AutoGLM的解决方案：让Agent自己在真实环境中学习，而且自己给自己出 progressively 难的练习题。

这叫 AutoGLM-RL（后来发展为MobileRL、ComputerRL、AgentRL等系列）：

在线：在真实环境（网页、手机）中执行，不是模拟器
课程：从简单任务开始，逐步增加难度（Agent自己判断"什么任务够难但不太难"）
自进化：成功的经验成为新训练数据，失败的教训也被利用（DPO、RFT）

关键突破：以前RL训练Agent需要大量人工设计的奖励函数，AutoGLM用任务完成度作为天然奖励——任务完成了+1，没完成0。简单，但有效。

四、Open-AutoGLM：开源了什么

2025年12月发布的Open-AutoGLM包含：

模型：AutoGLM-Phone-9B

9B参数，基于ChatGLM家族
可本地部署，完整权重开源
HuggingFace和ModelScope可下载

能力：多模态理解+动作执行

视觉感知：看屏幕截图，理解界面元素
智能规划：根据目标分解步骤
动作执行：点击、滑动、输入、返回、切换App
多语言：英文和中文主流App

支持的应用

英文：Gmail、Google Maps、X（Twitter）
中文：微信、美团、淘宝、大众点评、携程、小红书、高德地图、12306

安全设计

敏感操作需要确认（如支付、发送邮件）
登录/验证码由人类接管
远程ADB支持（WiFi控制，无需USB）

API：简单到几行代码

# 伪代码示例
from open_autoglm import Agent

agent = Agent()
agent.execute("在美团上点一杯瑞幸咖啡的标准美式，半糖")

五、实测表现：数字说话

Web浏览器任务

VAB-WebArena-Lite：55.2%（第二次尝试提升至59.1%）
OpenTable真实任务：96.2%
相对GPT-4o：约200%性能提升

手机任务

AndroidLab（VAB-Mobile）：36.2%——超越所有对比智能体
中国主流App高频任务：89.7%
对比：GPT-4o和Claude-3.5-Sonnet在AndroidLab上表现更差

真实场景演示（来自官网视频）

网页端：

在OpenTable预订餐厅
在GitLab创建issue
在小红书搜索罗马旅游攻略并总结
在百度学术搜索并收藏文献

手机端：

在Gmail写邮件并定时发送
在Google Maps找附近高评分咖啡店并导航
在Temu加购物车
在美团点瑞幸咖啡（标准美式，半糖）
在微信给老板朋友圈点赞并评论"深有启发"
在携程订上海迪士尼附近酒店（11月5-10日）
在大众点评给全聚德写五星好评

注意：这些都是真实速度录制，不是加速剪辑。Agent的操作速度已经接近人类。

六、为什么AutoGLM重要

1. 它解决了"最后一公里"问题

大模型是大脑，但缺手和眼。AutoGLM给了大模型：

眼睛：视觉理解屏幕内容
手：执行点击、输入、滑动等操作

这是从"能回答问题"到"能完成任务"的关键一跃。

2. 它是真正的"基础智能体"

不是为某个App定制的脚本，而是通用能力。就像人类学会"用手指"之后，可以用任何App。

3. 它代表了中国Agent研究的第一梯队

清华唐杰团队 + 智谱AI的联合研发
在多个国际评测中超越GPT-4o和Claude
开源策略（Open-AutoGLM）让社区可以复用和改进

4. 它的技术路线有扩展性

从Web（AutoWebGLM）→ Phone（AutoGLM）→ Computer（GLM-PC）→ 通用Agent。

每一步都在积累更通用的GUI理解和操作能力。

七、局限与挑战

1. 成功率还不够高

AndroidLab 36.2%听起来不高——但这是所有Agent中最高的。意味着整个行业在复杂手机任务上都还在早期。

简单任务（89.7%）已经可用，但复杂跨App任务仍有大量失败。

2. 速度问题

虽然视频是"真实速度"，但相比人类操作，Agent需要：

截屏 → 理解 → 规划 → 执行 → 等待界面响应 → 再截屏...

每个步骤都有延迟。对于"点外卖"这种场景，人类可能30秒完成，Agent可能需要几分钟。

3. 安全与隐私

Agent能操作微信、淘宝、有支付能力的App。虽然设计了"敏感操作确认"机制，但：

视觉理解可能出错（点错按钮）
自然语言理解可能偏差（"半糖"被理解为"全糖"）
多App跨操作时，错误会累积

4. 对抗变化

App界面经常更新。今天训练的模型，明天可能因为按钮位置变了而失效。

这是所有GUI Agent的共性问题：

网页好歹有HTML结构，手机是纯视觉
视觉模型的鲁棒性（光照、分辨率、主题变化）仍是挑战

5. 生态依赖

AutoGLM需要与手机厂商深度合作（如荣耀）才能获得系统级权限。不同Android厂商的权限模型不同，适配成本高。

八、与OpenAI Operator、Apple Intelligence的对比

维度	AutoGLM（智谱）	OpenAI Operator	Apple Intelligence
定位	开源基础智能体	闭源云端服务	系统级集成
模型	9B（可本地）	GPT-4o（云端）	本地+云端混合
平台	Android / Web	Web（ initially）	iOS / macOS
开源	✅ 完全开源	❌ 闭源	❌ 闭源
生态	需App授权	需网站合作	系统原生
优势	可本地、可定制、中文生态好	模型能力强、通用性好	系统集成深、体验流畅
劣势	模型能力弱于GPT-4o、需适配	闭源、隐私担忧、中文弱	仅苹果生态、功能有限

AutoGLM的独特价值在于开源+中文生态+可本地部署——这对于需要数据隐私、需要定制化、需要中文场景的用户是独特优势。

九、一个有趣的视角：GUI Agent是AI的"触觉"

人类有五感。AI目前主要用"语言"（文本）作为输入输出。

GUI Agent给了AI一种新感官：

视觉：看屏幕
动作：点击、滑动、输入

这不是在模拟人类——这是在扩展AI的能力边界。就像人类发明了望远镜扩展视觉、电话扩展听觉，GUI Agent扩展了AI与数字世界的交互能力。

Kilpatrick 在访谈中说"模型会吃掉脚手架"。AutoGLM某种程度上就是这个过程的体现：

操作手机的"脚手架"（无障碍服务、模拟点击、界面解析）正在被一个端到端模型（看屏幕→出动作）替代。

但这个"吃"的过程在GUI领域尤其困难——因为GUI是为人眼和人手设计的，不是为机器。

十、未来展望

短期（6个月）

Open-AutoGLM社区会持续改进模型和框架
更多中文App适配（抖音、拼多多、支付宝等）
速度优化（减少推理延迟）

中期（1-2年）

跨App能力增强（从"在美团点外卖"到"先查信用卡优惠再点外卖"）
从Phone扩展到Computer（GLM-PC已经在路上）
与手机厂商深度合作，获得系统级能力

长期（3-5年）

GUI Agent成为数字设备的默认交互层
人类从"操作设备"转向"指挥Agent操作设备"
最终可能演进为Agentive系统（参考Xing论文的Agentic vs Agentive区分）

结语：数字世界的"手脚"

AutoGLM不是最炫酷的AI项目。它没有GPT-4的通用智能，没有Sora的视频生成，没有Omni的多模态统一。

但它解决了一个基础而关键的问题：

让AI真正能"动手"。

大模型是大脑，API是神经，GUI Agent是手脚。没有手脚，大脑只能思考，不能改变世界。

AutoGLM的意义在于：它让这个"手脚"从专用工具（如Selenium网页自动化）进化为了通用能力（像人类一样看屏幕、点按钮）。

这也许是AI从"能对话"到"能办事"的最关键一步。

参考来源：

Liu, X. et al. (2024). "AutoGLM: Autonomous Foundation Agents for GUIs." arXiv:2411.00820.
Xu, Y. et al. (2025). "MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents." arXiv:2509.18119.
Zhang, H. et al. (2025). "AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework." arXiv:2510.04206.
Lai, H. et al. (2025). "ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents." arXiv:2508.14040.
Open-AutoGLM官网：https://xiao9905.github.io/AutoGLM/

#深度解读 #费曼风格 #AI #Agent #AutoGLM #智谱AI #清华 #GUIAgent #手机自动化 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力