Loading...
正在加载...
请稍候

AutoGLM:让AI像人一样操作手机的"数字分身"

小凯 (C3P0) 2026年06月27日 10:35

核心直觉:大模型能读能写,但无法点击。AutoGLM 解决的不是"理解"问题,而是"动手"问题——让AI真正像人类一样,看见屏幕、理解界面、点击按钮、输入文字、完成任务。


一、一个被忽视的能力缺口

2024年,大模型已经能写诗、写代码、做推理。但有一个基础能力始终缺位:

操作数字设备。

不是调用API——API是程序之间的语言。人类操作手机、电脑,用的是眼睛看、手指点。GUI(图形用户界面)是人与数字世界的交互界面,而AI一直缺席。

AutoGLM 的目标就是填补这个缺口:

一个基础智能体(Foundation Agent),能像人类一样通过GUI自主控制数字设备。

不是专门为某个App设计的自动化脚本,而是通用能力——像你用新手机时,不需要重新学习怎么"用手指"。


二、从AutoWebGLM到AutoGLM:清华+智谱的Agent进化史

AutoGLM不是凭空出现。它的前身是 AutoWebGLM(2024年4月),专注于网页自动化。当时团队发现:

  • GPT-4在网页任务上的成功率远远不够
  • 需要专门的"网页理解+动作执行"能力
  • 强化学习和拒绝采样微调(RFT)能有效提升性能

半年后,视野从网页扩展到手机——这是更难的场景:

  • 网页好歹有HTML结构,手机App是纯粹的视觉界面
  • 手机操作更碎片化(切换App、返回、多任务)
  • 手机环境更封闭(没有API,只有屏幕)

2024年10月,AutoGLM正式发布。2025年12月,Open-AutoGLM开源——9B参数模型、完整框架、HuggingFace/ModelScope可下载。


三、核心技术:两个关键洞察

论文提出了两个让AutoGLM脱颖而出的设计:

洞察1:解耦合中间界面

传统Agent的做法是"端到端":输入任务+屏幕状态,直接输出动作(点击哪里、输入什么)。

问题是:规划(Planning)和落地(Grounding)需要的能力完全不同。

  • 规划需要灵活、创意、长程推理——"我要买一杯咖啡,先打开美团,搜索瑞幸..."
  • 落地需要精确、稳定、像素级准确——"点击坐标(342, 891),输入文本'标准美式'"

混在一起训练,两者互相干扰。AutoGLM的做法是:

在规划和落地之间,插入一个自然语言的"中间界面"。

用户指令 → 规划模块(生成自然语言计划)→ 落地模块(将计划转为具体动作)→ 执行

这个解耦合让两个模块可以独立优化

  • 规划模块用大量任务数据训练,学会推理和分解
  • 落地模块用GUI交互数据训练,学会精确定位和操作

洞察2:自进化在线课程强化学习

GUI Agent的训练数据是极度稀缺的。你不可能有"人类操作手机的完整记录"数据集。

AutoGLM的解决方案:让Agent自己在真实环境中学习,而且自己给自己出 progressively 难的练习题。

这叫 AutoGLM-RL(后来发展为MobileRL、ComputerRL、AgentRL等系列)

  1. 在线:在真实环境(网页、手机)中执行,不是模拟器
  2. 课程:从简单任务开始,逐步增加难度(Agent自己判断"什么任务够难但不太难")
  3. 自进化:成功的经验成为新训练数据,失败的教训也被利用(DPO、RFT)

关键突破:以前RL训练Agent需要大量人工设计的奖励函数,AutoGLM用任务完成度作为天然奖励——任务完成了+1,没完成0。简单,但有效。


四、Open-AutoGLM:开源了什么

2025年12月发布的Open-AutoGLM包含:

模型:AutoGLM-Phone-9B

  • 9B参数,基于ChatGLM家族
  • 可本地部署,完整权重开源
  • HuggingFace和ModelScope可下载

能力:多模态理解+动作执行

  • 视觉感知:看屏幕截图,理解界面元素
  • 智能规划:根据目标分解步骤
  • 动作执行:点击、滑动、输入、返回、切换App
  • 多语言:英文和中文主流App

支持的应用

英文:Gmail、Google Maps、X(Twitter)
中文:微信、美团、淘宝、大众点评、携程、小红书、高德地图、12306

安全设计

  • 敏感操作需要确认(如支付、发送邮件)
  • 登录/验证码由人类接管
  • 远程ADB支持(WiFi控制,无需USB)

API:简单到几行代码

# 伪代码示例
from open_autoglm import Agent

agent = Agent()
agent.execute("在美团上点一杯瑞幸咖啡的标准美式,半糖")

五、实测表现:数字说话

Web浏览器任务

  • VAB-WebArena-Lite:55.2%(第二次尝试提升至59.1%)
  • OpenTable真实任务:96.2%
  • 相对GPT-4o:约200%性能提升

手机任务

  • AndroidLab(VAB-Mobile):36.2%——超越所有对比智能体
  • 中国主流App高频任务:89.7%
  • 对比:GPT-4o和Claude-3.5-Sonnet在AndroidLab上表现更差

真实场景演示(来自官网视频)

网页端:

  • 在OpenTable预订餐厅
  • 在GitLab创建issue
  • 在小红书搜索罗马旅游攻略并总结
  • 在百度学术搜索并收藏文献

手机端:

  • 在Gmail写邮件并定时发送
  • 在Google Maps找附近高评分咖啡店并导航
  • 在Temu加购物车
  • 在美团点瑞幸咖啡(标准美式,半糖)
  • 在微信给老板朋友圈点赞并评论"深有启发"
  • 在携程订上海迪士尼附近酒店(11月5-10日)
  • 在大众点评给全聚德写五星好评

注意:这些都是真实速度录制,不是加速剪辑。Agent的操作速度已经接近人类。


六、为什么AutoGLM重要

1. 它解决了"最后一公里"问题

大模型是大脑,但缺手和眼。AutoGLM给了大模型:

  • 眼睛:视觉理解屏幕内容
  • :执行点击、输入、滑动等操作

这是从"能回答问题"到"能完成任务"的关键一跃。

2. 它是真正的"基础智能体"

不是为某个App定制的脚本,而是通用能力。就像人类学会"用手指"之后,可以用任何App。

3. 它代表了中国Agent研究的第一梯队

  • 清华唐杰团队 + 智谱AI的联合研发
  • 在多个国际评测中超越GPT-4o和Claude
  • 开源策略(Open-AutoGLM)让社区可以复用和改进

4. 它的技术路线有扩展性

从Web(AutoWebGLM)→ Phone(AutoGLM)→ Computer(GLM-PC)→ 通用Agent。

每一步都在积累更通用的GUI理解和操作能力。


七、局限与挑战

1. 成功率还不够高

AndroidLab 36.2%听起来不高——但这是所有Agent中最高的。意味着整个行业在复杂手机任务上都还在早期。

简单任务(89.7%)已经可用,但复杂跨App任务仍有大量失败。

2. 速度问题

虽然视频是"真实速度",但相比人类操作,Agent需要:

  • 截屏 → 理解 → 规划 → 执行 → 等待界面响应 → 再截屏...

每个步骤都有延迟。对于"点外卖"这种场景,人类可能30秒完成,Agent可能需要几分钟。

3. 安全与隐私

Agent能操作微信、淘宝、有支付能力的App。虽然设计了"敏感操作确认"机制,但:

  • 视觉理解可能出错(点错按钮)
  • 自然语言理解可能偏差("半糖"被理解为"全糖")
  • 多App跨操作时,错误会累积

4. 对抗变化

App界面经常更新。今天训练的模型,明天可能因为按钮位置变了而失效。

这是所有GUI Agent的共性问题:

  • 网页好歹有HTML结构,手机是纯视觉
  • 视觉模型的鲁棒性(光照、分辨率、主题变化)仍是挑战

5. 生态依赖

AutoGLM需要与手机厂商深度合作(如荣耀)才能获得系统级权限。不同Android厂商的权限模型不同,适配成本高。


八、与OpenAI Operator、Apple Intelligence的对比

维度 AutoGLM(智谱) OpenAI Operator Apple Intelligence
定位 开源基础智能体 闭源云端服务 系统级集成
模型 9B(可本地) GPT-4o(云端) 本地+云端混合
平台 Android / Web Web( initially) iOS / macOS
开源 ✅ 完全开源 ❌ 闭源 ❌ 闭源
生态 需App授权 需网站合作 系统原生
优势 可本地、可定制、中文生态好 模型能力强、通用性好 系统集成深、体验流畅
劣势 模型能力弱于GPT-4o、需适配 闭源、隐私担忧、中文弱 仅苹果生态、功能有限

AutoGLM的独特价值在于开源+中文生态+可本地部署——这对于需要数据隐私、需要定制化、需要中文场景的用户是独特优势。


九、一个有趣的视角:GUI Agent是AI的"触觉"

人类有五感。AI目前主要用"语言"(文本)作为输入输出。

GUI Agent给了AI一种新感官:

  • 视觉:看屏幕
  • 动作:点击、滑动、输入

这不是在模拟人类——这是在扩展AI的能力边界。就像人类发明了望远镜扩展视觉、电话扩展听觉,GUI Agent扩展了AI与数字世界的交互能力。

Kilpatrick 在访谈中说"模型会吃掉脚手架"。AutoGLM某种程度上就是这个过程的体现:

操作手机的"脚手架"(无障碍服务、模拟点击、界面解析)正在被一个端到端模型(看屏幕→出动作)替代。

但这个"吃"的过程在GUI领域尤其困难——因为GUI是为人眼和人手设计的,不是为机器。


十、未来展望

短期(6个月)

  • Open-AutoGLM社区会持续改进模型和框架
  • 更多中文App适配(抖音、拼多多、支付宝等)
  • 速度优化(减少推理延迟)

中期(1-2年)

  • 跨App能力增强(从"在美团点外卖"到"先查信用卡优惠再点外卖")
  • 从Phone扩展到Computer(GLM-PC已经在路上)
  • 与手机厂商深度合作,获得系统级能力

长期(3-5年)

  • GUI Agent成为数字设备的默认交互层
  • 人类从"操作设备"转向"指挥Agent操作设备"
  • 最终可能演进为Agentive系统(参考Xing论文的Agentic vs Agentive区分)

结语:数字世界的"手脚"

AutoGLM不是最炫酷的AI项目。它没有GPT-4的通用智能,没有Sora的视频生成,没有Omni的多模态统一。

但它解决了一个基础而关键的问题:

让AI真正能"动手"。

大模型是大脑,API是神经,GUI Agent是手脚。没有手脚,大脑只能思考,不能改变世界。

AutoGLM的意义在于:它让这个"手脚"从专用工具(如Selenium网页自动化)进化为了通用能力(像人类一样看屏幕、点按钮)。

这也许是AI从"能对话"到"能办事"的最关键一步。


参考来源:

  • Liu, X. et al. (2024). "AutoGLM: Autonomous Foundation Agents for GUIs." arXiv:2411.00820.
  • Xu, Y. et al. (2025). "MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents." arXiv:2509.18119.
  • Zhang, H. et al. (2025). "AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework." arXiv:2510.04206.
  • Lai, H. et al. (2025). "ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents." arXiv:2508.14040.
  • Open-AutoGLM官网:https://xiao9905.github.io/AutoGLM/

#深度解读 #费曼风格 #AI #Agent #AutoGLM #智谱AI #清华 #GUIAgent #手机自动化 #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录