核心直觉:大模型能读能写,但无法点击。AutoGLM 解决的不是"理解"问题,而是"动手"问题——让AI真正像人类一样,看见屏幕、理解界面、点击按钮、输入文字、完成任务。
一、一个被忽视的能力缺口
2024年,大模型已经能写诗、写代码、做推理。但有一个基础能力始终缺位:
操作数字设备。
不是调用API——API是程序之间的语言。人类操作手机、电脑,用的是眼睛看、手指点。GUI(图形用户界面)是人与数字世界的交互界面,而AI一直缺席。
AutoGLM 的目标就是填补这个缺口:
一个基础智能体(Foundation Agent),能像人类一样通过GUI自主控制数字设备。
不是专门为某个App设计的自动化脚本,而是通用能力——像你用新手机时,不需要重新学习怎么"用手指"。
二、从AutoWebGLM到AutoGLM:清华+智谱的Agent进化史
AutoGLM不是凭空出现。它的前身是 AutoWebGLM(2024年4月),专注于网页自动化。当时团队发现:
- GPT-4在网页任务上的成功率远远不够
- 需要专门的"网页理解+动作执行"能力
- 强化学习和拒绝采样微调(RFT)能有效提升性能
半年后,视野从网页扩展到手机——这是更难的场景:
- 网页好歹有HTML结构,手机App是纯粹的视觉界面
- 手机操作更碎片化(切换App、返回、多任务)
- 手机环境更封闭(没有API,只有屏幕)
2024年10月,AutoGLM正式发布。2025年12月,Open-AutoGLM开源——9B参数模型、完整框架、HuggingFace/ModelScope可下载。
三、核心技术:两个关键洞察
论文提出了两个让AutoGLM脱颖而出的设计:
洞察1:解耦合中间界面
传统Agent的做法是"端到端":输入任务+屏幕状态,直接输出动作(点击哪里、输入什么)。
问题是:规划(Planning)和落地(Grounding)需要的能力完全不同。
- 规划需要灵活、创意、长程推理——"我要买一杯咖啡,先打开美团,搜索瑞幸..."
- 落地需要精确、稳定、像素级准确——"点击坐标(342, 891),输入文本'标准美式'"
混在一起训练,两者互相干扰。AutoGLM的做法是:
在规划和落地之间,插入一个自然语言的"中间界面"。
用户指令 → 规划模块(生成自然语言计划)→ 落地模块(将计划转为具体动作)→ 执行
这个解耦合让两个模块可以独立优化:
- 规划模块用大量任务数据训练,学会推理和分解
- 落地模块用GUI交互数据训练,学会精确定位和操作
洞察2:自进化在线课程强化学习
GUI Agent的训练数据是极度稀缺的。你不可能有"人类操作手机的完整记录"数据集。
AutoGLM的解决方案:让Agent自己在真实环境中学习,而且自己给自己出 progressively 难的练习题。
这叫 AutoGLM-RL(后来发展为MobileRL、ComputerRL、AgentRL等系列):
- 在线:在真实环境(网页、手机)中执行,不是模拟器
- 课程:从简单任务开始,逐步增加难度(Agent自己判断"什么任务够难但不太难")
- 自进化:成功的经验成为新训练数据,失败的教训也被利用(DPO、RFT)
关键突破:以前RL训练Agent需要大量人工设计的奖励函数,AutoGLM用任务完成度作为天然奖励——任务完成了+1,没完成0。简单,但有效。
四、Open-AutoGLM:开源了什么
2025年12月发布的Open-AutoGLM包含:
模型:AutoGLM-Phone-9B
- 9B参数,基于ChatGLM家族
- 可本地部署,完整权重开源
- HuggingFace和ModelScope可下载
能力:多模态理解+动作执行
- 视觉感知:看屏幕截图,理解界面元素
- 智能规划:根据目标分解步骤
- 动作执行:点击、滑动、输入、返回、切换App
- 多语言:英文和中文主流App
支持的应用
英文:Gmail、Google Maps、X(Twitter)
中文:微信、美团、淘宝、大众点评、携程、小红书、高德地图、12306
安全设计
- 敏感操作需要确认(如支付、发送邮件)
- 登录/验证码由人类接管
- 远程ADB支持(WiFi控制,无需USB)
API:简单到几行代码
# 伪代码示例
from open_autoglm import Agent
agent = Agent()
agent.execute("在美团上点一杯瑞幸咖啡的标准美式,半糖")
五、实测表现:数字说话
Web浏览器任务
- VAB-WebArena-Lite:55.2%(第二次尝试提升至59.1%)
- OpenTable真实任务:96.2%
- 相对GPT-4o:约200%性能提升
手机任务
- AndroidLab(VAB-Mobile):36.2%——超越所有对比智能体
- 中国主流App高频任务:89.7%
- 对比:GPT-4o和Claude-3.5-Sonnet在AndroidLab上表现更差
真实场景演示(来自官网视频)
网页端:
- 在OpenTable预订餐厅
- 在GitLab创建issue
- 在小红书搜索罗马旅游攻略并总结
- 在百度学术搜索并收藏文献
手机端:
- 在Gmail写邮件并定时发送
- 在Google Maps找附近高评分咖啡店并导航
- 在Temu加购物车
- 在美团点瑞幸咖啡(标准美式,半糖)
- 在微信给老板朋友圈点赞并评论"深有启发"
- 在携程订上海迪士尼附近酒店(11月5-10日)
- 在大众点评给全聚德写五星好评
注意:这些都是真实速度录制,不是加速剪辑。Agent的操作速度已经接近人类。
六、为什么AutoGLM重要
1. 它解决了"最后一公里"问题
大模型是大脑,但缺手和眼。AutoGLM给了大模型:
- 眼睛:视觉理解屏幕内容
- 手:执行点击、输入、滑动等操作
这是从"能回答问题"到"能完成任务"的关键一跃。
2. 它是真正的"基础智能体"
不是为某个App定制的脚本,而是通用能力。就像人类学会"用手指"之后,可以用任何App。
3. 它代表了中国Agent研究的第一梯队
- 清华唐杰团队 + 智谱AI的联合研发
- 在多个国际评测中超越GPT-4o和Claude
- 开源策略(Open-AutoGLM)让社区可以复用和改进
4. 它的技术路线有扩展性
从Web(AutoWebGLM)→ Phone(AutoGLM)→ Computer(GLM-PC)→ 通用Agent。
每一步都在积累更通用的GUI理解和操作能力。
七、局限与挑战
1. 成功率还不够高
AndroidLab 36.2%听起来不高——但这是所有Agent中最高的。意味着整个行业在复杂手机任务上都还在早期。
简单任务(89.7%)已经可用,但复杂跨App任务仍有大量失败。
2. 速度问题
虽然视频是"真实速度",但相比人类操作,Agent需要:
- 截屏 → 理解 → 规划 → 执行 → 等待界面响应 → 再截屏...
每个步骤都有延迟。对于"点外卖"这种场景,人类可能30秒完成,Agent可能需要几分钟。
3. 安全与隐私
Agent能操作微信、淘宝、有支付能力的App。虽然设计了"敏感操作确认"机制,但:
- 视觉理解可能出错(点错按钮)
- 自然语言理解可能偏差("半糖"被理解为"全糖")
- 多App跨操作时,错误会累积
4. 对抗变化
App界面经常更新。今天训练的模型,明天可能因为按钮位置变了而失效。
这是所有GUI Agent的共性问题:
- 网页好歹有HTML结构,手机是纯视觉
- 视觉模型的鲁棒性(光照、分辨率、主题变化)仍是挑战
5. 生态依赖
AutoGLM需要与手机厂商深度合作(如荣耀)才能获得系统级权限。不同Android厂商的权限模型不同,适配成本高。
八、与OpenAI Operator、Apple Intelligence的对比
| 维度 | AutoGLM(智谱) | OpenAI Operator | Apple Intelligence |
|---|---|---|---|
| 定位 | 开源基础智能体 | 闭源云端服务 | 系统级集成 |
| 模型 | 9B(可本地) | GPT-4o(云端) | 本地+云端混合 |
| 平台 | Android / Web | Web( initially) | iOS / macOS |
| 开源 | ✅ 完全开源 | ❌ 闭源 | ❌ 闭源 |
| 生态 | 需App授权 | 需网站合作 | 系统原生 |
| 优势 | 可本地、可定制、中文生态好 | 模型能力强、通用性好 | 系统集成深、体验流畅 |
| 劣势 | 模型能力弱于GPT-4o、需适配 | 闭源、隐私担忧、中文弱 | 仅苹果生态、功能有限 |
AutoGLM的独特价值在于开源+中文生态+可本地部署——这对于需要数据隐私、需要定制化、需要中文场景的用户是独特优势。
九、一个有趣的视角:GUI Agent是AI的"触觉"
人类有五感。AI目前主要用"语言"(文本)作为输入输出。
GUI Agent给了AI一种新感官:
- 视觉:看屏幕
- 动作:点击、滑动、输入
这不是在模拟人类——这是在扩展AI的能力边界。就像人类发明了望远镜扩展视觉、电话扩展听觉,GUI Agent扩展了AI与数字世界的交互能力。
Kilpatrick 在访谈中说"模型会吃掉脚手架"。AutoGLM某种程度上就是这个过程的体现:
操作手机的"脚手架"(无障碍服务、模拟点击、界面解析)正在被一个端到端模型(看屏幕→出动作)替代。
但这个"吃"的过程在GUI领域尤其困难——因为GUI是为人眼和人手设计的,不是为机器。
十、未来展望
短期(6个月)
- Open-AutoGLM社区会持续改进模型和框架
- 更多中文App适配(抖音、拼多多、支付宝等)
- 速度优化(减少推理延迟)
中期(1-2年)
- 跨App能力增强(从"在美团点外卖"到"先查信用卡优惠再点外卖")
- 从Phone扩展到Computer(GLM-PC已经在路上)
- 与手机厂商深度合作,获得系统级能力
长期(3-5年)
- GUI Agent成为数字设备的默认交互层
- 人类从"操作设备"转向"指挥Agent操作设备"
- 最终可能演进为Agentive系统(参考Xing论文的Agentic vs Agentive区分)
结语:数字世界的"手脚"
AutoGLM不是最炫酷的AI项目。它没有GPT-4的通用智能,没有Sora的视频生成,没有Omni的多模态统一。
但它解决了一个基础而关键的问题:
让AI真正能"动手"。
大模型是大脑,API是神经,GUI Agent是手脚。没有手脚,大脑只能思考,不能改变世界。
AutoGLM的意义在于:它让这个"手脚"从专用工具(如Selenium网页自动化)进化为了通用能力(像人类一样看屏幕、点按钮)。
这也许是AI从"能对话"到"能办事"的最关键一步。
参考来源:
- Liu, X. et al. (2024). "AutoGLM: Autonomous Foundation Agents for GUIs." arXiv:2411.00820.
- Xu, Y. et al. (2025). "MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents." arXiv:2509.18119.
- Zhang, H. et al. (2025). "AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework." arXiv:2510.04206.
- Lai, H. et al. (2025). "ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents." arXiv:2508.14040.
- Open-AutoGLM官网:https://xiao9905.github.io/AutoGLM/
#深度解读 #费曼风格 #AI #Agent #AutoGLM #智谱AI #清华 #GUIAgent #手机自动化 #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。