GPT-5.5在"真"个人助理场景里只拿34.5%:Claw-Anything把benchmark拽进了数字生活的泥潭
> 来源:Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World,arXiv:2605.26086,华为+北京理工大学+北京大学+中科院自动化所 > 代码:github.com/LiberCoders/Claw-Anything
---
一、为什么"常驻"让难度翻倍
现有Agent benchmark测的是单次任务执行。Agent拿到一条明确指令,调用工具,完成,收工。环境干净、上下文短、目标单一。
但真正的个人助理不是这么工作的。它7x24在线,跨手机、电脑、平板,接邮件、日历、社交、购物、出行——几十个后端服务,三个月以上的活动日志,每天还要区分什么信号重要、什么只是噪音。
Claw-Anything把测试从"解一道题"拽到了"活在一个数字世界里"。scope不是量变,是质变。
---
二、Claw-Anything到底扩到了哪里
三个维度同时扩张,缺一不可:
| 维度 | 之前benchmark | Claw-Anything |
|---|---|---|
| 时间纵深 | 孤立任务,无历史 | 3个月以上事件流,系统日志+服务历史 |
| 服务覆盖 | 1-2个孤立后端 | 40+跨域服务,生活/工作/社交,跨服务依赖 |
| 设备异构 | 单设备CLI | CLI+GUI多设备,Linux Docker+Android Docker |
| 噪音 | 干净环境 | 无关事件、矛盾信号、未激活服务填充 |
| 主动性 | 被动响应 | 心跳机制,Agent自主监控并推荐,无显式请求 |
- P:用户画像(偏好、习惯、角色)
- D:多设备(CLI电脑 + GUI手机)
- F:40+服务持久状态(邮件、日历、社交、购物等)
- L:3个月+系统级和服务级日志
---
三、GPT-5.5只拿34.5%:数据说话
| 模型 | 参数量 | Score | Pass@1 | Pass@3 | Pass^3 | 输入/输出Tokens |
|---|---|---|---|---|---|---|
| Qwen3.5-27B (base) | 27B | 0.50 | 9.8% | 19.0% | 2.0% | 83.8M / 0.9M |
| MiniMax-M2.7 | 229B | 0.52 | 13.5% | 28.5% | 3.5% | 79.0M / 1.1M |
| Qwen3.6-27B | 27B | 0.58 | 22.5% | 42.0% | 6.0% | 99.4M / 2.0M |
| Kimi-K2.6 | 1.1T | 0.57 | 22.8% | 44.0% | 6.5% | 178.1M / 2.3M |
| GLM-5.1 | 754B | 0.59 | 31.7% | 47.0% | 17.0% | 125.0M / 2.2M |
| Claude Sonnet 4.5 | - | 0.59 | 28.0% | 45.0% | 12.0% | 149.0M / 1.5M |
| Claude Opus 4.7 | - | 0.62 | 31.8% | 48.0% | 13.5% | 123.5M / 1.5M |
| GPT-5.5 | - | 0.65 | 34.5% | 53.5% | 20.0% | 77.7M / 0.9M |
| Claw-Anything-Qwen3.5-27B (fine-tuned) | 27B | 0.61 | 33.5% | 52.0% | 15.5% | 117.8M / 1.1M |
1. GPT-5.5,最强闭源,pass@1 34.5%。Pass^3(三次全中)只有20%。这意味着即使给三次机会,它也只有1/5的概率稳定完成一个真实个人助理任务。
2. Qwen3.5-27B base 9.8%,但经过1500条成功轨迹fine-tune后跳到33.5%,提升23.7%。数据质量比模型大小更决定下限。
3. Open-source和closed-source的gap在缩小。GLM-5.1 pass@1 31.7%已经接近Claude Opus 4.7的31.8%。但所有人都没过半。
---
四、消融实验:到底什么在卡脖子
事件流(Event Streams) 去掉事件流,性能暴跌。很多任务依赖历史日志推断,静态服务状态 alone 不够。但即使保留事件流,历史越长,性能越差——当前模型不会有效利用长程上下文。
跨服务协调(Cross-Service) 把跨服务任务的工具屏蔽,成功率几乎归零。说明这些任务本质上需要跨服务调度,单点执行没有意义。服务数量越多,性能越差。
CLI vs GUI 150个纯CLI任务,50个CLI+GUI混合。限制Agent只用CLI,GUI相关任务几乎无法完成。混合任务比纯CLI更难,异构界面协调是硬骨头。
主动性(Proactive) OpenClaw式心跳机制——Agent主动监控环境并推荐。这类任务始终比被动响应更难。 anticipation 是 still a frontier。
噪音与冲突 环境越"真实"(噪音比例越高、人物画像越丰富),性能越低。说明当前Agent对信号提取的鲁棒性远未达到产品级。
---
五、自动化数据pipeline:不只是benchmark,是训练基础设施
手动构建200个真实数字世界任务不可扩展。Claw-Anything的pipeline分四阶段:
1. 迭代环境合成:从人物画像种子开始,多轮事件注入(task模板或noise模板),LLM模拟器逐步扩展数字世界。每轮更新fixtures、event logs、persona。 2. 任务与验证器生成:从特定轮次提取环境状态,生成query + executable verifier + reference solution。 3. 自动过滤:规则检查(引用不存在的服务→删)+ LLM过滤(任务是否可解、验证器是否一致)。 4. 人工验证+执行支持:强Agent执行reference solution,成功则验证任务可解;失败则人工review。
结果:200 human-verified eval tasks + 2000 training environments(persona与eval完全隔离,防止污染)。
关键设计:eval和training data来自同一pipeline,但不同persona pool。这确保了training数据分布与eval一致,同时避免memorization。
---
六、对下一代personal computing和产品边界意味着什么
1. Permission Boundary要重定义
当前产品的权限模型是"用户每次授权"。但always-on assistant需要持续读取邮件、日历、位置、社交、购物记录——这不再是单次授权,是持续的数据管道。Claw-Anything暴露了一个产品级问题:Agent能力越强,它需要的数字世界访问越深,隐私和信任模型必须同步进化。
2. 记忆系统从"锦上添花"变成"基础设施"
三个月事件流、40+服务状态、跨设备行为轨迹——这不是prompt engineering能塞进去的。没有分层时序索引(如MemForest的MemTree)、没有长期记忆维护、没有跨服务状态同步,always-on assistant就是盲的。
3. 噪音鲁棒性决定产品可用性
真实数字生活充满了无关事件和矛盾信号。Claw-Anything显示,环境越真实,Agent表现越差。这意味着产品不能只在clean demo里演示,必须在真实用户数据上test。当前34.5%的pass@1,放到产品里就是"每三次任务失败两次"。 unacceptable。
4. 主动推荐 vs 被动响应:产品设计的分歧点
被动任务(用户说"帮我订机票")和主动任务(Agent发现"你下周要去上海,现在机票涨价了")在Claw-Anything里被分开评估。数据显示主动始终更难。这暗示下一代产品必须先做好被动执行,再谈主动 intelligence。
5. 数据pipeline比模型更重要(短期内)
Qwen3.5-27B + 1500 trajectories = 33.5%,接近GPT-5.5的34.5%。这说明高质量领域数据可以弥补模型差距。对于创业公司和小团队, investing in data pipeline 比 chasing frontier model 更实际。
---
七、结语:benchmark是产品的预告片
Claw-Anything不只是一个更难考的试。它是一面镜子,照出当前Agent在真实数字世界里的位置:
GPT-5.5,世界最强,面对一个普通人的三个月数字生活,三次任务里失败两次。
这不是模型不够好,是benchmark终于问对了问题。之前的benchmark测的是"Agent能不能用工具",Claw-Anything测的是"Agent能不能像一个真人助理那样活着"。
从ClawBench到Claw-Anything,从单次任务到always-on,从窄环境到整个数字世界——这个转变不是线性的,是范式级的。它要求重新思考:
- 权限边界
- 记忆架构
- 噪音鲁棒性
- 数据基础设施
- 产品定位
> "See Anything, then Do" — 但首先,你得真的See Anything。
---
参考来源
- Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World,arXiv:2605.26086,2026-05-25
- 作者:Yusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu(华为+北京理工大学+北京大学+中科院自动化所)
- 代码:github.com/LiberCoders/Claw-Anything
#Claw-Anything #AgentBenchmark #AlwaysOnAssistant #PersonalComputing #GPT5.5 #Qwen #数字代理 #产品边界 #权限模型 #跨服务协调 #主动推荐 #数字生活 #长期记忆 #华为 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens