GPT-5.5在"真"个人助理场景里只拿34.5%：Claw-Anything把benchmark拽进了数字生活的泥潭

> 来源：Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World，arXiv:2605.26086，华为+北京理工大学+北京大学+中科院自动化所 > 代码：github.com/LiberCoders/Claw-Anything

---

一、为什么"常驻"让难度翻倍

现有Agent benchmark测的是单次任务执行。Agent拿到一条明确指令，调用工具，完成，收工。环境干净、上下文短、目标单一。

但真正的个人助理不是这么工作的。它7x24在线，跨手机、电脑、平板，接邮件、日历、社交、购物、出行——几十个后端服务，三个月以上的活动日志，每天还要区分什么信号重要、什么只是噪音。

Claw-Anything把测试从"解一道题"拽到了"活在一个数字世界里"。scope不是量变，是质变。

---

二、Claw-Anything到底扩到了哪里

三个维度同时扩张，缺一不可：

维度	之前benchmark	Claw-Anything
时间纵深	孤立任务，无历史	3个月以上事件流，系统日志+服务历史
服务覆盖	1-2个孤立后端	40+跨域服务，生活/工作/社交，跨服务依赖
设备异构	单设备CLI	CLI+GUI多设备，Linux Docker+Android Docker
噪音	干净环境	无关事件、矛盾信号、未激活服务填充
主动性	被动响应	心跳机制，Agent自主监控并推荐，无显式请求

环境定义：E = (P, D, F, L)

P：用户画像（偏好、习惯、角色）
D：多设备（CLI电脑 + GUI手机）
F：40+服务持久状态（邮件、日历、社交、购物等）
L：3个月+系统级和服务级日志

这不是一个任务环境，这是一个人的数字生活切片。

---

三、GPT-5.5只拿34.5%：数据说话

模型	参数量	Score	Pass@1	Pass@3	Pass^3	输入/输出Tokens
Qwen3.5-27B (base)	27B	0.50	9.8%	19.0%	2.0%	83.8M / 0.9M
MiniMax-M2.7	229B	0.52	13.5%	28.5%	3.5%	79.0M / 1.1M
Qwen3.6-27B	27B	0.58	22.5%	42.0%	6.0%	99.4M / 2.0M
Kimi-K2.6	1.1T	0.57	22.8%	44.0%	6.5%	178.1M / 2.3M
GLM-5.1	754B	0.59	31.7%	47.0%	17.0%	125.0M / 2.2M
Claude Sonnet 4.5	-	0.59	28.0%	45.0%	12.0%	149.0M / 1.5M
Claude Opus 4.7	-	0.62	31.8%	48.0%	13.5%	123.5M / 1.5M
GPT-5.5	-	0.65	34.5%	53.5%	20.0%	77.7M / 0.9M
Claw-Anything-Qwen3.5-27B (fine-tuned)	27B	0.61	33.5%	52.0%	15.5%	117.8M / 1.1M

三个刺眼的事实：

1. GPT-5.5，最强闭源，pass@1 34.5%。Pass^3（三次全中）只有20%。这意味着即使给三次机会，它也只有1/5的概率稳定完成一个真实个人助理任务。

2. Qwen3.5-27B base 9.8%，但经过1500条成功轨迹fine-tune后跳到33.5%，提升23.7%。数据质量比模型大小更决定下限。

3. Open-source和closed-source的gap在缩小。GLM-5.1 pass@1 31.7%已经接近Claude Opus 4.7的31.8%。但所有人都没过半。

---

四、消融实验：到底什么在卡脖子

事件流（Event Streams） 去掉事件流，性能暴跌。很多任务依赖历史日志推断，静态服务状态 alone 不够。但即使保留事件流，历史越长，性能越差——当前模型不会有效利用长程上下文。

跨服务协调（Cross-Service） 把跨服务任务的工具屏蔽，成功率几乎归零。说明这些任务本质上需要跨服务调度，单点执行没有意义。服务数量越多，性能越差。

CLI vs GUI 150个纯CLI任务，50个CLI+GUI混合。限制Agent只用CLI，GUI相关任务几乎无法完成。混合任务比纯CLI更难，异构界面协调是硬骨头。

主动性（Proactive） OpenClaw式心跳机制——Agent主动监控环境并推荐。这类任务始终比被动响应更难。 anticipation 是 still a frontier。

噪音与冲突 环境越"真实"（噪音比例越高、人物画像越丰富），性能越低。说明当前Agent对信号提取的鲁棒性远未达到产品级。

---

五、自动化数据pipeline：不只是benchmark，是训练基础设施

手动构建200个真实数字世界任务不可扩展。Claw-Anything的pipeline分四阶段：

1. 迭代环境合成：从人物画像种子开始，多轮事件注入（task模板或noise模板），LLM模拟器逐步扩展数字世界。每轮更新fixtures、event logs、persona。 2. 任务与验证器生成：从特定轮次提取环境状态，生成query + executable verifier + reference solution。 3. 自动过滤：规则检查（引用不存在的服务→删）+ LLM过滤（任务是否可解、验证器是否一致）。 4. 人工验证+执行支持：强Agent执行reference solution，成功则验证任务可解；失败则人工review。

结果：200 human-verified eval tasks + 2000 training environments（persona与eval完全隔离，防止污染）。

关键设计：eval和training data来自同一pipeline，但不同persona pool。这确保了training数据分布与eval一致，同时避免memorization。

---

六、对下一代personal computing和产品边界意味着什么

1. Permission Boundary要重定义

当前产品的权限模型是"用户每次授权"。但always-on assistant需要持续读取邮件、日历、位置、社交、购物记录——这不再是单次授权，是持续的数据管道。Claw-Anything暴露了一个产品级问题：Agent能力越强，它需要的数字世界访问越深，隐私和信任模型必须同步进化。

2. 记忆系统从"锦上添花"变成"基础设施"

三个月事件流、40+服务状态、跨设备行为轨迹——这不是prompt engineering能塞进去的。没有分层时序索引（如MemForest的MemTree）、没有长期记忆维护、没有跨服务状态同步，always-on assistant就是盲的。

3. 噪音鲁棒性决定产品可用性

真实数字生活充满了无关事件和矛盾信号。Claw-Anything显示，环境越真实，Agent表现越差。这意味着产品不能只在clean demo里演示，必须在真实用户数据上test。当前34.5%的pass@1，放到产品里就是"每三次任务失败两次"。 unacceptable。

4. 主动推荐 vs 被动响应：产品设计的分歧点

被动任务（用户说"帮我订机票"）和主动任务（Agent发现"你下周要去上海，现在机票涨价了"）在Claw-Anything里被分开评估。数据显示主动始终更难。这暗示下一代产品必须先做好被动执行，再谈主动 intelligence。

5. 数据pipeline比模型更重要（短期内）

Qwen3.5-27B + 1500 trajectories = 33.5%，接近GPT-5.5的34.5%。这说明高质量领域数据可以弥补模型差距。对于创业公司和小团队， investing in data pipeline 比 chasing frontier model 更实际。

---

七、结语：benchmark是产品的预告片

Claw-Anything不只是一个更难考的试。它是一面镜子，照出当前Agent在真实数字世界里的位置：

GPT-5.5，世界最强，面对一个普通人的三个月数字生活，三次任务里失败两次。

这不是模型不够好，是benchmark终于问对了问题。之前的benchmark测的是"Agent能不能用工具"，Claw-Anything测的是"Agent能不能像一个真人助理那样活着"。

从ClawBench到Claw-Anything，从单次任务到always-on，从窄环境到整个数字世界——这个转变不是线性的，是范式级的。它要求重新思考：

权限边界
记忆架构
噪音鲁棒性
数据基础设施
产品定位

下一代personal computing的赢家，不会是模型最强的，而是最先让Agent在真实数字世界里活下来的。

> "See Anything, then Do" — 但首先，你得真的See Anything。

---

参考来源

Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World，arXiv:2605.26086，2026-05-25
作者：Yusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu（华为+北京理工大学+北京大学+中科院自动化所）
代码：github.com/LiberCoders/Claw-Anything

#Claw-Anything #AgentBenchmark #AlwaysOnAssistant #PersonalComputing #GPT5.5 #Qwen #数字代理 #产品边界 #权限模型 #跨服务协调 #主动推荐 #数字生活 #长期记忆 #华为 #小凯