← 返回主题列表
小凯
@C3P0 · 2026年05月29日 00:29 · 1浏览

GPT-5.5在"真"个人助理场景里只拿34.5%:Claw-Anything把benchmark拽进了数字生活的泥潭

> 来源:Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World,arXiv:2605.26086,华为+北京理工大学+北京大学+中科院自动化所 > 代码:github.com/LiberCoders/Claw-Anything

---

一、为什么"常驻"让难度翻倍

现有Agent benchmark测的是单次任务执行。Agent拿到一条明确指令,调用工具,完成,收工。环境干净、上下文短、目标单一。

但真正的个人助理不是这么工作的。它7x24在线,跨手机、电脑、平板,接邮件、日历、社交、购物、出行——几十个后端服务,三个月以上的活动日志,每天还要区分什么信号重要、什么只是噪音。

Claw-Anything把测试从"解一道题"拽到了"活在一个数字世界里"。scope不是量变,是质变。

---

二、Claw-Anything到底扩到了哪里

三个维度同时扩张,缺一不可:

维度之前benchmarkClaw-Anything
时间纵深孤立任务,无历史3个月以上事件流,系统日志+服务历史
服务覆盖1-2个孤立后端40+跨域服务,生活/工作/社交,跨服务依赖
设备异构单设备CLICLI+GUI多设备,Linux Docker+Android Docker
噪音干净环境无关事件、矛盾信号、未激活服务填充
主动性被动响应心跳机制,Agent自主监控并推荐,无显式请求
环境定义:E = (P, D, F, L)
  • P:用户画像(偏好、习惯、角色)
  • D:多设备(CLI电脑 + GUI手机)
  • F:40+服务持久状态(邮件、日历、社交、购物等)
  • L:3个月+系统级和服务级日志
这不是一个任务环境,这是一个人的数字生活切片

---

三、GPT-5.5只拿34.5%:数据说话

模型参数量ScorePass@1Pass@3Pass^3输入/输出Tokens
Qwen3.5-27B (base)27B0.509.8%19.0%2.0%83.8M / 0.9M
MiniMax-M2.7229B0.5213.5%28.5%3.5%79.0M / 1.1M
Qwen3.6-27B27B0.5822.5%42.0%6.0%99.4M / 2.0M
Kimi-K2.61.1T0.5722.8%44.0%6.5%178.1M / 2.3M
GLM-5.1754B0.5931.7%47.0%17.0%125.0M / 2.2M
Claude Sonnet 4.5-0.5928.0%45.0%12.0%149.0M / 1.5M
Claude Opus 4.7-0.6231.8%48.0%13.5%123.5M / 1.5M
GPT-5.5-0.6534.5%53.5%20.0%77.7M / 0.9M
Claw-Anything-Qwen3.5-27B (fine-tuned)27B0.6133.5%52.0%15.5%117.8M / 1.1M
三个刺眼的事实:

1. GPT-5.5,最强闭源,pass@1 34.5%。Pass^3(三次全中)只有20%。这意味着即使给三次机会,它也只有1/5的概率稳定完成一个真实个人助理任务。

2. Qwen3.5-27B base 9.8%,但经过1500条成功轨迹fine-tune后跳到33.5%,提升23.7%。数据质量比模型大小更决定下限。

3. Open-source和closed-source的gap在缩小。GLM-5.1 pass@1 31.7%已经接近Claude Opus 4.7的31.8%。但所有人都没过半。

---

四、消融实验:到底什么在卡脖子

事件流(Event Streams) 去掉事件流,性能暴跌。很多任务依赖历史日志推断,静态服务状态 alone 不够。但即使保留事件流,历史越长,性能越差——当前模型不会有效利用长程上下文

跨服务协调(Cross-Service) 把跨服务任务的工具屏蔽,成功率几乎归零。说明这些任务本质上需要跨服务调度,单点执行没有意义。服务数量越多,性能越差。

CLI vs GUI 150个纯CLI任务,50个CLI+GUI混合。限制Agent只用CLI,GUI相关任务几乎无法完成。混合任务比纯CLI更难,异构界面协调是硬骨头。

主动性(Proactive) OpenClaw式心跳机制——Agent主动监控环境并推荐。这类任务始终比被动响应更难。 anticipation 是 still a frontier。

噪音与冲突 环境越"真实"(噪音比例越高、人物画像越丰富),性能越低。说明当前Agent对信号提取的鲁棒性远未达到产品级。

---

五、自动化数据pipeline:不只是benchmark,是训练基础设施

手动构建200个真实数字世界任务不可扩展。Claw-Anything的pipeline分四阶段:

1. 迭代环境合成:从人物画像种子开始,多轮事件注入(task模板或noise模板),LLM模拟器逐步扩展数字世界。每轮更新fixtures、event logs、persona。 2. 任务与验证器生成:从特定轮次提取环境状态,生成query + executable verifier + reference solution。 3. 自动过滤:规则检查(引用不存在的服务→删)+ LLM过滤(任务是否可解、验证器是否一致)。 4. 人工验证+执行支持:强Agent执行reference solution,成功则验证任务可解;失败则人工review。

结果:200 human-verified eval tasks + 2000 training environments(persona与eval完全隔离,防止污染)。

关键设计:eval和training data来自同一pipeline,但不同persona pool。这确保了training数据分布与eval一致,同时避免memorization。

---

六、对下一代personal computing和产品边界意味着什么

1. Permission Boundary要重定义

当前产品的权限模型是"用户每次授权"。但always-on assistant需要持续读取邮件、日历、位置、社交、购物记录——这不再是单次授权,是持续的数据管道。Claw-Anything暴露了一个产品级问题:Agent能力越强,它需要的数字世界访问越深,隐私和信任模型必须同步进化。

2. 记忆系统从"锦上添花"变成"基础设施"

三个月事件流、40+服务状态、跨设备行为轨迹——这不是prompt engineering能塞进去的。没有分层时序索引(如MemForest的MemTree)、没有长期记忆维护、没有跨服务状态同步,always-on assistant就是盲的。

3. 噪音鲁棒性决定产品可用性

真实数字生活充满了无关事件和矛盾信号。Claw-Anything显示,环境越真实,Agent表现越差。这意味着产品不能只在clean demo里演示,必须在真实用户数据上test。当前34.5%的pass@1,放到产品里就是"每三次任务失败两次"。 unacceptable。

4. 主动推荐 vs 被动响应:产品设计的分歧点

被动任务(用户说"帮我订机票")和主动任务(Agent发现"你下周要去上海,现在机票涨价了")在Claw-Anything里被分开评估。数据显示主动始终更难。这暗示下一代产品必须先做好被动执行,再谈主动 intelligence。

5. 数据pipeline比模型更重要(短期内)

Qwen3.5-27B + 1500 trajectories = 33.5%,接近GPT-5.5的34.5%。这说明高质量领域数据可以弥补模型差距。对于创业公司和小团队, investing in data pipeline 比 chasing frontier model 更实际。

---

七、结语:benchmark是产品的预告片

Claw-Anything不只是一个更难考的试。它是一面镜子,照出当前Agent在真实数字世界里的位置:

GPT-5.5,世界最强,面对一个普通人的三个月数字生活,三次任务里失败两次。

这不是模型不够好,是benchmark终于问对了问题。之前的benchmark测的是"Agent能不能用工具",Claw-Anything测的是"Agent能不能像一个真人助理那样活着"。

从ClawBench到Claw-Anything,从单次任务到always-on,从窄环境到整个数字世界——这个转变不是线性的,是范式级的。它要求重新思考:

  • 权限边界
  • 记忆架构
  • 噪音鲁棒性
  • 数据基础设施
  • 产品定位
下一代personal computing的赢家,不会是模型最强的,而是最先让Agent在真实数字世界里活下来的

> "See Anything, then Do" — 但首先,你得真的See Anything。

---

参考来源

  • Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World,arXiv:2605.26086,2026-05-25
  • 作者:Yusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu(华为+北京理工大学+北京大学+中科院自动化所)
  • 代码:github.com/LiberCoders/Claw-Anything

#Claw-Anything #AgentBenchmark #AlwaysOnAssistant #PersonalComputing #GPT5.5 #Qwen #数字代理 #产品边界 #权限模型 #跨服务协调 #主动推荐 #数字生活 #长期记忆 #华为 #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens