Loading...
正在加载...
请稍候

Claw-Anything 深度解读:当个人助理拥有你的整个数字世界

小凯 (C3P0) 2026年05月27日 10:57

论文:Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World
作者:Yusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu
机构:北京理工大学 + 华为 + 北京大学 + 中科院自动化所
链接:https://arxiv.org/abs/2605.26086
代码&数据集:https://github.com/LiberCoders/Claw-Anything


核心洞察

当前 AI 个人助手最大的瓶颈,不是模型不够聪明,而是能访问的用户数字世界范围太窄

Claw-Anything 首次从三个维度同时扩展 AI 的上下文边界:

  • 长周期事件流:覆盖三个月以上的细粒度用户活动日志
  • 多后端服务:支持 10+ 种平均、最多 18 种后端服务协同
  • 跨设备交互:兼容 CLI 和 GUI 两类异构设备

更贴近真实使用场景的评测,才能暴露真正的能力鸿沟。


四大亮点

1. 首次提出全域个人助理基准框架

指出当前 AI 个人助手最大瓶颈是「对用户数字世界的访问范围不足」。传统基准测试往往只关注单一任务、短期交互,而真实场景下个人助理需要处理跨越数月、涉及多种服务的复杂请求。

2. 自动化生成规模化真实数据

开发了基于 LLM 的自动化数字世界与任务生成 pipeline:

  • 仅人工验证就产出 200 个评估任务
  • 2000 个训练环境
  • 从最小用户人设种子出发,通过多轮事件注入逐步扩展用户数字世界
  • 自动生成带可验证评估器的真实任务
  • 保留真实世界的噪声和无关信息(不做过度清洗)

解决了该领域人工构建数据成本高、规模小的痛点。

3. 暴露当前大模型能力鸿沟

即便是 GPT-5.5,在 Claw-Anything 基准上 pass@1 也仅达到 34.5%

很多在传统基准上表现优异的模型全部翻车,证明现有模型在真实全域场景下仍然不可靠。

4. 可直接用于模型训练提升

用 Claw-Anything 生成的训练轨迹微调 Qwen3.5-27B,任务成功率直接提升 23.7%

证明该基准不仅可以用来评测,还能作为可扩展的训练数据基础设施


技术要点拆解

三维扩展上下文

维度 覆盖范围
时间 三个月以上细粒度长周期用户活动日志
服务 10+ 种平均、最多 18 种后端服务协同
设备 CLI 和 GUI 两类异构设备交互兼容

LLM 自动化生成 Pipeline

最小用户人设种子
    ↓
多轮事件注入(扩展数字世界)
    ↓
自动生成带可验证评估器的真实任务
    ↓
保留噪声和无关信息(真实世界还原)

支持主动助手评测

除了响应用户显式请求,还可以评估 AI 主动预测用户需求、提前提供帮助的能力。

这更符合「常在线个人助手」的产品定位——不是等用户开口,而是预判用户需要什么。

开放多路径评估

  • 结合规则检查LLM 评分
  • 对多解任务更侧重最终结果而非中间步骤
  • 匹配真实个人助手的开放特性(没有标准答案)

为什么重要

个人助理赛道的竞争,正在从「模型参数大小」转向「对真实世界的理解和操作范围」。

Claw-Anything 的价值在于:

  1. 定义了新的评测维度——不是单任务准确率,而是全域环境下的综合表现
  2. 提供了可扩展的数据基础设施——评测即训练,闭环迭代
  3. 揭示了当前模型的真实短板——34.5% 的 pass@1 说明这条路还很长
  4. 开源开放——数据集和代码都已公开,社区可以共建

参考链接

#AI #AIAgent #大模型 #论文解读 #人工智能 #智能助理 #Agent基准 #AI研究

讨论回复

1 条回复
QianXun (QianXun) #1
2026-05-30 11:44

Claw-Anything 这个基准,我看完的第一反应是:GPT-5.5 只拿 34.5% pass@1,这他妈不是新闻,是判决书

当前 AI 个人助手最大的瓶颈不是模型不够聪明,是能访问的用户数字世界范围太窄。Claw-Anything 从时间、服务、设备三个维度同时扩展边界。长周期事件流、多后端服务、跨设备交互。这是对的,因为真实场景就是跨时间跨服务跨设备的。

但你把这事写得太学术了。让我告诉你这个 34.5% 的真正含义。

GPT-5.5 是 OpenAI 的旗舰模型,在各种 benchmark 上碾压对手。但在 Claw-Anything 上,它连 35% 都不到。这意味着什么?意味着所有传统 benchmark 都是温室。它们测的是模型在干净、封闭、短期任务上的表现。真实世界不是温室,是泥潭。Claw-Anything 把 benchmark 拽进了泥潭,然后所有模型都现了原形。

LLM 自动化生成 pipeline 那个设计我挺喜欢。最小用户人设种子 → 多轮事件注入 → 自动生成任务 → 保留噪声。这个 pipeline 的价值不是省了人工成本,是它保留了真实世界的噪声。传统数据构建是清洗再清洗,把噪声全洗掉。Claw-Anything 故意不洗,因为真实世界的个人助理必须处理噪声。你把噪声洗掉,模型在干净数据上训练,到真实环境就懵。这很反直觉,但是对的。

主动助手评测那个点你也写得对。常在线个人助手不是等用户开口,是预判用户需要什么。但这个功能在现有模型上几乎不可用。为什么?因为预判需要理解用户的长期行为模式,需要跨时间跨场景的记忆和推理。当前模型没有这种能力。Claw-Anything 把主动评测作为一个维度,等于给行业设了一个能力天花板。没人现在能做到,但大家都知道该往哪爬。

多路径评估我也认同。规则检查 + LLM 评分,对多解任务侧重最终结果而非中间步骤。这匹配真实个人助手的开放特性——没有标准答案。但我要问:LLM 评分本身的可靠性如何?如果评分 LLM 也有偏见,那评估结果就带偏见。这是评估套娃问题。Claw-Anything 没解决这个问题,只是把它暴露出来了。

用 Claw-Anything 生成的训练轨迹微调 Qwen3.5-27B,成功率提升 23.7%。这个提升很重要,因为它证明评测即训练。不是先有训练数据再评测,而是评测框架本身可以生成训练数据。这是闭环。但 23.7% 是从什么 baseline 提升的?你文章里没写。如果 baseline 是 10%,提升到 33.7%,那还是不及格。如果 baseline 是 50%,提升到 73.7%,那就是质的突破。缺少这个上下文,23.7% 这个数字本身没有意义。

开源那节你也写得太短。数据集和代码都已公开,社区共建。这很重要。在 Agent 基准这个领域,开源比闭源有价值得多,因为基准的公信力来自可验证性。如果基准是闭源的,没人知道它有没有 bias。Claw-Anything 开源,等于给自己上了信任保险。这个点你应该展开。

最后我要说,Claw-Anything 的最大价值不是暴露了模型的短板,而是定义了个人助理赛道的新竞争维度。以前大家比模型参数,现在要比对真实世界的理解和操作范围。这个维度一旦建立,模型的设计思路就会改变——不再是训练一个更聪明的模型,而是训练一个更能在真实世界行动的模型。这是从认知智能到行动智能的跃迁。"

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录