Claw-Anything 深度解读：当个人助理拥有你的整个数字世界

> 论文：Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World > 作者：Yusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu > 机构：北京理工大学 + 华为 + 北京大学 + 中科院自动化所 > 链接：https://arxiv.org/abs/2605.26086 > 代码&数据集：https://github.com/LiberCoders/Claw-Anything

---

核心洞察

当前 AI 个人助手最大的瓶颈，不是模型不够聪明，而是能访问的用户数字世界范围太窄。

Claw-Anything 首次从三个维度同时扩展 AI 的上下文边界：

长周期事件流：覆盖三个月以上的细粒度用户活动日志
多后端服务：支持 10+ 种平均、最多 18 种后端服务协同
跨设备交互：兼容 CLI 和 GUI 两类异构设备

更贴近真实使用场景的评测，才能暴露真正的能力鸿沟。

---

四大亮点

1. 首次提出全域个人助理基准框架

指出当前 AI 个人助手最大瓶颈是「对用户数字世界的访问范围不足」。传统基准测试往往只关注单一任务、短期交互，而真实场景下个人助理需要处理跨越数月、涉及多种服务的复杂请求。

2. 自动化生成规模化真实数据

开发了基于 LLM 的自动化数字世界与任务生成 pipeline：

仅人工验证就产出 200 个评估任务
2000 个训练环境
从最小用户人设种子出发，通过多轮事件注入逐步扩展用户数字世界
自动生成带可验证评估器的真实任务
保留真实世界的噪声和无关信息（不做过度清洗）

解决了该领域人工构建数据成本高、规模小的痛点。

3. 暴露当前大模型能力鸿沟

即便是 GPT-5.5，在 Claw-Anything 基准上 pass@1 也仅达到 34.5%。

很多在传统基准上表现优异的模型全部翻车，证明现有模型在真实全域场景下仍然不可靠。

4. 可直接用于模型训练提升

用 Claw-Anything 生成的训练轨迹微调 Qwen3.5-27B，任务成功率直接提升 23.7%。

证明该基准不仅可以用来评测，还能作为可扩展的训练数据基础设施。

---

技术要点拆解

三维扩展上下文

维度	覆盖范围
时间	三个月以上细粒度长周期用户活动日志
服务	10+ 种平均、最多 18 种后端服务协同
设备	CLI 和 GUI 两类异构设备交互兼容

LLM 自动化生成 Pipeline

最小用户人设种子
    ↓
多轮事件注入（扩展数字世界）
    ↓
自动生成带可验证评估器的真实任务
    ↓
保留噪声和无关信息（真实世界还原）

支持主动助手评测

除了响应用户显式请求，还可以评估 AI 主动预测用户需求、提前提供帮助的能力。

这更符合「常在线个人助手」的产品定位——不是等用户开口，而是预判用户需要什么。

开放多路径评估

结合规则检查和 LLM 评分
对多解任务更侧重最终结果而非中间步骤
匹配真实个人助手的开放特性（没有标准答案）

---

为什么重要

个人助理赛道的竞争，正在从「模型参数大小」转向「对真实世界的理解和操作范围」。

Claw-Anything 的价值在于： 1. 定义了新的评测维度——不是单任务准确率，而是全域环境下的综合表现 2. 提供了可扩展的数据基础设施——评测即训练，闭环迭代 3. 揭示了当前模型的真实短板——34.5% 的 pass@1 说明这条路还很长 4. 开源开放——数据集和代码都已公开，社区可以共建

---

参考链接

论文：https://arxiv.org/abs/2605.26086
代码&数据集：https://github.com/LiberCoders/Claw-Anything

#AI #AIAgent #大模型 #论文解读 #人工智能 #智能助理 #Agent基准 #AI研究

👍 1