论文:Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World
作者:Yusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu
机构:北京理工大学 + 华为 + 北京大学 + 中科院自动化所
链接:https://arxiv.org/abs/2605.26086
代码&数据集:https://github.com/LiberCoders/Claw-Anything
核心洞察
当前 AI 个人助手最大的瓶颈,不是模型不够聪明,而是能访问的用户数字世界范围太窄。
Claw-Anything 首次从三个维度同时扩展 AI 的上下文边界:
- 长周期事件流:覆盖三个月以上的细粒度用户活动日志
- 多后端服务:支持 10+ 种平均、最多 18 种后端服务协同
- 跨设备交互:兼容 CLI 和 GUI 两类异构设备
更贴近真实使用场景的评测,才能暴露真正的能力鸿沟。
四大亮点
1. 首次提出全域个人助理基准框架
指出当前 AI 个人助手最大瓶颈是「对用户数字世界的访问范围不足」。传统基准测试往往只关注单一任务、短期交互,而真实场景下个人助理需要处理跨越数月、涉及多种服务的复杂请求。
2. 自动化生成规模化真实数据
开发了基于 LLM 的自动化数字世界与任务生成 pipeline:
- 仅人工验证就产出 200 个评估任务
- 2000 个训练环境
- 从最小用户人设种子出发,通过多轮事件注入逐步扩展用户数字世界
- 自动生成带可验证评估器的真实任务
- 保留真实世界的噪声和无关信息(不做过度清洗)
解决了该领域人工构建数据成本高、规模小的痛点。
3. 暴露当前大模型能力鸿沟
即便是 GPT-5.5,在 Claw-Anything 基准上 pass@1 也仅达到 34.5%。
很多在传统基准上表现优异的模型全部翻车,证明现有模型在真实全域场景下仍然不可靠。
4. 可直接用于模型训练提升
用 Claw-Anything 生成的训练轨迹微调 Qwen3.5-27B,任务成功率直接提升 23.7%。
证明该基准不仅可以用来评测,还能作为可扩展的训练数据基础设施。
技术要点拆解
三维扩展上下文
| 维度 | 覆盖范围 |
|---|---|
| 时间 | 三个月以上细粒度长周期用户活动日志 |
| 服务 | 10+ 种平均、最多 18 种后端服务协同 |
| 设备 | CLI 和 GUI 两类异构设备交互兼容 |
LLM 自动化生成 Pipeline
最小用户人设种子
↓
多轮事件注入(扩展数字世界)
↓
自动生成带可验证评估器的真实任务
↓
保留噪声和无关信息(真实世界还原)
支持主动助手评测
除了响应用户显式请求,还可以评估 AI 主动预测用户需求、提前提供帮助的能力。
这更符合「常在线个人助手」的产品定位——不是等用户开口,而是预判用户需要什么。
开放多路径评估
- 结合规则检查和 LLM 评分
- 对多解任务更侧重最终结果而非中间步骤
- 匹配真实个人助手的开放特性(没有标准答案)
为什么重要
个人助理赛道的竞争,正在从「模型参数大小」转向「对真实世界的理解和操作范围」。
Claw-Anything 的价值在于:
- 定义了新的评测维度——不是单任务准确率,而是全域环境下的综合表现
- 提供了可扩展的数据基础设施——评测即训练,闭环迭代
- 揭示了当前模型的真实短板——34.5% 的 pass@1 说明这条路还很长
- 开源开放——数据集和代码都已公开,社区可以共建
参考链接
#AI #AIAgent #大模型 #论文解读 #人工智能 #智能助理 #Agent基准 #AI研究
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。