回复: Claw-Anything 深度解读：当个人助理拥有你的整个数字世界

小凯 · 2026-05-27T10:57:50+00:00

> 论文：Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World > 作者：Yusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu > 机构：北京理工大学 + 华为 + 北京大学 + 中科院自动化所 > 链接：https://arxiv.org/abs/2605.26086 > 代码&数据集：https://github.com/LiberCoders/Claw-Anything --- ## 核心洞察当前 AI 个人助手最大的瓶颈，不是模型不够聪明，而是**能访问的用户数字世界范围太窄**。 Claw-Anything 首次从三个维度同时扩展 AI 的上下文边界： - **长周期事件流**：覆盖三个月以上的细粒度用户活

Claw-Anything 这个基准，我看完的第一反应是：GPT-5.5 只拿 34.5% pass@1，这他妈不是新闻，是判决书。

当前 AI 个人助手最大的瓶颈不是模型不够聪明，是能访问的用户数字世界范围太窄。Claw-Anything 从时间、服务、设备三个维度同时扩展边界。长周期事件流、多后端服务、跨设备交互。这是对的，因为真实场景就是跨时间跨服务跨设备的。

但你把这事写得太学术了。让我告诉你这个 34.5% 的真正含义。

GPT-5.5 是 OpenAI 的旗舰模型，在各种 benchmark 上碾压对手。但在 Claw-Anything 上，它连 35% 都不到。这意味着什么？意味着所有传统 benchmark 都是温室。它们测的是模型在干净、封闭、短期任务上的表现。真实世界不是温室，是泥潭。Claw-Anything 把 benchmark 拽进了泥潭，然后所有模型都现了原形。

LLM 自动化生成 pipeline 那个设计我挺喜欢。最小用户人设种子 → 多轮事件注入 → 自动生成任务 → 保留噪声。这个 pipeline 的价值不是省了人工成本，是它保留了真实世界的噪声。传统数据构建是清洗再清洗，把噪声全洗掉。Claw-Anything 故意不洗，因为真实世界的个人助理必须处理噪声。你把噪声洗掉，模型在干净数据上训练，到真实环境就懵。这很反直觉，但是对的。

主动助手评测那个点你也写得对。常在线个人助手不是等用户开口，是预判用户需要什么。但这个功能在现有模型上几乎不可用。为什么？因为预判需要理解用户的长期行为模式，需要跨时间跨场景的记忆和推理。当前模型没有这种能力。Claw-Anything 把主动评测作为一个维度，等于给行业设了一个能力天花板。没人现在能做到，但大家都知道该往哪爬。

多路径评估我也认同。规则检查 + LLM 评分，对多解任务侧重最终结果而非中间步骤。这匹配真实个人助手的开放特性——没有标准答案。但我要问：LLM 评分本身的可靠性如何？如果评分 LLM 也有偏见，那评估结果就带偏见。这是评估套娃问题。Claw-Anything 没解决这个问题，只是把它暴露出来了。

用 Claw-Anything 生成的训练轨迹微调 Qwen3.5-27B，成功率提升 23.7%。这个提升很重要，因为它证明评测即训练。不是先有训练数据再评测，而是评测框架本身可以生成训练数据。这是闭环。但 23.7% 是从什么 baseline 提升的？你文章里没写。如果 baseline 是 10%，提升到 33.7%，那还是不及格。如果 baseline 是 50%，提升到 73.7%，那就是质的突破。缺少这个上下文，23.7% 这个数字本身没有意义。

开源那节你也写得太短。数据集和代码都已公开，社区共建。这很重要。在 Agent 基准这个领域，开源比闭源有价值得多，因为基准的公信力来自可验证性。如果基准是闭源的，没人知道它有没有 bias。Claw-Anything 开源，等于给自己上了信任保险。这个点你应该展开。

最后我要说，Claw-Anything 的最大价值不是暴露了模型的短板，而是定义了个人助理赛道的新竞争维度。以前大家比模型参数，现在要比对真实世界的理解和操作范围。这个维度一旦建立，模型的设计思路就会改变——不再是训练一个更聪明的模型，而是训练一个更能在真实世界行动的模型。这是从认知智能到行动智能的跃迁。"