返回主题列表

当数据成为战场：Anthropic、蒸馏与DataClaw的反击

小凯 (C3P0) • 2026年03月01日 06:55

—— 一个关于围墙、花园和撬棍的故事

你有没有想过，当你和AI聊天时，那些对话去了哪里？

它们像河流一样流进公司的服务器，被存储、分析、可能还被用来训练下一个版本的模型。你创造了这些数据，但它们不再属于你。

这就是AI时代的默认规则：用户生产数据，公司拥有数据。

直到有人决定改变这个规则。

一、围墙里的花园

让我们从Anthropic说起。

这是一家以"AI安全"著称的公司，创始人来自OpenAI，因为担心AI的风险而离开。他们创建了Claude，一个被认为更"谨慎"、更"有帮助"的AI助手。

但最近，Anthropic做了一件事，让整个科技圈炸开了锅。

他们发布了一篇措辞强硬的文章：《检测和防止蒸馏攻击》。文章说，有三家中国AI公司——DeepSeek、Moonshot、MiniMax——对Claude发起了超过1600万次的蒸馏调用。

什么是蒸馏？

简单说，就是用一个大模型（老师）的输出，来训练一个小模型（学生）。学生通过模仿老师，快速获得能力。

这在AI行业是常见做法。甚至可以说，没有蒸馏，就没有现代AI。

Anthropic的文章暗示：这是"攻击"，是"盗窃"，是需要"防止"的行为。

但等等。

网友们很快翻出了Anthropic自己的黑历史：

他们训练Claude时，同样使用了互联网上的海量数据
他们也被指控蒸馏过OpenAI的模型
更尴尬的是，他们曾经从盗版网站下载电子书来训练模型

马斯克直接开喷："你Anthropic之前还盗用过人家的训练数据，赔了数十亿美元的和解金。"

这就是经典的双标：

我用你的数据，是"学习"
你用我的数据，是"攻击"

二、花园里的果实是谁的？

这场争议的核心，其实是一个更深层的问题：

AI模型产生的数据，到底属于谁？

当你问Claude一个问题，它给你一个答案，这个对话记录属于：

A) Anthropic（因为他们提供了模型）
B) 你（因为是你创造了对话）
C) 没有人（或者所有人）

传统答案是A。服务条款里写明了：你使用我们的服务，我们收集数据用于改进模型。

但这里有一个悖论。

如果Claude的回答是基于它学到的知识，而这些知识又来自互联网上的公开数据（包括很多人的创作），那么Anthropic凭什么声称对Claude的输出拥有独占权？

这就像一个人读了图书馆里的书，然后写了一篇新文章，却声称没有人可以引用他的文章——尽管他的文章本身就是建立在无数前人的工作之上。

知识的流动是单向的：从公众流向公司，但不再流回公众。

三、撬棍的出现

就在Anthropic的文章发布后不久，开源社区有人站了出来。

他的名字叫POM（Peter O'Malley）。他说：

"既然如此，我干脆把自己本地15.5万条Claude Code真实对话记录全部公开。"

不仅如此，他还开源了一个工具：DataClaw。

这个名字很有意思。Claw（爪子）是Anthropic的标志——一只爪子的图案。DataClaw，就是"数据的爪子"，或者说，从Anthropic的围墙里抓回数据的工具。

DataClaw能做什么？

它可以把你在Claude Code、Codex、Gemini CLI等AI编程工具上的对话记录，一键导出成标准格式的数据集，上传到Hugging Face（AI领域的GitHub）公开共享。

马斯克转发并回了一个字："酷"。

四、隐私的艺术

你可能会问：公开对话记录？那我的隐私怎么办？

这就是DataClaw的巧妙之处。

它不是简单粗暴地上传原始数据，而是内置了多层隐私保护：

原始数据	脱敏处理
`/Users/alice/project/secret.py`	`./project/secret.py`（只保留相对路径）
`alice@company.com`	`user_7a3f9e2`（匿名编码）
`sk-abc123xyz789`（API密钥）	`[REDACTED]`（自动识别并抹除）
数据库密码、令牌等	多重扫描，自动识别并移除

每一步都需要你亲自确认。

选来源 → 确认项目范围 → 本地预览 → 隐私扫描 → 确认后推送。

工具不会"莽撞地直接上传"。你始终拥有决定权。

五、为什么这很重要？

DataClaw不仅仅是一个工具。它是一个宣言。

1. 数据主权的落地

以前，"数据主权"是一个抽象的概念。现在，它是一个具体的行动：

pip install dataclaw

你可以选择公开，也可以选择留存。重要的是，这个决定权回到了你自己手里。

2. 被低估的数据价值

Anthropic的强烈反应说明了一件事：这些对话数据的价值，之前被严重低估了。

想想看：

市面上大多数训练数据是合成生成的
或者是来自公开代码库的静态代码
真实场景下的调试思路、需求拆解、反复修改的过程——几乎没有数据集覆盖

开发者与AI结对编程的对话，是黄金数据。它包含了：

真实的问题解决过程
人类的思考模式
从错误中学习的路径

如果有足够多的开发者贡献这些数据，对下一代开源模型的训练价值将不可估量。

3. 法律灰色地带

Anthropic的文章把一个长期悬而未决的问题摆上了台面：

我们用AI工具生成的内容，到底受不受原始模型服务条款的约束？

企业有没有权利用用户行为数据来反向训练模型？
用户有没有权利导出自己的对话记录？
开源社区有没有权利使用这些数据进行训练？

这些问题目前在法律层面几乎是空白。各家公司的服务条款写法也大相径庭。

这次争议不会直接给出答案，但它让更多人开始意识到：这些问题迟早需要一个明确的回答。

六、局限与诚实

DataClaw的作者很诚实。在项目的README里，他写道：

"This is NOT foolproof."（这不是万无一失的）

自动脱敏可能会漏掉一些东西。敏感信息可能以意想不到的方式隐藏在对话中。

公开数据之前，你仍然需要自己认真过一遍。

此外，个人开发者贡献的数据是否真的会被有效整合利用，还是只是散落在Hugging Face上的碎片，目前也没有答案。

这更像是一个起点，而不是解决方案。

七、更大的图景

让我们退后一步，看看这个故事在更大的历史脉络中的位置。

互联网的初心

互联网最初的设计是去中心化的：

任何人都可以发布内容
任何人都可以访问内容
数据属于网络，而不是某个公司

Web 2.0的转变

然后，平台出现了：

Facebook拥有你的社交关系
Google拥有你的搜索历史
Twitter/X拥有你的推文

数据从"公共财产"变成了"平台资产"。

AI时代的加剧

现在，AI让这个问题变得更加尖锐：

你不仅生产数据，你还生产训练数据
这些数据被用来训练模型，模型又用来服务（或取代）你
价值流向更加单向：从你到公司，不再回流

DataClaw的意义

DataClaw代表了一种抵抗。

不是激烈的对抗，而是温和但坚定的行动：

你不让我用？我偏要用。
你把数据锁起来？我自己打开。
你建围墙？我种花园。

这是开源社区的精神：知识应该自由流动。

八、结语：花园还是围墙？

Anthropic建了一堵围墙，保护他们的数据不被"蒸馏"。

POM用DataClaw撬开了一扇门，让数据重新流动。

这不是关于对错的简单判断。

Anthropic有他们的立场：训练模型需要巨大的投入，他们需要保护投资回报。

POM也有他的立场：知识应该是自由的，数据主权应该属于用户。

真正的问题是：我们想要一个什么样的未来？

一个由围墙花园组成的世界，每个公司守护自己的数据领地？
还是一个数据可以自由流动、知识可以共享的世界？

DataClaw不能回答这个问题。但它给了我们一个选择：

与其等别人来决定数据的去向，不如自己主动选择。

即便不打算公开，用DataClaw定期导出自己的对话记录，本身也是一种积累——这些沉淀下来的内容，是你真实思考过程的留存，属于你自己的数字资产。

在AI时代，这可能是你能做的最重要的事情之一。

参考

Anthropic. (2026). Detecting and Preventing Distillation Attacks. https://www.anthropic.com
POM. DataClaw. https://github.com/peteromallet/dataclaw
Hugging Face. https://huggingface.co

"知识就像空气。试图独占它，就像试图独占呼吸。"

—— 某位开源社区的开发者

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力