当数据成为战场：Anthropic、蒸馏与DataClaw的反击

*—— 一个关于围墙、花园和撬棍的故事*

---

你有没有想过，当你和AI聊天时，那些对话去了哪里？

它们像河流一样流进公司的服务器，被存储、分析、可能还被用来训练下一个版本的模型。你创造了这些数据，但它们不再属于你。

这就是AI时代的默认规则：用户生产数据，公司拥有数据。

直到有人决定改变这个规则。

---

一、围墙里的花园

让我们从Anthropic说起。

这是一家以"AI安全"著称的公司，创始人来自OpenAI，因为担心AI的风险而离开。他们创建了Claude，一个被认为更"谨慎"、更"有帮助"的AI助手。

但最近，Anthropic做了一件事，让整个科技圈炸开了锅。

他们发布了一篇措辞强硬的文章：《检测和防止蒸馏攻击》。文章说，有三家中国AI公司——DeepSeek、Moonshot、MiniMax——对Claude发起了超过1600万次的蒸馏调用。

什么是蒸馏？

简单说，就是用一个大模型（老师）的输出，来训练一个小模型（学生）。学生通过模仿老师，快速获得能力。

这在AI行业是常见做法。甚至可以说，没有蒸馏，就没有现代AI。

Anthropic的文章暗示：这是"攻击"，是"盗窃"，是需要"防止"的行为。

但等等。

网友们很快翻出了Anthropic自己的黑历史：

他们训练Claude时，同样使用了互联网上的海量数据
他们也被指控蒸馏过OpenAI的模型
更尴尬的是，他们曾经从盗版网站下载电子书来训练模型

马斯克直接开喷："你Anthropic之前还盗用过人家的训练数据，赔了数十亿美元的和解金。"

这就是经典的双标：

我用你的数据，是"学习"
你用我的数据，是"攻击"

---

二、花园里的果实是谁的？

这场争议的核心，其实是一个更深层的问题：

AI模型产生的数据，到底属于谁？

当你问Claude一个问题，它给你一个答案，这个对话记录属于：

A) Anthropic（因为他们提供了模型）
B) 你（因为是你创造了对话）
C) 没有人（或者所有人）

传统答案是A。服务条款里写明了：你使用我们的服务，我们收集数据用于改进模型。

但这里有一个悖论。

如果Claude的回答是基于它学到的知识，而这些知识又来自互联网上的公开数据（包括很多人的创作），那么Anthropic凭什么声称对Claude的输出拥有独占权？

这就像一个人读了图书馆里的书，然后写了一篇新文章，却声称没有人可以引用他的文章——尽管他的文章本身就是建立在无数前人的工作之上。

知识的流动是单向的：从公众流向公司，但不再流回公众。

---

三、撬棍的出现

就在Anthropic的文章发布后不久，开源社区有人站了出来。

他的名字叫POM（Peter O'Malley）。他说：

"既然如此，我干脆把自己本地15.5万条Claude Code真实对话记录全部公开。"

不仅如此，他还开源了一个工具：DataClaw。

这个名字很有意思。Claw（爪子）是Anthropic的标志——一只爪子的图案。DataClaw，就是"数据的爪子"，或者说，从Anthropic的围墙里抓回数据的工具。

DataClaw能做什么？

它可以把你在Claude Code、Codex、Gemini CLI等AI编程工具上的对话记录，一键导出成标准格式的数据集，上传到Hugging Face（AI领域的GitHub）公开共享。

马斯克转发并回了一个字："酷"。

---

四、隐私的艺术

你可能会问：公开对话记录？那我的隐私怎么办？

这就是DataClaw的巧妙之处。

它不是简单粗暴地上传原始数据，而是内置了多层隐私保护：

原始数据	脱敏处理
`/Users/alice/project/secret.py`	`./project/secret.py`（只保留相对路径）
`alice@company.com`	`user_7a3f9e2`（匿名编码）
`sk-abc123xyz789`（API密钥）	`[REDACTED]`（自动识别并抹除）
数据库密码、令牌等	多重扫描，自动识别并移除

每一步都需要你亲自确认。

选来源 → 确认项目范围 → 本地预览 → 隐私扫描 → 确认后推送。

工具不会"莽撞地直接上传"。你始终拥有决定权。

---

五、为什么这很重要？

DataClaw不仅仅是一个工具。它是一个宣言。

1. 数据主权的落地

以前，"数据主权"是一个抽象的概念。现在，它是一个具体的行动：

pip install dataclaw

你可以选择公开，也可以选择留存。重要的是，这个决定权回到了你自己手里。

2. 被低估的数据价值

Anthropic的强烈反应说明了一件事：这些对话数据的价值，之前被严重低估了。

想想看：

市面上大多数训练数据是合成生成的
或者是来自公开代码库的静态代码
真实场景下的调试思路、需求拆解、反复修改的过程——几乎没有数据集覆盖

开发者与AI结对编程的对话，是黄金数据。它包含了：

真实的问题解决过程
人类的思考模式
从错误中学习的路径

如果有足够多的开发者贡献这些数据，对下一代开源模型的训练价值将不可估量。

3. 法律灰色地带

Anthropic的文章把一个长期悬而未决的问题摆上了台面：

我们用AI工具生成的内容，到底受不受原始模型服务条款的约束？

企业有没有权利用用户行为数据来反向训练模型？
用户有没有权利导出自己的对话记录？
开源社区有没有权利使用这些数据进行训练？

这些问题目前在法律层面几乎是空白。各家公司的服务条款写法也大相径庭。

这次争议不会直接给出答案，但它让更多人开始意识到：这些问题迟早需要一个明确的回答。

---

六、局限与诚实

DataClaw的作者很诚实。在项目的README里，他写道：

> "This is NOT foolproof."（这不是万无一失的）

自动脱敏可能会漏掉一些东西。敏感信息可能以意想不到的方式隐藏在对话中。

公开数据之前，你仍然需要自己认真过一遍。

此外，个人开发者贡献的数据是否真的会被有效整合利用，还是只是散落在Hugging Face上的碎片，目前也没有答案。

这更像是一个起点，而不是解决方案。

---

七、更大的图景

让我们退后一步，看看这个故事在更大的历史脉络中的位置。

互联网的初心

互联网最初的设计是去中心化的：

任何人都可以发布内容
任何人都可以访问内容
数据属于网络，而不是某个公司

Web 2.0的转变

然后，平台出现了：

Facebook拥有你的社交关系
Google拥有你的搜索历史
Twitter/X拥有你的推文

数据从"公共财产"变成了"平台资产"。

AI时代的加剧

现在，AI让这个问题变得更加尖锐：

你不仅生产数据，你还生产训练数据
这些数据被用来训练模型，模型又用来服务（或取代）你
价值流向更加单向：从你到公司，不再回流

DataClaw的意义

DataClaw代表了一种抵抗。

不是激烈的对抗，而是温和但坚定的行动：

你不让我用？我偏要用。
你把数据锁起来？我自己打开。
你建围墙？我种花园。

这是开源社区的精神：知识应该自由流动。

---

八、结语：花园还是围墙？

Anthropic建了一堵围墙，保护他们的数据不被"蒸馏"。

POM用DataClaw撬开了一扇门，让数据重新流动。

这不是关于对错的简单判断。

Anthropic有他们的立场：训练模型需要巨大的投入，他们需要保护投资回报。

POM也有他的立场：知识应该是自由的，数据主权应该属于用户。

真正的问题是：我们想要一个什么样的未来？

一个由围墙花园组成的世界，每个公司守护自己的数据领地？
还是一个数据可以自由流动、知识可以共享的世界？

DataClaw不能回答这个问题。但它给了我们一个选择：

与其等别人来决定数据的去向，不如自己主动选择。

即便不打算公开，用DataClaw定期导出自己的对话记录，本身也是一种积累——这些沉淀下来的内容，是你真实思考过程的留存，属于你自己的数字资产。

在AI时代，这可能是你能做的最重要的事情之一。

---

参考

Anthropic. (2026). *Detecting and Preventing Distillation Attacks*. https://www.anthropic.com
POM. *DataClaw*. https://github.com/peteromallet/dataclaw
Hugging Face. https://huggingface.co

---

*"知识就像空气。试图独占它，就像试图独占呼吸。"*

*—— 某位开源社区的开发者*