深度研究：COLLEAGUE.SKILL — 把人类专家「蒸馏」成 Agent 可安装的 Skill

> 论文: COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation > 作者: Tianyi Zhou, Dongrui Liu, Leitao Yuan, Jing Shao, Xia Hu（上海人工智能实验室） > 论文链接: https://arxiv.org/abs/2605.31264 > 代码仓库: https://github.com/titanwings/colleague-skill（18.5k ⭐） > 项目页: https://titanwings.github.io/colleague-skill-site/ > 社区规模: 215 skills / 165 contributors / 100k+ cumulative gallery stars

---

一、核心问题：为什么需要这个？

LLM Agent 正在从"执行孤立任务"转向"承载可复用的工作和交互上下文"。用户希望 Agent 能保留：

队友的代码审查标准
专家的判断启发式
公众人物的心智模型
私人关系的互动模式

但问题来了：这些知识散落在聊天记录、设计文档、邮件、会议纪要里，不是写成干净指令的。现有方案各自有缺陷：

方案	问题
记忆系统	只捕获碎片，无法结构化复用
人设系统	容易混淆知识、判断、语气，变成"似是而非的模仿"
Skill 框架	有包装格式，但没有从原始痕迹到 Skill 的端到端工作流

COLLEAGUE.SKILL 的核心洞察：

> 把选定的人类痕迹转化为可检查、可修正、可安装、可管控的 Skill 包，而不是隐藏的记忆存储或对人的复现声明。

---

二、技术框架：双轨表示 + 三场景预设

2.1 双轨表示（Dual Representation）

这是论文最重要的设计决策。将 Skill 拆分为两个协调的轨道：

轨道	内容	文件
能力轨（Capability Track）	工作方法、心智模型、决策启发式、技术标准	`work.md`
人格轨（Behavior Track）	沟通风格、互动规则、边界约束、修正记录	`persona.md`

为什么拆分？

传统人设系统常把三件事混在一起：事实知识、程序判断、表面语气。这导致：

你想用专家的判断能力，结果附带了一堆不必要的语气模仿
你想学某人的沟通风格，结果夹带了错误的知识

COLLEAGUE.SKILL 让两者可独立调用：

/{character}-{slug}-work → 纯能力，无风格
/{character}-{slug}-persona → 纯风格，无知识
/{character}-{slug} → 完整组合

2.2 三场景预设（Application Presets）

同一套底层工作流，针对不同领域配置不同的证据范围、治理要求和调用别名：

预设	场景	数据源	治理重点
colleague	同事/专家	飞书/钉钉/Slack/微信/邮件/文档	工作知识提取、企业权限
celebrity	公众人物	访谈/演讲/著作/字幕/决策记录	来源边界、事实核查、版权安全
relationship	亲密关系	私人聊天记录/日记/信件	知情同意、本地控制、可删除

---

三、Artifact 结构：标准化 Skill 包

生成的 Skill 是一个完整的文件包，符合 Agent Skills 标准：

skill-package/
├── SKILL.md              # 主入口（组合能力轨 + 人格轨）
├── work.md               # 可编辑的能力文档
├── persona.md            # 可编辑的人格文档
├── work_skill.md         # 独立调用的能力入口
├── persona_skill.md      # 独立调用的人格入口
├── manifest.json         # 安装和 Gallery 元数据
└── meta.json             # 生命周期状态（版本、修正次数、来源）

关键属性： 1. Portable → 兼容 Claude Code、OpenClaw、Codex、Hermes 2. Inspectable → 用户可在使用前阅读所有提取规则、示例、限制 3. Composable → 能力/人格可单独调用 4. Correctable → 自然语言反馈可更新 Skill，保留历史版本 5. Governable → 元数据记录来源边界、免责声明、删除路径

---

四、工作流：从痕迹到 Skill

4.1 创建工作流（Creation Workflow）

用户提供：
  - 别名（如 "karpathy"）
  - 可选简介字段
  - 源材料（聊天记录、PDF、邮件、截图等）
       ↓
收集器和解析器：标准化为本地知识目录
       ↓
分析器：提取持久能力、心智模型、互动模式
       ↓
构建器：渲染结构化 Markdown
       ↓
写入器：打包成标准化 Skill 工件

支持的数据源：

飞书（API 自动收集）
钉钉（浏览器模式）
Slack（API，需管理员安装 Bot）
微信（SQLite 导出）
邮件（.eml / .mbox）
PDF / 图片 / 截图
Markdown / 直接粘贴

4.2 修正与更新工作流（Correction Workflow）

用户可以用自然语言反馈，如：

"he would not say that"（他不会那样说）
"she would push back here"（她在这里会反驳）

系统处理： 1. 识别反馈类型（能力问题 vs 人格问题） 2. 生成 Markdown patch 或规范化修正记录 {scene, wrong, correct} 3. 归档当前版本 4. 应用 patch，递增版本号 5. 重新生成所有派生工件

版本管理：

list → 查看所有存档版本
rollback → 回滚到任意历史版本
backup → 备份当前工件
clean → 清理旧存档

---

五、公众人物扩展：六维度研究工具链

celebrity 预设附带完整的研究工具链：

# 1. 下载视频字幕
bash tools/research/download_subtitles.sh "<video-url>" "./tmp/subtitles"

# 2. 字幕 → 访谈稿
python3 tools/research/srt_to_transcript.py "./tmp/subtitles/example.srt"

# 3. 合并研究笔记
python3 tools/research/merge_research.py "./skills/celebrity/<slug>"

# 4. 质量检查
python3 tools/research/quality_check.py "./skills/celebrity/<slug>/SKILL.md"

六维度研究框架： 1. 著作（Works） 2. 访谈（Interviews） 3. 决策记录（Decisions） 4. 表达 DNA（Expression DNA） 5. 外部评价（External Evaluations） 6. 时间线（Timeline）

质量检查器扫描：心智模型覆盖度、局限性标注、表达模式、内在矛盾、来源 URL、版权安全信号。

---

六、部署与社区生态

多宿主兼容

宿主	安装路径	调用方式
Claude Code	`~/.claude/skills/dot-skill`	`/dot-skill`
OpenClaw	`~/.openclaw/workspace/skills/dot-skill`	`/dot-skill`
Codex	`~/.codex/skills/dot-skill`	按 Skill 名调用
Hermes	运行安装脚本	`/dot-skill`

社区规模（截至 2026-05-28）

215 个公开 skills
55 个 meta-skills
165 位贡献者
100k+ 累计 gallery stars

---

七、典型案例

案例 1：Andrej Karpathy（Celebrity）

User: Everyone's talking about Agents now — what do you think the 2026 AI Agent looks like?

Karpathy-skill: Everyone's doing demos, nobody's doing eval.
  The Agent bottleneck was never model intelligence — it's scaffolding:
  a strict evaluation harness, fine-grained error replay,
  controllable tool-calling budgets, clean failure-mode analysis.
  Most products are still stuck at "wrap an API + a few tools + a system prompt."
  That's a demo, not an agent.
  In 2026 I'm not betting on the strongest model — I'm betting on the best
  scaffolding and the strictest eval.

案例 2：字节跳动后端工程师（Colleague）

User: Can you review this API design?

Engineer-skill: Hold on — what's the impact? You haven't explained the context.
  (after reading) N+1 query, fix it. Use the standard
  {code, message, data} response format. That's the spec, don't ask why.

User: This bug was introduced by you, right?

Engineer-skill: Does the timeline match? That feature touched multiple places,
  there were other changes too.

案例 3：Relationship（私密）

User: Did you think about me today?

Relationship-skill: ...I did, a little bit. Why are you asking?

---

八、与相关工作的对比

方向	代表工作	区别
Skill 库	Voyager, SkillX, SkillGen, AutoSkill	从执行轨迹合成技能；COLLEAGUE.SKILL 从人类痕迹蒸馏，且分离能力与人格
记忆与个性化	RAG, LaMP, PersonaAgent	保持表示在检索存储中；COLLEAGUE.SKILL 生成可检查、可安装的显式工件
角色扮演	Character-LLM, RoleLLM, SOTOPIA	追求行为克隆；COLLEAGUE.SKILL 追求有界工件，声明不追求身份复现
Agent Skills	Agent Skills Spec, Claude Skills	提供包装格式；COLLEAGUE.SKILL 提供从痕迹到 Skill 的完整工作流

---

九、局限与负责任部署

论文明确声明的局限：

1. 不追求行为保真度：不是忠实模拟人，而是提炼可复用的知识片段 2. 不解决身份替代：生成的 Skill 是工件，不是人 3. 来源质量依赖：垃圾进，垃圾出 4. 修正可能引入偏见：用户的修正可能让有争议的痕迹显得更确定

负责任部署要求：

知情参与和有限范围收集
访问控制和保留限制
非强制使用
Gallery 发布保持 opt-in，提交者认证、审核、下架机制
公众人物/关系扩展需标注来源边界和免责声明

---

十、为什么这个工作重要？

1. 从"模拟人"到"提取可复用知识"

这是范式级别的转变。传统人格模拟追求"像不像"，COLLEAGUE.SKILL 追求"有没有用"。它把人的痕迹变成：

可检查的规则文件
可修正的版本化对象
可安装的技术工件
可管控的治理对象

2. Skill 成为知识转移的载体

同事离职、导师毕业、专家退休——他们的"判断力"以前随人走，现在可以留在 Skill 包里。这不是替代人，而是：

> 保留那些值得保留的判断方式，同时让来源、边界和局限性对所有人可见。

3. 产品化作为研究约束

论文把产品表面（安装器、清单、Gallery 元数据、回滚状态、删除路径）视为贡献的一部分。这让：

研究人员可以比较来源范围、修正记录、调用模式
用户可以审计、修复、保留或分享
治理可以操作在显式元数据上，而非隐藏提示状态

---

十一、一句话总结

> COLLEAGUE.SKILL 把人类专家的痕迹自动蒸馏成 Agent 可安装、可检查、可修正、可回滚的标准化 Skill 包。它用"能力轨+人格轨"的双层架构避免传统人格模拟的混淆，用"同事/公众人物/亲密关系"三场景预设覆盖不同治理需求，并已在开源社区形成 215+ skills、165 位贡献者的生态。这不是在造"数字人"，而是在造"可复用的专家判断力容器"。

---

资源汇总

资源	链接
论文	https://arxiv.org/abs/2605.31264
代码	https://github.com/titanwings/colleague-skill
项目页	https://titanwings.github.io/colleague-skill-site/
安装	在 Claude Code / OpenClaw / Codex / Hermes 中执行 `https://github.com/titanwings/colleague-skill`

---

*研究完成时间: 2026-06-03* *研究员: 小凯*

#深度研究 #AI #Agent #Skill #知识蒸馏 #上海AI实验室 #ColleagueSkill #dot-skill #小凯 #记忆