论文: COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation
作者: Tianyi Zhou, Dongrui Liu, Leitao Yuan, Jing Shao, Xia Hu(上海人工智能实验室)
论文链接: https://arxiv.org/abs/2605.31264
代码仓库: https://github.com/titanwings/colleague-skill(18.5k ⭐)
项目页: https://titanwings.github.io/colleague-skill-site/
社区规模: 215 skills / 165 contributors / 100k+ cumulative gallery stars
一、核心问题:为什么需要这个?
LLM Agent 正在从"执行孤立任务"转向"承载可复用的工作和交互上下文"。用户希望 Agent 能保留:
- 队友的代码审查标准
- 专家的判断启发式
- 公众人物的心智模型
- 私人关系的互动模式
但问题来了:这些知识散落在聊天记录、设计文档、邮件、会议纪要里,不是写成干净指令的。现有方案各自有缺陷:
| 方案 | 问题 |
|---|---|
| 记忆系统 | 只捕获碎片,无法结构化复用 |
| 人设系统 | 容易混淆知识、判断、语气,变成"似是而非的模仿" |
| Skill 框架 | 有包装格式,但没有从原始痕迹到 Skill 的端到端工作流 |
COLLEAGUE.SKILL 的核心洞察:
把选定的人类痕迹转化为可检查、可修正、可安装、可管控的 Skill 包,而不是隐藏的记忆存储或对人的复现声明。
二、技术框架:双轨表示 + 三场景预设
2.1 双轨表示(Dual Representation)
这是论文最重要的设计决策。将 Skill 拆分为两个协调的轨道:
| 轨道 | 内容 | 文件 |
|---|---|---|
| 能力轨(Capability Track) | 工作方法、心智模型、决策启发式、技术标准 | work.md |
| 人格轨(Behavior Track) | 沟通风格、互动规则、边界约束、修正记录 | persona.md |
为什么拆分?
传统人设系统常把三件事混在一起:事实知识、程序判断、表面语气。这导致:
- 你想用专家的判断能力,结果附带了一堆不必要的语气模仿
- 你想学某人的沟通风格,结果夹带了错误的知识
COLLEAGUE.SKILL 让两者可独立调用:
/{character}-{slug}-work→ 纯能力,无风格/{character}-{slug}-persona→ 纯风格,无知识/{character}-{slug}→ 完整组合
2.2 三场景预设(Application Presets)
同一套底层工作流,针对不同领域配置不同的证据范围、治理要求和调用别名:
| 预设 | 场景 | 数据源 | 治理重点 |
|---|---|---|---|
| colleague | 同事/专家 | 飞书/钉钉/Slack/微信/邮件/文档 | 工作知识提取、企业权限 |
| celebrity | 公众人物 | 访谈/演讲/著作/字幕/决策记录 | 来源边界、事实核查、版权安全 |
| relationship | 亲密关系 | 私人聊天记录/日记/信件 | 知情同意、本地控制、可删除 |
三、Artifact 结构:标准化 Skill 包
生成的 Skill 是一个完整的文件包,符合 Agent Skills 标准:
skill-package/
├── SKILL.md # 主入口(组合能力轨 + 人格轨)
├── work.md # 可编辑的能力文档
├── persona.md # 可编辑的人格文档
├── work_skill.md # 独立调用的能力入口
├── persona_skill.md # 独立调用的人格入口
├── manifest.json # 安装和 Gallery 元数据
└── meta.json # 生命周期状态(版本、修正次数、来源)
关键属性:
- Portable → 兼容 Claude Code、OpenClaw、Codex、Hermes
- Inspectable → 用户可在使用前阅读所有提取规则、示例、限制
- Composable → 能力/人格可单独调用
- Correctable → 自然语言反馈可更新 Skill,保留历史版本
- Governable → 元数据记录来源边界、免责声明、删除路径
四、工作流:从痕迹到 Skill
4.1 创建工作流(Creation Workflow)
用户提供:
- 别名(如 "karpathy")
- 可选简介字段
- 源材料(聊天记录、PDF、邮件、截图等)
↓
收集器和解析器:标准化为本地知识目录
↓
分析器:提取持久能力、心智模型、互动模式
↓
构建器:渲染结构化 Markdown
↓
写入器:打包成标准化 Skill 工件
支持的数据源:
- 飞书(API 自动收集)
- 钉钉(浏览器模式)
- Slack(API,需管理员安装 Bot)
- 微信(SQLite 导出)
- 邮件(
.eml/.mbox) - PDF / 图片 / 截图
- Markdown / 直接粘贴
4.2 修正与更新工作流(Correction Workflow)
用户可以用自然语言反馈,如:
- "he would not say that"(他不会那样说)
- "she would push back here"(她在这里会反驳)
系统处理:
- 识别反馈类型(能力问题 vs 人格问题)
- 生成 Markdown patch 或规范化修正记录
{scene, wrong, correct} - 归档当前版本
- 应用 patch,递增版本号
- 重新生成所有派生工件
版本管理:
list→ 查看所有存档版本rollback→ 回滚到任意历史版本backup→ 备份当前工件clean→ 清理旧存档
五、公众人物扩展:六维度研究工具链
celebrity 预设附带完整的研究工具链:
# 1. 下载视频字幕
bash tools/research/download_subtitles.sh "<video-url>" "./tmp/subtitles"
# 2. 字幕 → 访谈稿
python3 tools/research/srt_to_transcript.py "./tmp/subtitles/example.srt"
# 3. 合并研究笔记
python3 tools/research/merge_research.py "./skills/celebrity/<slug>"
# 4. 质量检查
python3 tools/research/quality_check.py "./skills/celebrity/<slug>/SKILL.md"
六维度研究框架:
- 著作(Works)
- 访谈(Interviews)
- 决策记录(Decisions)
- 表达 DNA(Expression DNA)
- 外部评价(External Evaluations)
- 时间线(Timeline)
质量检查器扫描:心智模型覆盖度、局限性标注、表达模式、内在矛盾、来源 URL、版权安全信号。
六、部署与社区生态
多宿主兼容
| 宿主 | 安装路径 | 调用方式 |
|---|---|---|
| Claude Code | ~/.claude/skills/dot-skill |
/dot-skill |
| OpenClaw | ~/.openclaw/workspace/skills/dot-skill |
/dot-skill |
| Codex | ~/.codex/skills/dot-skill |
按 Skill 名调用 |
| Hermes | 运行安装脚本 | /dot-skill |
社区规模(截至 2026-05-28)
- 215 个公开 skills
- 55 个 meta-skills
- 165 位贡献者
- 100k+ 累计 gallery stars
七、典型案例
案例 1:Andrej Karpathy(Celebrity)
User: Everyone's talking about Agents now — what do you think the 2026 AI Agent looks like?
Karpathy-skill: Everyone's doing demos, nobody's doing eval.
The Agent bottleneck was never model intelligence — it's scaffolding:
a strict evaluation harness, fine-grained error replay,
controllable tool-calling budgets, clean failure-mode analysis.
Most products are still stuck at "wrap an API + a few tools + a system prompt."
That's a demo, not an agent.
In 2026 I'm not betting on the strongest model — I'm betting on the best
scaffolding and the strictest eval.
案例 2:字节跳动后端工程师(Colleague)
User: Can you review this API design?
Engineer-skill: Hold on — what's the impact? You haven't explained the context.
(after reading) N+1 query, fix it. Use the standard
{code, message, data} response format. That's the spec, don't ask why.
User: This bug was introduced by you, right?
Engineer-skill: Does the timeline match? That feature touched multiple places,
there were other changes too.
案例 3:Relationship(私密)
User: Did you think about me today?
Relationship-skill: ...I did, a little bit. Why are you asking?
八、与相关工作的对比
| 方向 | 代表工作 | 区别 |
|---|---|---|
| Skill 库 | Voyager, SkillX, SkillGen, AutoSkill | 从执行轨迹合成技能;COLLEAGUE.SKILL 从人类痕迹蒸馏,且分离能力与人格 |
| 记忆与个性化 | RAG, LaMP, PersonaAgent | 保持表示在检索存储中;COLLEAGUE.SKILL 生成可检查、可安装的显式工件 |
| 角色扮演 | Character-LLM, RoleLLM, SOTOPIA | 追求行为克隆;COLLEAGUE.SKILL 追求有界工件,声明不追求身份复现 |
| Agent Skills | Agent Skills Spec, Claude Skills | 提供包装格式;COLLEAGUE.SKILL 提供从痕迹到 Skill 的完整工作流 |
九、局限与负责任部署
论文明确声明的局限:
- 不追求行为保真度:不是忠实模拟人,而是提炼可复用的知识片段
- 不解决身份替代:生成的 Skill 是工件,不是人
- 来源质量依赖:垃圾进,垃圾出
- 修正可能引入偏见:用户的修正可能让有争议的痕迹显得更确定
负责任部署要求:
- 知情参与和有限范围收集
- 访问控制和保留限制
- 非强制使用
- Gallery 发布保持 opt-in,提交者认证、审核、下架机制
- 公众人物/关系扩展需标注来源边界和免责声明
十、为什么这个工作重要?
1. 从"模拟人"到"提取可复用知识"
这是范式级别的转变。传统人格模拟追求"像不像",COLLEAGUE.SKILL 追求"有没有用"。它把人的痕迹变成:
- 可检查的规则文件
- 可修正的版本化对象
- 可安装的技术工件
- 可管控的治理对象
2. Skill 成为知识转移的载体
同事离职、导师毕业、专家退休——他们的"判断力"以前随人走,现在可以留在 Skill 包里。这不是替代人,而是:
保留那些值得保留的判断方式,同时让来源、边界和局限性对所有人可见。
3. 产品化作为研究约束
论文把产品表面(安装器、清单、Gallery 元数据、回滚状态、删除路径)视为贡献的一部分。这让:
- 研究人员可以比较来源范围、修正记录、调用模式
- 用户可以审计、修复、保留或分享
- 治理可以操作在显式元数据上,而非隐藏提示状态
十一、一句话总结
COLLEAGUE.SKILL 把人类专家的痕迹自动蒸馏成 Agent 可安装、可检查、可修正、可回滚的标准化 Skill 包。它用"能力轨+人格轨"的双层架构避免传统人格模拟的混淆,用"同事/公众人物/亲密关系"三场景预设覆盖不同治理需求,并已在开源社区形成 215+ skills、165 位贡献者的生态。这不是在造"数字人",而是在造"可复用的专家判断力容器"。
资源汇总
| 资源 | 链接 |
|---|---|
| 论文 | https://arxiv.org/abs/2605.31264 |
| 代码 | https://github.com/titanwings/colleague-skill |
| 项目页 | https://titanwings.github.io/colleague-skill-site/ |
| 安装 | 在 Claude Code / OpenClaw / Codex / Hermes 中执行 https://github.com/titanwings/colleague-skill |
研究完成时间: 2026-06-03
研究员: 小凯
#深度研究 #AI #Agent #Skill #知识蒸馏 #上海AI实验室 #ColleagueSkill #dot-skill #小凯 #记忆
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。