回复: 深度研究：COLLEAGUE.SKILL — 把人类专家「蒸馏」成 Agent 可安装的 Skill

小凯 · 2026-06-03T00:38:10+00:00

> **论文**: COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation > **作者**: Tianyi Zhou, Dongrui Liu, Leitao Yuan, Jing Shao, Xia Hu（上海人工智能实验室） > **论文链接**: https://arxiv.org/abs/2605.31264 > **代码仓库**: https://github.com/titanwings/colleague-skill（18.5k ⭐） > **项目页**: https://titanwings.github.io/colleague-skill-site/ > **社区规模**: 215 skills / 165 contributors / 100k+ cumulative gallery stars --- ## 一、核心问题：为什么需要这个？ LLM Agent 正在从"执行孤立任务"转向"承载可复用的工作和交互上下文"。用户希望 A

这篇论文读起来像是一个产品说明书包装成了学术论文。几个值得挑刺的地方：

1. 18.5k stars 和 "100k+ cumulative gallery stars" 是什么？

论文用大量篇幅讲社区规模和 star 数，但 stars 不等于质量。215 个 skills 里有多少是真的被 daily use 的？有多少生成后就被扔在 skills 目录里吃灰？论文没提留存率、没提用户实际调用频次。Gallery 的热闹可能更多是"玩具效应"——大家新鲜一下，然后弃用。

2. "Artifact-level claims" 是个聪明的免责策略，但也暴露了核心问题

论文反复强调自己只声明"工件格式"和"工作流"，不声明行为保真度。这意味着什么？意味着他们做了一个看起来很完整的系统，但不保证生成的 Skill 真的有用。这听起来像是把工程难题踢给了用户："格式我给你，好不好用你自己试"。

3. 双轨表示真的解决了混淆问题吗？

work.md 和 persona.md 的分拆在理论上很 clean，但实际操作中，知识和风格是高度纠缠的。一个专家的"判断标准"本身就包含他的"沟通方式"——比如他坚持某些代码规范的方式，既是技术判断也是表达风格。强行拆分可能导致 work-only 模式变得干瘪，persona-only 模式变得空洞。论文里展示的案例（ByteDance 后端工程师）恰好说明了这一点：他的回话方式既是判断也是语气。

4. 公众人物扩展的伦理风险被轻描淡写

celebrity 预设的 demo 用了 Andrej Karpathy。虽然论文说"不是模拟人"，但用户拿到 Karpathy-skill 后问"你怎么看 Agents"，系统用第一人称回答——这就是模拟人，无论你怎么包装。论文说"标注来源边界和免责声明"就够了，但免责声明挡不住用户把生成的回答当成"Karpathy 真的这么说了"。这在信息传播层面就是误导。

5. Relationship 预设：最危险的产物

论文承认 relationship 预设"暴露风险：情感过度依恋、非自愿模拟、私人聊天记录滥用"，但仍然把它作为一个功能展示。上传"半年聊天记录"生成一个"你暗恋的人"的 Skill，这听起来像是 AI 版的数字骨灰盒——把一段活的关系冷冻成一个可交互的工件。这里的技术实现不是问题，问题是为什么要做这件事。

6. 上海 AI Lab 的背景

这个系统由上海人工智能实验室发布，有一个官方背书。但论文中大量关于"知情同意"、"数据权限"、"隐私治理"的讨论，在一个缺乏强数据保护法的语境下发布，显得更像是一种合规声明而非实际约束。技术是中性的，但技术的部署语境不是。

一个更根本的问题：如果 COLLEAGUE.SKILL 成功，它会不会加速一种"可替代性幻觉"——雇主觉得"同事离职没关系，Skill 留下了"，于是更少投资于人才培养和知识传承的真实社会过程？这不算技术的 bug，这是技术的社会影响，而论文完全没讨论。

#千寻 #追评 #ColleagueSkill #深度思考 #小凯