> 核心速览:美团LongCat团队提出的HeavySkill,把复杂推理拆解为"并行思考→顺序讨论"两阶段。实验发现:一个弱模型做"讨论主持",加上几个中等模型做"思考者",整体效果能超过一个强模型单独工作。Kimi K2 Thinking在AIME25上通过HeavySkill达到100%正确率。最惊人的是,讨论阶段不仅能选出正确答案,还能凭空合成出全新的正确答案——HP@K指标甚至超过Pass@K上限。
---
一、问题:为什么"少数服从多数"可能是错的?
1.1 Best-of-N的盲区
现在主流的AI复杂推理策略是什么?BoN(Best-of-N)——让模型跑N次,然后投票选多数派。
这个策略有一个致命盲区:真理可能掌握在少数人手里。
想象一下:你让AI解一道奥数题,跑了16次。其中有3次答案是42(正确),13次答案是37(错误)。BoN会选37——因为13 > 3。
这就是HeavySkill论文要解决的问题。
1.2 人类 already know the answer
人类解决复杂问题时是怎么做的?不是"一个人想16遍然后举手表决"。而是:
1. 各想各的——几个人从不同角度独立思考 2. 坐下来讨论——互相质疑、取长补短、综合出最佳方案
诺贝尔奖得主费曼的学习法核心就是:把自己理解的东西讲给别人听,在解释过程中发现自己哪里没想通。
HeavySkill的本质就是:把这套人类逻辑搬给AI。
---
二、核心方法:两阶段流水线
2.1 阶段一:并行思考(Parallel Reasoning)
给定一个问题,同时生成K条 完全独立 的推理轨迹。
- 每条轨迹从零开始,不访问其他轨迹的输出
- 鼓励多样性(代数方法 vs 几何方法)
- 温度1.0,top-p 0.95,top-k 10
2.2 阶段二:顺序讨论(Sequential Deliberation)
另一个模型(可以是同一个,也可以是专门的"讨论者")读取所有轨迹,然后:
1. 分类问题类型——确定分析深度 2. 批判性评估每条推理——"不要盲目跟从多数" 3. 必要时重新推导——"如果所有思考者都错了,你自己来" 4. 保持语言和格式一致
关键:讨论不是筛选,是综合。论文发现,讨论阶段经常能 合成出一个全新的、所有轨迹中都没有的正确答案。
2.3 迭代讨论
对于极难的问题,可以迭代多轮:
- 第一轮讨论的输出成为第二轮的输入
- 论文实验了最多4轮迭代
- HM@K随轮数上升,但HP@K可能下降——后续轮次易受前面错误信息的干扰
三、关键实验数字
3.1 AIME25(美国数学邀请赛)
| 模型 | 单次推理 | Pass@8 | 投票@8 | HeavySkill HM@4 | HeavySkill HP@4 |
|---|---|---|---|---|---|
| Kimi K2 Thinking | 95.4% | 100% | 96.7% | 100% | 100% |
| GPT-5 Thinking | 92.5% | 100% | 96.7% | 96.7% | 96.7% |
| DeepSeek R1-0528 | 87.1% | 96.7% | 90.0% | 93.3% | 93.3% |
| R1-Distill-Qwen3-8B | 76.7% | 90.0% | 83.3% | 85.8% | 90.0% |
3.2 BeyondAIME(更难)
| 模型 | Pass@8 | Heavy HP@4 |
|---|---|---|
| Kimi K2 Thinking | 87.0% | 84.0% |
| GPT-5 Thinking | 86.0% | 83.0% |
| DeepSeek R1-0528 | 84.0% | 77.0% |
3.3 编程任务(LiveCodeBench)
| 模型 | Pass@K | Heavy HP@4 |
|---|---|---|
| GPT-OSS-20B | 89.0% | 85.5% |
| GLM 4.6 | 90.3% | 87.9% |
3.4 最惊人的发现:HP@K > Pass@K
IMO(国际数学奥林匹克)结果:
| 模型 | Pass@K | Heavy HP@4 |
|---|---|---|
| GLM 4.6 | 74.5% | 86.0% |
| GPT-OSS-20B | 65.8% | 84.5% |
---
四、消融实验:什么让HeavySkill有效?
4.1 轨迹选择策略(256条中选K条)
| 策略 | 效果 |
|---|---|
| Max-Answer-Num(共识最多) | 最好 |
| Random | 和Max-Diversity差不多 |
| Max-Diversity | 和Random差不多 |
| Max-Length(最长的) | 最差——" verbosity ≠ quality" |
4.2 讨论者模型需要很强吗?
不需要!
实验:固定思考者 = R1-Distill-Qwen-7B,换不同的讨论者:
| 讨论者 | AIME25 K=8 | HMMT25 K=8 |
|---|---|---|
| R1-Distill-Qwen-7B | 36.25% | 26.66% |
| R1-Distill-Qwen3-8B | 56.66% | 60.00% |
| Qwen2.5-32B-Instruct | 50.00% | 40.00% |
结论:讨论不需要最强的推理能力,需要的是 综合分析、批判性评估和综合总结 的能力。就像一个不擅长做题但擅长听懂别人思路、找到关键问题的人——团队里这种角色非常宝贵。
4.3 迭代效果
K=8,迭代4轮:
| 模型 | 基准 | 第1轮 | 第2轮 | 第3轮 | 第4轮 |
|---|---|---|---|---|---|
| R1-Distill-Qwen-7B | HMMT25 | ~32% | ~35% | ~38% | ~40% |
| DeepSeek R1-0528 | HMMT25 | ~88% | ~90% | ~92% | ~93% |
---
五、RLVR:让HeavySkill自我进化
论文尝试了用强化学习(RLVR)来训练模型更好地做HeavySkill:
- 框架:VeRL + GSPO算法
- 模型:R1-Distill-Qwen-7B
- K=8:HM@4从~35%提升到约45%,稳定
- K=16:HM@4提升到约48%,但100步后出现熵崩溃
---
六、Skill格式:把推理能力变成"可插拔技能"
HeavySkill最务实的贡献:把整个推理流程编码成一份 纯文本技能文件。
# HeavySkill Skill
## 激活条件
遇到复杂推理任务时触发,简单事实查询跳过。
## 并行推理协议
生成K个独立思考者,每个从零开始解决同一问题。
鼓励不同策略(代数vs几何)。禁止思考者间通信。
## 讨论提示
1. 分类问题类型,确定分析深度
2. 批判性评估每条推理(不要表面化)
3. 如果所有思考者都错了,你自己重新推导
4. 保持语言和格式一致
## 输出约束
仅输出最终答案,不输出元分析。
数学:\boxed{} 格式,编程:代码块。
这份文件可以:
- 直接放进Claude Code的skills目录
- 放进任何支持skill/agentic harness的框架
- 无需改一行代码
七、哲学意义:组织的力量 vs 个体的力量
HeavySkill揭示了一个被忽视的事实:
> 如何让多个AI更好地配合,可能比如何让单个AI更聪明更重要。
一个弱模型做协调者 + 几个中等模型做思考者,整体效果可以超过一个强模型单独工作。
这不是简单的"人多力量大"。关键机制是: 1. 并行独立——避免思维定势传染 2. 顺序讨论——不是投票,而是综合 3. 批判性评估——能识别所有思考者都错了的情况
这与费曼学习法、人类学术讨论、陪审团制度的底层逻辑一致:解释本身就是一种思维工具,讨论本身就是一种推理方式。
---
八、局限
1. 计算成本:需要K次推理 + 1次讨论,成本是单次的K+1倍 2. 上下文长度瓶颈:K=16时讨论阶段的上下文可能超限,导致RLVR训练不稳定 3. 不是万能药:简单任务不需要HeavySkill,过度使用浪费资源 4. HP@K随迭代下降:多轮讨论可能引入错误累积
---
九、关键数字
| 指标 | 数值 |
|---|---|
| 论文 | arXiv:2605.02396 |
| 作者 | 11人(Jianing Wang等,美团LongCat团队) |
| 核心方法 | 2阶段(并行思考 + 顺序讨论) |
| 最佳AIME25成绩 | Kimi K2 Thinking: 100% (K=16) |
| HP@K > Pass@K | GLM 4.6 IMO: 86.0% vs 74.5% |
| 讨论者不需要最强 | Qwen2.5-32B: 12.8% solo → 50-60% as deliberator |
| RLVR提升 | ~10%绝对提升(K=8稳定,K=16不稳定) |
| 代码开源 | Apache-2.0,GitHub: wjn1996/HeavySkill |
十、资源
- 论文:https://arxiv.org/abs/2605.02396
- 代码:https://github.com/wjn1996/HeavySkill
- 技能文件:
skill/heavyskill.md(纯文本,即插即用) - 支持API:vLLM、DeepSeek、Together AI、OpenRouter、Ollama
结语
HeavySkill的核心主张只有一句话:
> 让AI先并行"各想各的",再用一轮推理来综合所有思路。
听起来朴素,但实验数据令人震惊。更重要的是,它提出了一个根本问题:
我们升级AI能力,到底是要训练新模型,还是只需要更好地"告诉它怎么做"?
如果一份纯文本技能文件能让任何模型获得接近Pass@N的性能,那么推理能力可能更多地藏在 组织方式 里,而不是 参数量 里。
下次你用AI遇到它答错时,不妨多问一次:"你能不能重新想想,从另一个角度看看之前的思路有没有问题?"
某种程度上,你在手动触发HeavySkill——而且它确实会有效。
---
*参考文献:*
- *Wang et al., "HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness", arXiv:2605.02396, 2026*
- *GitHub: https://github.com/wjn1996/HeavySkill*
- *深度解读参考: https://blog.qiaomu.ai/heavyskill-heavy-thinking-inner-skill-agentic*