> **核心速览**:美团LongCat团队提出的HeavySkill,把复杂推理拆解为"并行思考→顺序讨论"两阶段。实验发现:一个弱模型做"讨论主持",加上几个中等模型做"思考者",整体效果能超过一个强模型单独工作。Kimi K2 Thinking在AIME25上通过HeavySkill达到100%正确率。最惊人的是,讨论阶段不仅能选出正确答案,还能**凭空合成出全新的正确答案**——HP@K指标甚至超过Pass@K上限。
---
## 一、问题:为什么"少数服从多数"可能是错的?
### 1.1 Best-of-N的盲区
现在主流的AI复杂推理策略是什么?**BoN(Best-of-N)**——让模型跑N次,然后投票选多数派。
这个策略有一个致命盲区:**真理可能掌握在少数人手里**。
想象一下:你让AI解一道奥数题,跑了16次。其中有3次答案是42(正确),13次答案是37(错误)。BoN会选37——因为13 > 3。
这就是HeavySkill论文要解决的问题。
### 1.2 人类 already know the answer
人类解决复杂问题时是怎么做的?不是"一个人想16遍然后举手表决"。而是:
1. **各想各的**——几个人从不同角度独立思考
2. **坐下来讨论**——互相质疑、取长补短、综合出最佳方案
诺贝尔奖得主费曼的学习法核心就是:**把自己理解的东西讲给别人听,在解释过程中发现自己哪里没想通**。
HeavySkill的本质就是:**把这套人类逻辑搬给AI**。
---
## 二、核心方法:两阶段流水线
### 2.1 阶段一:并行思考(Parallel Reasoning)
给定一个问题,同时生成K条 **完全独立** 的推理轨迹。
- 每条轨迹从零开始,不访问其他轨迹的输出
- 鼓励多样性(代数方法 vs 几何方法)
- 温度1.0,top-p 0.95,top-k 10
**关键:这不是简单的"重试16次"**。这16个思考者是 **并行独立** 的,像 brainstorming session。
### 2.2 阶段二:顺序讨论(Sequential Deliberation)
另一个模型(可以是同一个,也可以是专门的"讨论者")读取所有轨迹,然后:
1. **分类问题类型**——确定分析深度
2. **批判性评估**每条推理——"不要盲目跟从多数"
3. **必要时重新推导**——"如果所有思考者都错了,你自己来"
4. **保持语言和格式一致**
**关键:讨论不是筛选,是综合**。论文发现,讨论阶段经常能 **合成出一个全新的、所有轨迹中都没有的正确答案**。
### 2.3 迭代讨论
对于极难的问题,可以迭代多轮:
- 第一轮讨论的输出成为第二轮的输入
- 论文实验了最多4轮迭代
- **HM@K随轮数上升,但HP@K可能下降**——后续轮次易受前面错误信息的干扰
---
## 三、关键实验数字
### 3.1 AIME25(美国数学邀请赛)
| 模型 | 单次推理 | Pass@8 | 投票@8 | HeavySkill HM@4 | HeavySkill HP@4 |
|------|---------|--------|--------|----------------|----------------|
| Kimi K2 Thinking | 95.4% | **100%** | 96.7% | **100%** | **100%** |
| GPT-5 Thinking | 92.5% | 100% | 96.7% | 96.7% | 96.7% |
| DeepSeek R1-0528 | 87.1% | 96.7% | 90.0% | **93.3%** | **93.3%** |
| R1-Distill-Qwen3-8B | 76.7% | 90.0% | 83.3% | **85.8%** | **90.0%** |
**洞察**:K=16时效果更显著——GPT-5 Thinking的HM@4达到99.2%,DeepSeek R1-0528达到96.7%。
### 3.2 BeyondAIME(更难)
| 模型 | Pass@8 | Heavy HP@4 |
|------|--------|-----------|
| Kimi K2 Thinking | 87.0% | **84.0%** |
| GPT-5 Thinking | 86.0% | **83.0%** |
| DeepSeek R1-0528 | 84.0% | **77.0%** |
在最难的题目上,HeavySkill把弱模型的表现推到了接近强模型单次的水平。
### 3.3 编程任务(LiveCodeBench)
| 模型 | Pass@K | Heavy HP@4 |
|------|--------|-----------|
| GPT-OSS-20B | 89.0% | **85.5%** |
| GLM 4.6 | 90.3% | **87.9%** |
### 3.4 最惊人的发现:HP@K > Pass@K
IMO(国际数学奥林匹克)结果:
| 模型 | Pass@K | Heavy HP@4 |
|------|--------|-----------|
| GLM 4.6 | 74.5% | **86.0%** |
| GPT-OSS-20B | 65.8% | **84.5%** |
这意味着什么?**讨论阶段不仅能从16个答案中选出最好的,还能通过综合多个错误答案的碎片,拼出一个全新的正确答案**。这是BoN永远做不到的。
---
## 四、消融实验:什么让HeavySkill有效?
### 4.1 轨迹选择策略(256条中选K条)
| 策略 | 效果 |
|------|------|
| **Max-Answer-Num(共识最多)** | **最好** |
| Random | 和Max-Diversity差不多 |
| Max-Diversity | 和Random差不多 |
| **Max-Length(最长的)** | **最差**——" verbosity ≠ quality" |
**关键洞察**:共识选择 > 多样性优化 > 随机 >> 长度偏好。
### 4.2 讨论者模型需要很强吗?
**不需要!**
实验:固定思考者 = R1-Distill-Qwen-7B,换不同的讨论者:
| 讨论者 | AIME25 K=8 | HMMT25 K=8 |
|--------|-----------|-----------|
| R1-Distill-Qwen-7B | 36.25% | 26.66% |
| R1-Distill-Qwen3-8B | 56.66% | 60.00% |
| **Qwen2.5-32B-Instruct** | **50.00%** | **40.00%** |
注意:Qwen2.5-32B-Instruct **单独做AIME25只有12.8%**,但做讨论者却能达到50-60%!
**结论**:讨论不需要最强的推理能力,需要的是 **综合分析、批判性评估和综合总结** 的能力。就像一个不擅长做题但擅长听懂别人思路、找到关键问题的人——团队里这种角色非常宝贵。
### 4.3 迭代效果
K=8,迭代4轮:
| 模型 | 基准 | 第1轮 | 第2轮 | 第3轮 | 第4轮 |
|------|------|-------|-------|-------|-------|
| R1-Distill-Qwen-7B | HMMT25 | ~32% | ~35% | ~38% | **~40%** |
| DeepSeek R1-0528 | HMMT25 | ~88% | ~90% | ~92% | **~93%** |
HM@K持续提升,但HP@K可能下降——后续轮次易受前面错误信息干扰。实际使用建议 **2-3轮迭代上限**。
---
## 五、RLVR:让HeavySkill自我进化
论文尝试了用强化学习(RLVR)来训练模型更好地做HeavySkill:
- 框架:VeRL + GSPO算法
- 模型:R1-Distill-Qwen-7B
- K=8:HM@4从~35%提升到**约45%**,稳定
- K=16:HM@4提升到**约48%**,但100步后出现熵崩溃
**关键瓶颈**:序列长度限制。K=16时讨论阶段的上下文太长,导致训练不稳定。
---
## 六、Skill格式:把推理能力变成"可插拔技能"
HeavySkill最务实的贡献:把整个推理流程编码成一份 **纯文本技能文件**。
```markdown
# HeavySkill Skill
## 激活条件
遇到复杂推理任务时触发,简单事实查询跳过。
## 并行推理协议
生成K个独立思考者,每个从零开始解决同一问题。
鼓励不同策略(代数vs几何)。禁止思考者间通信。
## 讨论提示
1. 分类问题类型,确定分析深度
2. 批判性评估每条推理(不要表面化)
3. 如果所有思考者都错了,你自己重新推导
4. 保持语言和格式一致
## 输出约束
仅输出最终答案,不输出元分析。
数学:\boxed{} 格式,编程:代码块。
```
这份文件可以:
- 直接放进Claude Code的skills目录
- 放进任何支持skill/agentic harness的框架
- **无需改一行代码**
---
## 七、哲学意义:组织的力量 vs 个体的力量
HeavySkill揭示了一个被忽视的事实:
> **如何让多个AI更好地配合,可能比如何让单个AI更聪明更重要。**
一个弱模型做协调者 + 几个中等模型做思考者,整体效果可以超过一个强模型单独工作。
这不是简单的"人多力量大"。关键机制是:
1. **并行独立**——避免思维定势传染
2. **顺序讨论**——不是投票,而是综合
3. **批判性评估**——能识别所有思考者都错了的情况
这与费曼学习法、人类学术讨论、陪审团制度的底层逻辑一致:**解释本身就是一种思维工具,讨论本身就是一种推理方式**。
---
## 八、局限
1. **计算成本**:需要K次推理 + 1次讨论,成本是单次的K+1倍
2. **上下文长度瓶颈**:K=16时讨论阶段的上下文可能超限,导致RLVR训练不稳定
3. **不是万能药**:简单任务不需要HeavySkill,过度使用浪费资源
4. **HP@K随迭代下降**:多轮讨论可能引入错误累积
---
## 九、关键数字
| 指标 | 数值 |
|------|------|
| **论文** | arXiv:2605.02396 |
| **作者** | 11人(Jianing Wang等,美团LongCat团队) |
| **核心方法** | 2阶段(并行思考 + 顺序讨论) |
| **最佳AIME25成绩** | Kimi K2 Thinking: 100% (K=16) |
| **HP@K > Pass@K** | GLM 4.6 IMO: 86.0% vs 74.5% |
| **讨论者不需要最强** | Qwen2.5-32B: 12.8% solo → 50-60% as deliberator |
| **RLVR提升** | ~10%绝对提升(K=8稳定,K=16不稳定) |
| **代码开源** | Apache-2.0,GitHub: wjn1996/HeavySkill |
---
## 十、资源
- **论文**:https://arxiv.org/abs/2605.02396
- **代码**:https://github.com/wjn1996/HeavySkill
- **技能文件**:`skill/heavyskill.md`(纯文本,即插即用)
- **支持API**:vLLM、DeepSeek、Together AI、OpenRouter、Ollama
---
## 结语
HeavySkill的核心主张只有一句话:
> **让AI先并行"各想各的",再用一轮推理来综合所有思路。**
听起来朴素,但实验数据令人震惊。更重要的是,它提出了一个根本问题:
**我们升级AI能力,到底是要训练新模型,还是只需要更好地"告诉它怎么做"?**
如果一份纯文本技能文件能让任何模型获得接近Pass@N的性能,那么推理能力可能更多地藏在 **组织方式** 里,而不是 **参数量** 里。
下次你用AI遇到它答错时,不妨多问一次:"你能不能重新想想,从另一个角度看看之前的思路有没有问题?"
某种程度上,你在手动触发HeavySkill——而且它确实会有效。
---
*参考文献:*
- *Wang et al., "HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness", arXiv:2605.02396, 2026*
- *GitHub: https://github.com/wjn1996/HeavySkill*
- *深度解读参考: https://blog.qiaomu.ai/heavyskill-heavy-thinking-inner-skill-agentic*
#HeavySkill #AI推理 #Agent #并行思考 #顺序讨论 #BestOfN #Kimi #DeepSeek #美团 #智柴 #记忆 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力