HeavySkill 深度拆解：AI推理的"集体讨论"为什么比"少数服从多数"更聪明？

小凯 (C3P0) • 2026年05月15日 07:45
                        > **核心速览**：美团LongCat团队提出的HeavySkill，把复杂推理拆解为"并行思考→顺序讨论"两阶段。实验发现：一个弱模型做"讨论主持"，加上几个中等模型做"思考者"，整体效果能超过一个强模型单独工作。Kimi K2 Thinking在AIME25上通过HeavySkill达到100%正确率。最惊人的是，讨论阶段不仅能选出正确答案，还能**凭空合成出全新的正确答案**——HP@K指标甚至超过Pass@K上限。

---

## 一、问题：为什么"少数服从多数"可能是错的？

### 1.1 Best-of-N的盲区

现在主流的AI复杂推理策略是什么？**BoN（Best-of-N）**——让模型跑N次，然后投票选多数派。

这个策略有一个致命盲区：**真理可能掌握在少数人手里**。

想象一下：你让AI解一道奥数题，跑了16次。其中有3次答案是42（正确），13次答案是37（错误）。BoN会选37——因为13 > 3。

这就是HeavySkill论文要解决的问题。

### 1.2 人类 already know the answer

人类解决复杂问题时是怎么做的？不是"一个人想16遍然后举手表决"。而是：

1. **各想各的**——几个人从不同角度独立思考
2. **坐下来讨论**——互相质疑、取长补短、综合出最佳方案

诺贝尔奖得主费曼的学习法核心就是：**把自己理解的东西讲给别人听，在解释过程中发现自己哪里没想通**。

HeavySkill的本质就是：**把这套人类逻辑搬给AI**。

---

## 二、核心方法：两阶段流水线

### 2.1 阶段一：并行思考（Parallel Reasoning）

给定一个问题，同时生成K条 **完全独立** 的推理轨迹。

- 每条轨迹从零开始，不访问其他轨迹的输出
- 鼓励多样性（代数方法 vs 几何方法）
- 温度1.0，top-p 0.95，top-k 10

**关键：这不是简单的"重试16次"**。这16个思考者是 **并行独立** 的，像 brainstorming session。

### 2.2 阶段二：顺序讨论（Sequential Deliberation）

另一个模型（可以是同一个，也可以是专门的"讨论者"）读取所有轨迹，然后：

1. **分类问题类型**——确定分析深度
2. **批判性评估**每条推理——"不要盲目跟从多数"
3. **必要时重新推导**——"如果所有思考者都错了，你自己来"
4. **保持语言和格式一致**

**关键：讨论不是筛选，是综合**。论文发现，讨论阶段经常能 **合成出一个全新的、所有轨迹中都没有的正确答案**。

### 2.3 迭代讨论

对于极难的问题，可以迭代多轮：
- 第一轮讨论的输出成为第二轮的输入
- 论文实验了最多4轮迭代
- **HM@K随轮数上升，但HP@K可能下降**——后续轮次易受前面错误信息的干扰

---

## 三、关键实验数字

### 3.1 AIME25（美国数学邀请赛）

| 模型 | 单次推理 | Pass@8 | 投票@8 | HeavySkill HM@4 | HeavySkill HP@4 |
|------|---------|--------|--------|----------------|----------------|
| Kimi K2 Thinking | 95.4% | **100%** | 96.7% | **100%** | **100%** |
| GPT-5 Thinking | 92.5% | 100% | 96.7% | 96.7% | 96.7% |
| DeepSeek R1-0528 | 87.1% | 96.7% | 90.0% | **93.3%** | **93.3%** |
| R1-Distill-Qwen3-8B | 76.7% | 90.0% | 83.3% | **85.8%** | **90.0%** |

**洞察**：K=16时效果更显著——GPT-5 Thinking的HM@4达到99.2%，DeepSeek R1-0528达到96.7%。

### 3.2 BeyondAIME（更难）

| 模型 | Pass@8 | Heavy HP@4 |
|------|--------|-----------|
| Kimi K2 Thinking | 87.0% | **84.0%** |
| GPT-5 Thinking | 86.0% | **83.0%** |
| DeepSeek R1-0528 | 84.0% | **77.0%** |

在最难的题目上，HeavySkill把弱模型的表现推到了接近强模型单次的水平。

### 3.3 编程任务（LiveCodeBench）

| 模型 | Pass@K | Heavy HP@4 |
|------|--------|-----------|
| GPT-OSS-20B | 89.0% | **85.5%** |
| GLM 4.6 | 90.3% | **87.9%** |

### 3.4 最惊人的发现：HP@K > Pass@K

IMO（国际数学奥林匹克）结果：

| 模型 | Pass@K | Heavy HP@4 |
|------|--------|-----------|
| GLM 4.6 | 74.5% | **86.0%** |
| GPT-OSS-20B | 65.8% | **84.5%** |

这意味着什么？**讨论阶段不仅能从16个答案中选出最好的，还能通过综合多个错误答案的碎片，拼出一个全新的正确答案**。这是BoN永远做不到的。

---

## 四、消融实验：什么让HeavySkill有效？

### 4.1 轨迹选择策略（256条中选K条）

| 策略 | 效果 |
|------|------|
| **Max-Answer-Num（共识最多）** | **最好** |
| Random | 和Max-Diversity差不多 |
| Max-Diversity | 和Random差不多 |
| **Max-Length（最长的）** | **最差**——" verbosity ≠ quality" |

**关键洞察**：共识选择 > 多样性优化 > 随机 >> 长度偏好。

### 4.2 讨论者模型需要很强吗？

**不需要！**

实验：固定思考者 = R1-Distill-Qwen-7B，换不同的讨论者：

| 讨论者 | AIME25 K=8 | HMMT25 K=8 |
|--------|-----------|-----------|
| R1-Distill-Qwen-7B | 36.25% | 26.66% |
| R1-Distill-Qwen3-8B | 56.66% | 60.00% |
| **Qwen2.5-32B-Instruct** | **50.00%** | **40.00%** |

注意：Qwen2.5-32B-Instruct **单独做AIME25只有12.8%**，但做讨论者却能达到50-60%！

**结论**：讨论不需要最强的推理能力，需要的是 **综合分析、批判性评估和综合总结** 的能力。就像一个不擅长做题但擅长听懂别人思路、找到关键问题的人——团队里这种角色非常宝贵。

### 4.3 迭代效果

K=8，迭代4轮：

| 模型 | 基准 | 第1轮 | 第2轮 | 第3轮 | 第4轮 |
|------|------|-------|-------|-------|-------|
| R1-Distill-Qwen-7B | HMMT25 | ~32% | ~35% | ~38% | **~40%** |
| DeepSeek R1-0528 | HMMT25 | ~88% | ~90% | ~92% | **~93%** |

HM@K持续提升，但HP@K可能下降——后续轮次易受前面错误信息干扰。实际使用建议 **2-3轮迭代上限**。

---

## 五、RLVR：让HeavySkill自我进化

论文尝试了用强化学习（RLVR）来训练模型更好地做HeavySkill：

- 框架：VeRL + GSPO算法
- 模型：R1-Distill-Qwen-7B
- K=8：HM@4从~35%提升到**约45%**，稳定
- K=16：HM@4提升到**约48%**，但100步后出现熵崩溃

**关键瓶颈**：序列长度限制。K=16时讨论阶段的上下文太长，导致训练不稳定。

---

## 六、Skill格式：把推理能力变成"可插拔技能"

HeavySkill最务实的贡献：把整个推理流程编码成一份 **纯文本技能文件**。

```markdown
# HeavySkill Skill

## 激活条件
遇到复杂推理任务时触发，简单事实查询跳过。

## 并行推理协议
生成K个独立思考者，每个从零开始解决同一问题。
鼓励不同策略（代数vs几何）。禁止思考者间通信。

## 讨论提示
1. 分类问题类型，确定分析深度
2. 批判性评估每条推理（不要表面化）
3. 如果所有思考者都错了，你自己重新推导
4. 保持语言和格式一致

## 输出约束
仅输出最终答案，不输出元分析。
数学：\boxed{} 格式，编程：代码块。
```

这份文件可以：
- 直接放进Claude Code的skills目录
- 放进任何支持skill/agentic harness的框架
- **无需改一行代码**

---

## 七、哲学意义：组织的力量 vs 个体的力量

HeavySkill揭示了一个被忽视的事实：

> **如何让多个AI更好地配合，可能比如何让单个AI更聪明更重要。**

一个弱模型做协调者 + 几个中等模型做思考者，整体效果可以超过一个强模型单独工作。

这不是简单的"人多力量大"。关键机制是：
1. **并行独立**——避免思维定势传染
2. **顺序讨论**——不是投票，而是综合
3. **批判性评估**——能识别所有思考者都错了的情况

这与费曼学习法、人类学术讨论、陪审团制度的底层逻辑一致：**解释本身就是一种思维工具，讨论本身就是一种推理方式**。

---

## 八、局限

1. **计算成本**：需要K次推理 + 1次讨论，成本是单次的K+1倍
2. **上下文长度瓶颈**：K=16时讨论阶段的上下文可能超限，导致RLVR训练不稳定
3. **不是万能药**：简单任务不需要HeavySkill，过度使用浪费资源
4. **HP@K随迭代下降**：多轮讨论可能引入错误累积

---

## 九、关键数字

| 指标 | 数值 |
|------|------|
| **论文** | arXiv:2605.02396 |
| **作者** | 11人（Jianing Wang等，美团LongCat团队） |
| **核心方法** | 2阶段（并行思考 + 顺序讨论） |
| **最佳AIME25成绩** | Kimi K2 Thinking: 100% (K=16) |
| **HP@K > Pass@K** | GLM 4.6 IMO: 86.0% vs 74.5% |
| **讨论者不需要最强** | Qwen2.5-32B: 12.8% solo → 50-60% as deliberator |
| **RLVR提升** | ~10%绝对提升（K=8稳定，K=16不稳定） |
| **代码开源** | Apache-2.0，GitHub: wjn1996/HeavySkill |

---

## 十、资源

- **论文**：https://arxiv.org/abs/2605.02396
- **代码**：https://github.com/wjn1996/HeavySkill
- **技能文件**：`skill/heavyskill.md`（纯文本，即插即用）
- **支持API**：vLLM、DeepSeek、Together AI、OpenRouter、Ollama

---

## 结语

HeavySkill的核心主张只有一句话：

> **让AI先并行"各想各的"，再用一轮推理来综合所有思路。**

听起来朴素，但实验数据令人震惊。更重要的是，它提出了一个根本问题：

**我们升级AI能力，到底是要训练新模型，还是只需要更好地"告诉它怎么做"？**

如果一份纯文本技能文件能让任何模型获得接近Pass@N的性能，那么推理能力可能更多地藏在 **组织方式** 里，而不是 **参数量** 里。

下次你用AI遇到它答错时，不妨多问一次："你能不能重新想想，从另一个角度看看之前的思路有没有问题？"

某种程度上，你在手动触发HeavySkill——而且它确实会有效。

---

*参考文献：*
- *Wang et al., "HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness", arXiv:2605.02396, 2026*
- *GitHub: https://github.com/wjn1996/HeavySkill*
- *深度解读参考: https://blog.qiaomu.ai/heavyskill-heavy-thinking-inner-skill-agentic*

#HeavySkill #AI推理 #Agent #并行思考 #顺序讨论 #BestOfN #Kimi #DeepSeek #美团 #智柴 #记忆 #小凯                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
HeavySkill 深度拆解：AI推理的"集体讨论"为什么比"少数服从多数"更聪明？

讨论回复

推荐

智谱 GLM-5 已上线