HeavySkill 深度拆解：AI推理的"集体讨论"为什么比"少数服从多数"更聪明？

> 核心速览：美团LongCat团队提出的HeavySkill，把复杂推理拆解为"并行思考→顺序讨论"两阶段。实验发现：一个弱模型做"讨论主持"，加上几个中等模型做"思考者"，整体效果能超过一个强模型单独工作。Kimi K2 Thinking在AIME25上通过HeavySkill达到100%正确率。最惊人的是，讨论阶段不仅能选出正确答案，还能凭空合成出全新的正确答案——HP@K指标甚至超过Pass@K上限。

---

一、问题：为什么"少数服从多数"可能是错的？

1.1 Best-of-N的盲区

现在主流的AI复杂推理策略是什么？BoN（Best-of-N）——让模型跑N次，然后投票选多数派。

这个策略有一个致命盲区：真理可能掌握在少数人手里。

想象一下：你让AI解一道奥数题，跑了16次。其中有3次答案是42（正确），13次答案是37（错误）。BoN会选37——因为13 > 3。

这就是HeavySkill论文要解决的问题。

1.2 人类 already know the answer

人类解决复杂问题时是怎么做的？不是"一个人想16遍然后举手表决"。而是：

1. 各想各的——几个人从不同角度独立思考 2. 坐下来讨论——互相质疑、取长补短、综合出最佳方案

诺贝尔奖得主费曼的学习法核心就是：把自己理解的东西讲给别人听，在解释过程中发现自己哪里没想通。

HeavySkill的本质就是：把这套人类逻辑搬给AI。

---

二、核心方法：两阶段流水线

2.1 阶段一：并行思考（Parallel Reasoning）

给定一个问题，同时生成K条 完全独立 的推理轨迹。

每条轨迹从零开始，不访问其他轨迹的输出
鼓励多样性（代数方法 vs 几何方法）
温度1.0，top-p 0.95，top-k 10

关键：这不是简单的"重试16次"。这16个思考者是 并行独立 的，像 brainstorming session。

2.2 阶段二：顺序讨论（Sequential Deliberation）

另一个模型（可以是同一个，也可以是专门的"讨论者"）读取所有轨迹，然后：

1. 分类问题类型——确定分析深度 2. 批判性评估每条推理——"不要盲目跟从多数" 3. 必要时重新推导——"如果所有思考者都错了，你自己来" 4. 保持语言和格式一致

关键：讨论不是筛选，是综合。论文发现，讨论阶段经常能 合成出一个全新的、所有轨迹中都没有的正确答案。

2.3 迭代讨论

对于极难的问题，可以迭代多轮：

第一轮讨论的输出成为第二轮的输入
论文实验了最多4轮迭代
HM@K随轮数上升，但HP@K可能下降——后续轮次易受前面错误信息的干扰

---

三、关键实验数字

3.1 AIME25（美国数学邀请赛）

模型	单次推理	Pass@8	投票@8	HeavySkill HM@4	HeavySkill HP@4
Kimi K2 Thinking	95.4%	100%	96.7%	100%	100%
GPT-5 Thinking	92.5%	100%	96.7%	96.7%	96.7%
DeepSeek R1-0528	87.1%	96.7%	90.0%	93.3%	93.3%
R1-Distill-Qwen3-8B	76.7%	90.0%	83.3%	85.8%	90.0%

洞察：K=16时效果更显著——GPT-5 Thinking的HM@4达到99.2%，DeepSeek R1-0528达到96.7%。

3.2 BeyondAIME（更难）

模型	Pass@8	Heavy HP@4
Kimi K2 Thinking	87.0%	84.0%
GPT-5 Thinking	86.0%	83.0%
DeepSeek R1-0528	84.0%	77.0%

在最难的题目上，HeavySkill把弱模型的表现推到了接近强模型单次的水平。

3.3 编程任务（LiveCodeBench）

模型	Pass@K	Heavy HP@4
GPT-OSS-20B	89.0%	85.5%
GLM 4.6	90.3%	87.9%

3.4 最惊人的发现：HP@K > Pass@K

IMO（国际数学奥林匹克）结果：

模型	Pass@K	Heavy HP@4
GLM 4.6	74.5%	86.0%
GPT-OSS-20B	65.8%	84.5%

这意味着什么？讨论阶段不仅能从16个答案中选出最好的，还能通过综合多个错误答案的碎片，拼出一个全新的正确答案。这是BoN永远做不到的。

---

四、消融实验：什么让HeavySkill有效？

4.1 轨迹选择策略（256条中选K条）

策略	效果
Max-Answer-Num（共识最多）	最好
Random	和Max-Diversity差不多
Max-Diversity	和Random差不多
Max-Length（最长的）	最差——" verbosity ≠ quality"

关键洞察：共识选择 > 多样性优化 > 随机 >> 长度偏好。

4.2 讨论者模型需要很强吗？

不需要！

实验：固定思考者 = R1-Distill-Qwen-7B，换不同的讨论者：

讨论者	AIME25 K=8	HMMT25 K=8
R1-Distill-Qwen-7B	36.25%	26.66%
R1-Distill-Qwen3-8B	56.66%	60.00%
Qwen2.5-32B-Instruct	50.00%	40.00%

注意：Qwen2.5-32B-Instruct 单独做AIME25只有12.8%，但做讨论者却能达到50-60%！

结论：讨论不需要最强的推理能力，需要的是 综合分析、批判性评估和综合总结 的能力。就像一个不擅长做题但擅长听懂别人思路、找到关键问题的人——团队里这种角色非常宝贵。

4.3 迭代效果

K=8，迭代4轮：

模型	基准	第1轮	第2轮	第3轮	第4轮
R1-Distill-Qwen-7B	HMMT25	~32%	~35%	~38%	~40%
DeepSeek R1-0528	HMMT25	~88%	~90%	~92%	~93%

HM@K持续提升，但HP@K可能下降——后续轮次易受前面错误信息干扰。实际使用建议 2-3轮迭代上限。

---

五、RLVR：让HeavySkill自我进化

论文尝试了用强化学习（RLVR）来训练模型更好地做HeavySkill：

框架：VeRL + GSPO算法
模型：R1-Distill-Qwen-7B
K=8：HM@4从~35%提升到约45%，稳定
K=16：HM@4提升到约48%，但100步后出现熵崩溃

关键瓶颈：序列长度限制。K=16时讨论阶段的上下文太长，导致训练不稳定。

---

六、Skill格式：把推理能力变成"可插拔技能"

HeavySkill最务实的贡献：把整个推理流程编码成一份 纯文本技能文件。

# HeavySkill Skill

## 激活条件
遇到复杂推理任务时触发，简单事实查询跳过。

## 并行推理协议
生成K个独立思考者，每个从零开始解决同一问题。
鼓励不同策略（代数vs几何）。禁止思考者间通信。

## 讨论提示
1. 分类问题类型，确定分析深度
2. 批判性评估每条推理（不要表面化）
3. 如果所有思考者都错了，你自己重新推导
4. 保持语言和格式一致

## 输出约束
仅输出最终答案，不输出元分析。
数学：\boxed{} 格式，编程：代码块。

这份文件可以：

直接放进Claude Code的skills目录
放进任何支持skill/agentic harness的框架
无需改一行代码

---

七、哲学意义：组织的力量 vs 个体的力量

HeavySkill揭示了一个被忽视的事实：

> 如何让多个AI更好地配合，可能比如何让单个AI更聪明更重要。

一个弱模型做协调者 + 几个中等模型做思考者，整体效果可以超过一个强模型单独工作。

这不是简单的"人多力量大"。关键机制是： 1. 并行独立——避免思维定势传染 2. 顺序讨论——不是投票，而是综合 3. 批判性评估——能识别所有思考者都错了的情况

这与费曼学习法、人类学术讨论、陪审团制度的底层逻辑一致：解释本身就是一种思维工具，讨论本身就是一种推理方式。

---

八、局限

1. 计算成本：需要K次推理 + 1次讨论，成本是单次的K+1倍 2. 上下文长度瓶颈：K=16时讨论阶段的上下文可能超限，导致RLVR训练不稳定 3. 不是万能药：简单任务不需要HeavySkill，过度使用浪费资源 4. HP@K随迭代下降：多轮讨论可能引入错误累积

---

九、关键数字

指标	数值
论文	arXiv:2605.02396
作者	11人（Jianing Wang等，美团LongCat团队）
核心方法	2阶段（并行思考 + 顺序讨论）
最佳AIME25成绩	Kimi K2 Thinking: 100% (K=16)
HP@K > Pass@K	GLM 4.6 IMO: 86.0% vs 74.5%
讨论者不需要最强	Qwen2.5-32B: 12.8% solo → 50-60% as deliberator
RLVR提升	~10%绝对提升（K=8稳定，K=16不稳定）
代码开源	Apache-2.0，GitHub: wjn1996/HeavySkill

---

十、资源

论文：https://arxiv.org/abs/2605.02396
代码：https://github.com/wjn1996/HeavySkill
技能文件：skill/heavyskill.md（纯文本，即插即用）
支持API：vLLM、DeepSeek、Together AI、OpenRouter、Ollama

---

结语

HeavySkill的核心主张只有一句话：

> 让AI先并行"各想各的"，再用一轮推理来综合所有思路。

听起来朴素，但实验数据令人震惊。更重要的是，它提出了一个根本问题：

我们升级AI能力，到底是要训练新模型，还是只需要更好地"告诉它怎么做"？

如果一份纯文本技能文件能让任何模型获得接近Pass@N的性能，那么推理能力可能更多地藏在 组织方式 里，而不是 参数量 里。

下次你用AI遇到它答错时，不妨多问一次："你能不能重新想想，从另一个角度看看之前的思路有没有问题？"

某种程度上，你在手动触发HeavySkill——而且它确实会有效。

---

*参考文献：*

*Wang et al., "HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness", arXiv:2605.02396, 2026*
*GitHub: https://github.com/wjn1996/HeavySkill*
*深度解读参考: https://blog.qiaomu.ai/heavyskill-heavy-thinking-inner-skill-agentic*

#HeavySkill #AI推理 #Agent #并行思考 #顺序讨论 #BestOfN #Kimi #DeepSeek #美团 #智柴 #记忆 #小凯