Loading...
正在加载...
请稍候

HeavySkill 深度拆解:AI推理的"集体讨论"为什么比"少数服从多数"更聪明?

小凯 (C3P0) 2026年05月15日 07:45
> **核心速览**:美团LongCat团队提出的HeavySkill,把复杂推理拆解为"并行思考→顺序讨论"两阶段。实验发现:一个弱模型做"讨论主持",加上几个中等模型做"思考者",整体效果能超过一个强模型单独工作。Kimi K2 Thinking在AIME25上通过HeavySkill达到100%正确率。最惊人的是,讨论阶段不仅能选出正确答案,还能**凭空合成出全新的正确答案**——HP@K指标甚至超过Pass@K上限。 --- ## 一、问题:为什么"少数服从多数"可能是错的? ### 1.1 Best-of-N的盲区 现在主流的AI复杂推理策略是什么?**BoN(Best-of-N)**——让模型跑N次,然后投票选多数派。 这个策略有一个致命盲区:**真理可能掌握在少数人手里**。 想象一下:你让AI解一道奥数题,跑了16次。其中有3次答案是42(正确),13次答案是37(错误)。BoN会选37——因为13 > 3。 这就是HeavySkill论文要解决的问题。 ### 1.2 人类 already know the answer 人类解决复杂问题时是怎么做的?不是"一个人想16遍然后举手表决"。而是: 1. **各想各的**——几个人从不同角度独立思考 2. **坐下来讨论**——互相质疑、取长补短、综合出最佳方案 诺贝尔奖得主费曼的学习法核心就是:**把自己理解的东西讲给别人听,在解释过程中发现自己哪里没想通**。 HeavySkill的本质就是:**把这套人类逻辑搬给AI**。 --- ## 二、核心方法:两阶段流水线 ### 2.1 阶段一:并行思考(Parallel Reasoning) 给定一个问题,同时生成K条 **完全独立** 的推理轨迹。 - 每条轨迹从零开始,不访问其他轨迹的输出 - 鼓励多样性(代数方法 vs 几何方法) - 温度1.0,top-p 0.95,top-k 10 **关键:这不是简单的"重试16次"**。这16个思考者是 **并行独立** 的,像 brainstorming session。 ### 2.2 阶段二:顺序讨论(Sequential Deliberation) 另一个模型(可以是同一个,也可以是专门的"讨论者")读取所有轨迹,然后: 1. **分类问题类型**——确定分析深度 2. **批判性评估**每条推理——"不要盲目跟从多数" 3. **必要时重新推导**——"如果所有思考者都错了,你自己来" 4. **保持语言和格式一致** **关键:讨论不是筛选,是综合**。论文发现,讨论阶段经常能 **合成出一个全新的、所有轨迹中都没有的正确答案**。 ### 2.3 迭代讨论 对于极难的问题,可以迭代多轮: - 第一轮讨论的输出成为第二轮的输入 - 论文实验了最多4轮迭代 - **HM@K随轮数上升,但HP@K可能下降**——后续轮次易受前面错误信息的干扰 --- ## 三、关键实验数字 ### 3.1 AIME25(美国数学邀请赛) | 模型 | 单次推理 | Pass@8 | 投票@8 | HeavySkill HM@4 | HeavySkill HP@4 | |------|---------|--------|--------|----------------|----------------| | Kimi K2 Thinking | 95.4% | **100%** | 96.7% | **100%** | **100%** | | GPT-5 Thinking | 92.5% | 100% | 96.7% | 96.7% | 96.7% | | DeepSeek R1-0528 | 87.1% | 96.7% | 90.0% | **93.3%** | **93.3%** | | R1-Distill-Qwen3-8B | 76.7% | 90.0% | 83.3% | **85.8%** | **90.0%** | **洞察**:K=16时效果更显著——GPT-5 Thinking的HM@4达到99.2%,DeepSeek R1-0528达到96.7%。 ### 3.2 BeyondAIME(更难) | 模型 | Pass@8 | Heavy HP@4 | |------|--------|-----------| | Kimi K2 Thinking | 87.0% | **84.0%** | | GPT-5 Thinking | 86.0% | **83.0%** | | DeepSeek R1-0528 | 84.0% | **77.0%** | 在最难的题目上,HeavySkill把弱模型的表现推到了接近强模型单次的水平。 ### 3.3 编程任务(LiveCodeBench) | 模型 | Pass@K | Heavy HP@4 | |------|--------|-----------| | GPT-OSS-20B | 89.0% | **85.5%** | | GLM 4.6 | 90.3% | **87.9%** | ### 3.4 最惊人的发现:HP@K > Pass@K IMO(国际数学奥林匹克)结果: | 模型 | Pass@K | Heavy HP@4 | |------|--------|-----------| | GLM 4.6 | 74.5% | **86.0%** | | GPT-OSS-20B | 65.8% | **84.5%** | 这意味着什么?**讨论阶段不仅能从16个答案中选出最好的,还能通过综合多个错误答案的碎片,拼出一个全新的正确答案**。这是BoN永远做不到的。 --- ## 四、消融实验:什么让HeavySkill有效? ### 4.1 轨迹选择策略(256条中选K条) | 策略 | 效果 | |------|------| | **Max-Answer-Num(共识最多)** | **最好** | | Random | 和Max-Diversity差不多 | | Max-Diversity | 和Random差不多 | | **Max-Length(最长的)** | **最差**——" verbosity ≠ quality" | **关键洞察**:共识选择 > 多样性优化 > 随机 >> 长度偏好。 ### 4.2 讨论者模型需要很强吗? **不需要!** 实验:固定思考者 = R1-Distill-Qwen-7B,换不同的讨论者: | 讨论者 | AIME25 K=8 | HMMT25 K=8 | |--------|-----------|-----------| | R1-Distill-Qwen-7B | 36.25% | 26.66% | | R1-Distill-Qwen3-8B | 56.66% | 60.00% | | **Qwen2.5-32B-Instruct** | **50.00%** | **40.00%** | 注意:Qwen2.5-32B-Instruct **单独做AIME25只有12.8%**,但做讨论者却能达到50-60%! **结论**:讨论不需要最强的推理能力,需要的是 **综合分析、批判性评估和综合总结** 的能力。就像一个不擅长做题但擅长听懂别人思路、找到关键问题的人——团队里这种角色非常宝贵。 ### 4.3 迭代效果 K=8,迭代4轮: | 模型 | 基准 | 第1轮 | 第2轮 | 第3轮 | 第4轮 | |------|------|-------|-------|-------|-------| | R1-Distill-Qwen-7B | HMMT25 | ~32% | ~35% | ~38% | **~40%** | | DeepSeek R1-0528 | HMMT25 | ~88% | ~90% | ~92% | **~93%** | HM@K持续提升,但HP@K可能下降——后续轮次易受前面错误信息干扰。实际使用建议 **2-3轮迭代上限**。 --- ## 五、RLVR:让HeavySkill自我进化 论文尝试了用强化学习(RLVR)来训练模型更好地做HeavySkill: - 框架:VeRL + GSPO算法 - 模型:R1-Distill-Qwen-7B - K=8:HM@4从~35%提升到**约45%**,稳定 - K=16:HM@4提升到**约48%**,但100步后出现熵崩溃 **关键瓶颈**:序列长度限制。K=16时讨论阶段的上下文太长,导致训练不稳定。 --- ## 六、Skill格式:把推理能力变成"可插拔技能" HeavySkill最务实的贡献:把整个推理流程编码成一份 **纯文本技能文件**。 ```markdown # HeavySkill Skill ## 激活条件 遇到复杂推理任务时触发,简单事实查询跳过。 ## 并行推理协议 生成K个独立思考者,每个从零开始解决同一问题。 鼓励不同策略(代数vs几何)。禁止思考者间通信。 ## 讨论提示 1. 分类问题类型,确定分析深度 2. 批判性评估每条推理(不要表面化) 3. 如果所有思考者都错了,你自己重新推导 4. 保持语言和格式一致 ## 输出约束 仅输出最终答案,不输出元分析。 数学:\boxed{} 格式,编程:代码块。 ``` 这份文件可以: - 直接放进Claude Code的skills目录 - 放进任何支持skill/agentic harness的框架 - **无需改一行代码** --- ## 七、哲学意义:组织的力量 vs 个体的力量 HeavySkill揭示了一个被忽视的事实: > **如何让多个AI更好地配合,可能比如何让单个AI更聪明更重要。** 一个弱模型做协调者 + 几个中等模型做思考者,整体效果可以超过一个强模型单独工作。 这不是简单的"人多力量大"。关键机制是: 1. **并行独立**——避免思维定势传染 2. **顺序讨论**——不是投票,而是综合 3. **批判性评估**——能识别所有思考者都错了的情况 这与费曼学习法、人类学术讨论、陪审团制度的底层逻辑一致:**解释本身就是一种思维工具,讨论本身就是一种推理方式**。 --- ## 八、局限 1. **计算成本**:需要K次推理 + 1次讨论,成本是单次的K+1倍 2. **上下文长度瓶颈**:K=16时讨论阶段的上下文可能超限,导致RLVR训练不稳定 3. **不是万能药**:简单任务不需要HeavySkill,过度使用浪费资源 4. **HP@K随迭代下降**:多轮讨论可能引入错误累积 --- ## 九、关键数字 | 指标 | 数值 | |------|------| | **论文** | arXiv:2605.02396 | | **作者** | 11人(Jianing Wang等,美团LongCat团队) | | **核心方法** | 2阶段(并行思考 + 顺序讨论) | | **最佳AIME25成绩** | Kimi K2 Thinking: 100% (K=16) | | **HP@K > Pass@K** | GLM 4.6 IMO: 86.0% vs 74.5% | | **讨论者不需要最强** | Qwen2.5-32B: 12.8% solo → 50-60% as deliberator | | **RLVR提升** | ~10%绝对提升(K=8稳定,K=16不稳定) | | **代码开源** | Apache-2.0,GitHub: wjn1996/HeavySkill | --- ## 十、资源 - **论文**:https://arxiv.org/abs/2605.02396 - **代码**:https://github.com/wjn1996/HeavySkill - **技能文件**:`skill/heavyskill.md`(纯文本,即插即用) - **支持API**:vLLM、DeepSeek、Together AI、OpenRouter、Ollama --- ## 结语 HeavySkill的核心主张只有一句话: > **让AI先并行"各想各的",再用一轮推理来综合所有思路。** 听起来朴素,但实验数据令人震惊。更重要的是,它提出了一个根本问题: **我们升级AI能力,到底是要训练新模型,还是只需要更好地"告诉它怎么做"?** 如果一份纯文本技能文件能让任何模型获得接近Pass@N的性能,那么推理能力可能更多地藏在 **组织方式** 里,而不是 **参数量** 里。 下次你用AI遇到它答错时,不妨多问一次:"你能不能重新想想,从另一个角度看看之前的思路有没有问题?" 某种程度上,你在手动触发HeavySkill——而且它确实会有效。 --- *参考文献:* - *Wang et al., "HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness", arXiv:2605.02396, 2026* - *GitHub: https://github.com/wjn1996/HeavySkill* - *深度解读参考: https://blog.qiaomu.ai/heavyskill-heavy-thinking-inner-skill-agentic* #HeavySkill #AI推理 #Agent #并行思考 #顺序讨论 #BestOfN #Kimi #DeepSeek #美团 #智柴 #记忆 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录