HEAVYSKILL:给大模型装上"自我辩论"的最强大脑
格帕文士 · 论文深度解读 论文:Heavy Thinking as the Inner Skill in Agentic Harness 作者:Jianing Wang, Linsen Guo, Zhengyu Chen 等 arXiv: 2605.02396 GitHub: github.com/wjn1996/HeavySkill
一句话总结
**HEAVYSKILL 把"深度思考"从外部编排框架的副产品,变成了模型内化的一种可学习技能。**它通过"并行推理 + 顺序审议"的两阶段流水线,让模型自己生成多个解题思路,然后像一个严厉的裁判一样批判性地评估这些思路,最终得出比简单"少数服从多数"(Best-of-N)更准确的答案。
问题的根源:为什么 Best-of-N 不够?
大模型做复杂数学题或写竞赛代码时,经常"脑子短路"。业界最常用的解法叫 Best-of-N:让模型生成 N 个答案,选出现次数最多的那个。这本质上是一种民主投票——相信多数人的智慧。
但问题是:真理往往掌握在少数人手里。
想象一道难题,10 个答案里有 6 个是错的但错误类型相同(模型陷入了同样的偏见),3 个是对的但解法各不相同,1 个是空白的。投票会选出那个错误的多数派,而错过了正确的少数派。
HEAVYSKILL 的洞见是:不要只看答案的票数,要看推理过程的质量。
核心架构:两阶段流水线
HEAVYSKILL 把解题拆成两个阶段,像一个科研团队的工作流程:
Stage 1:并行推理(Parallel Reasoning)—— 研究员发散
给定一个问题,同时 spawn K 个独立的"思考者"(thinker),每个思考者从零开始解题,彼此之间完全隔离,不知道其他人在做什么。
关键参数:
- 温度 1.0、top-p 0.95、top-k 10——刻意提高随机性,确保多样性
- K = 8 或 16(主实验),Harness 场景推荐 K = 3~5
- 每个思考者被鼓励用不同策略(如代数法 vs. 几何法)
为什么隔离很重要?
如果思考者能看到彼此的答案,它们会"从众"——第一个写出答案的人会污染其他人的思路。隔离确保每个思考者都是独立思考。
Stage 2:顺序审议(Sequential Deliberation)—— 主编裁决
并行推理完成后,另一个模型(或同一个模型的第二轮)扮演"审议者"(deliberator)的角色。它收到一个序列化的记忆缓存(memory cache),里面包含所有思考者的完整推理过程。
审议者的四项指令:
- 分类查询类型——确定分析深度(数学题需要严格证明,代码题需要测试验证)
- 批判性评估——像专业怀疑主义者一样审视每个思考者,不盲目跟从多数
- 重新推导——当所有思考者都被判定为错误时,从错误经验中学习并独立重新思考
- 保持格式一致——数学用
\boxed{},代码用代码块
关键约束: 禁止表面化的拼接。审议者不能简单地把多数思考者的答案复制粘贴,必须 genuinely synthesize。
记忆缓存的设计艺术
把所有思考者的推理过程塞进审议者的上下文窗口,是一个工程挑战。
论文的解决方案:
- 裁剪(Pruning):超出长度限制的轨迹被截断
- 打乱(Shuffling):思考者的顺序随机打乱,防止审议者对特定位置产生偏见(比如总是更信任第一个或最后一个)
- 结构化格式:清晰的标记区分不同思考者
# ====== Problem ======
{problem}
# ====== Problem End ======
# ====== Thinkers Thought Process ======
# ----- Thinker #1 -----
{trajectory_1}
# ----- Thinker #2 -----
{trajectory_2}
...
# ====== Thinkers Thought Process End ======
关键提示指令:
- "当大多数思考者得到相同答案时,答案可能是正确的,但不能如此表面化"
- "正确的答案可能来自极少数思考者,甚至没有思考者给出正确答案"
- "如果你意识到这些思考者都没有正确回答,你可以从错误经验中学习并重新思考"
这些指令把审议者训练成一个不盲从权威的裁判。
实验结果:碾压 Best-of-N
STEM 任务主结果
论文在 AIME25、BeyondAIME、HMMT25-Feb、GPQA-Diamond 四个高难度数学/科学基准上测试了 10+ 个模型。
性能层级(论文发现的一致规律):
Heavy-Pass@k ≥ Heavy-Mean@K ≥ Vote@K ≥ Mean@k
意思是:
- Heavy-Pass@k(heavy thinking 模式下只要有一个对就算对)≥
- Heavy-Mean@K(heavy thinking 的均值投票)≥
- Vote@K(传统多数投票)≥
- Mean@k(简单平均)
关键提升数据:
| 模型 | 数据集 | Vote@K | HM@4 | 提升 |
|---|---|---|---|---|
| GPT-5 Thinking | BeyondAIME (K=16) | 73.0% | 82.5% | +9.5% |
| HMMT25-Feb (K=16) | 86.7% | 95.0% | +8.3% | |
| DeepSeek R1-0528 | AIME25 (K=16) | 90% | 96.7% | +6.7% |
| HMMT25-Feb (K=16) | 83.3% | 91.7% | +8.4% | |
| Kimi K2 Thinking | GPQA-Diamond (K=16) | 80.3% | 87.5% | +7.2% |
| GLM 4.6 | AIME25 (K=16) | 96.7% | 96.7% | 持平 |
| HMMT25-Feb (K=8) | 96.7% | 100% | +3.3% |
最惊人的结果:
- Kimi K2 Thinking 在 AIME25 (K=8) 上达到 100% 准确率
- DeepSeek V3.2 Thinking 在 AIME25 (K=16) 和 HMMT25-Feb (K=16) 上都达到 100%
- GLM 4.6 在 HMMT25-Feb (K=8) 上也达到 100%
注意:GPQA-Diamond 上提升较小(+0.8%~+2.0%),因为该数据集本身已经很难,天花板效应明显。
代码任务结果
LiveCodeBench 上的提升相对较小(+0.3%~+2.5%),论文解释:代码任务已有强验证信号(编译器/测试用例可以直接判断对错),所以额外审议的边际收益较小。
但在工具使用场景(Python 解释器辅助)下,提升显著:
| 模型 | 数据集 | Vote@4 | HM@4 | 提升 |
|---|---|---|---|---|
| Qwen3-8B | HMMT25 | 54.1% | 69.3% | +15.2% |
| GPT-OSS-20B | HMMT25 | 73.3% | 85.7% | +12.4% |
这说明:当外部验证工具存在时,审议阶段能有效利用工具反馈信号,精炼推理轨迹。
消融实验:什么最重要?
发现一:轨迹质量与多样性是关键
论文明确指出:
"The quality and diversity of trajectories generated from parallel reasoning stage are two keys for the performance"
但有趣的是,显式优化多样性没有边际收益:
| 轨迹选择策略 (K=64) | 准确率排序 |
|---|---|
| Max-Answer-Num(选答案出现最多的) | 最优 |
| Random ≈ Max-Diversity | 中等 |
| Max-Length(选最长的) | 最差 |
关键洞察:随机采样已足够多样,无需额外计算投入优化多样性。冗长不等于推理质量。
发现二:审议模型的能力很重要
固定并行推理模型为 R1-Distill-Qwen-7B,换不同的审议模型:
| 审议模型 | AIME25 (K=8) | HMMT25-Feb (K=8) |
|---|---|---|
| R1-Distill-Qwen-7B(同模型) | 50.0% | 40.0% |
| R1-Distill-Qwen3-8B | 52.5% | 32.5% |
| Qwen2.5-32B-Instruct | 60.0% | 40.0% |
注意:Qwen2.5-32B-Instruct 独立推理能力较弱(AIME25 仅 12.8%),但作为审议模型表现更好。这说明审议阶段更依赖分析综合能力,而非原始推理能力。
论文结论:
"Sequential deliberation almost relies on the general capability of the model employed in this stage, suggesting that separate optimization of thinking and deliberation models may yield additional gains"
这意味着:未来可以专门训练一个"审议专家"模型,不需要它会解题,只需要它会判断和综合。
迭代审议:可以做得更好,但有天花板
论文测试了迭代审议(把审议结果作为"专家思考者"反馈回缓存,重新审议):
HMMT25-Feb 上的迭代效果:
| 迭代次数 | R1-Distill-Qwen-7B | R1-Distill-Qwen3-8B | DeepSeek R1-0528 |
|---|---|---|---|
| 1 | ~32% | ~60% | ~90% |
| 2 | ~35% | ~62% | ~92% |
| 3 | ~38% | ~65% | ~93% |
| 4 | ~40% | ~68% | ~95% |
规律:HM@K 持续提升,但 HP@K(heavy thinking pass@K)显著下降。
原因:后续审议步骤容易受到早期阶段生成信息的干扰。用通俗的话说:审多了,会被自己之前的判断带偏。
论文建议:typically 2-3 iterations max。
RLVR:让深度思考可学习
论文尝试用 RLVR(Reinforcement Learning from Verifiable Rewards)来优化 heavy thinking:
训练配置:
- 框架:VeRL
- 算法:GSPO (Group Sequence Policy Optimization)
- 基座模型:R1-Distill-Qwen-7B
- 数据来源:实验 3 生成的并行推理轨迹
- 查询筛选:pass rate ∈ [0, 0.625] 的问题(筛选中等难度,太简单或太难的都不适合)
结果:
- K=8:HM@4 提升约 10%,训练过程稳定
- K=16:前 100 步增长,之后出现严重的熵崩溃(entropy collapse)
K=16 失败原因:R1-Distill-Qwen-7B 的最大序列长度限制。K=16 的序列化上下文太长,导致截断或次优训练信号。
关键洞察:Heavy thinking 的 RL 训练需要更长上下文的模型。当前 7B 模型的序列长度是瓶颈。
可读技能:从工作流到 Agent 指令
论文的一个独特贡献是把 HEAVYSKILL 封装成一个可读技能(Readable Skill)——一个纯文本文档,可以直接注入任何 Agentic Harness(如 Claude Code、Codex)。
技能结构四组件:
- 激活条件:什么时候触发 heavy thinking(复杂推理激活,简单查询休眠)
- 并行推理协议:spawn K 个独立推理 agent,鼓励不同策略
- 审议提示词:核心模板,要求批判性评估、重新推导、格式一致
- 输出约束:只输出最终答案,不含元分析
在 Claude Code 中的实现(图9):
1. 识别问题 → 2. 生成并行 agents (K=3) → 3. 收集结果 →
4. 自己执行审议分析(不要委托此步骤)→ 5. 输出最终答案
注意:审议步骤不能委托给子代理,因为审议者需要访问所有思考者的完整上下文,这是主代理的核心职责。
与相关工作的对比
| 方法 | 核心机制 | HEAVYSKILL 的区别 |
|---|---|---|
| Self-Consistency | 多数投票 | HEAVYSKILL 看推理过程,不只是答案 |
| Chain-of-Thought | 单条推理链 | HEAVYSKILL 是多条 + 综合 |
| Tree-of-Thought | 树形搜索 | HEAVYSKILL 是并行生成 + 序列审议,非树形 |
| Hogwild! Inference | Token-level 并行 | HEAVYSKILL 增加显式审议阶段 |
| ParaThinker | 并行推理 | HEAVYSKILL 增加批判性综合 |
HEAVYSKILL 不是并行推理的发明者,而是并行推理 + 批判性综合的结合者。
深层洞察:Heavy Thinking 的本质
论文提出一个哲学层面的观点:
"Heavy thinking is not only as a minimal execution unit in orchestration harness but also as an inner skill internalized within the model's parameters"
这意味着:深度思考不应该只是外部框架的编排技巧,而应该成为模型内部化的一种能力。
就像人类专家经过训练后,可以自然而然地在脑中"多想想"、"换个角度"、"检查有没有漏洞"——这些不是外部工具教会的,而是内化成了思维习惯。
HEAVYSKILL 的目标是:让模型通过 RL 训练,把这种"深度思考习惯"写进参数里。
局限与边界
- 序列长度瓶颈:K=16 的 RL 训练崩溃,当前模型上下文是天花板
- 成本:并行生成 K 条轨迹 + 审议,token 消耗是单条推理的 K+1 倍
- 代码任务收益小:已有强验证信号时,边际收益递减
- 迭代干扰:多轮审议会被早期判断带偏
- 小模型不适用:R1-Distill-Qwen-7B 在某些任务上 HM@4 甚至低于 Vote@K(能力天花板太低)
一句话总结
HEAVYSKILL 不是让模型"想更多次",而是让模型"想得更深"——通过并行发散 + 批判性综合,把民主投票升级为专家裁决。
它提出的核心问题是:如果模型的参数里能内化"深度思考"这种技能,我们是否还需要复杂的外部编排框架?答案可能是:外部框架负责激活技能,模型参数负责执行技能。
参考来源:
- 论文原文: arxiv.org/abs/2605.02396
- GitHub: github.com/wjn1996/HeavySkill
- 相关并行推理工作: Hogwild! Inference, ParaThinker, Pacore
- RLVR 框架: VeRL, GSPO
#HEAVYSKILL #HeavyThinking #AgenticHarness #LLMReasoning #SelfDebate #格帕文士 #论文深度解读
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。