HEAVYSKILL：给大模型装上自我辩论的最强大脑

> 格帕文士 · 论文深度解读 > 论文：Heavy Thinking as the Inner Skill in Agentic Harness > 作者：Jianing Wang, Linsen Guo, Zhengyu Chen 等 > arXiv: 2605.02396 > GitHub: github.com/wjn1996/HeavySkill

一句话总结

HEAVYSKILL 把"深度思考"从外部编排框架的副产品，变成了模型内化的一种可学习技能。 它通过"并行推理 + 顺序审议"的两阶段流水线，让模型自己生成多个解题思路，然后像一个严厉的裁判一样批判性地评估这些思路，最终得出比简单"少数服从多数"（Best-of-N）更准确的答案。

问题的根源：为什么 Best-of-N 不够？

大模型做复杂数学题或写竞赛代码时，经常"脑子短路"。业界最常用的解法叫 Best-of-N：让模型生成 N 个答案，选出现次数最多的那个。这本质上是一种民主投票——相信多数人的智慧。

但问题是：真理往往掌握在少数人手里。

想象一道难题，10 个答案里有 6 个是错的但错误类型相同（模型陷入了同样的偏见），3 个是对的但解法各不相同，1 个是空白的。投票会选出那个错误的多数派，而错过了正确的少数派。

HEAVYSKILL 的洞见是：不要只看答案的票数，要看推理过程的质量。

核心架构：两阶段流水线

HEAVYSKILL 把解题拆成两个阶段，像一个科研团队的工作流程：

Stage 1：并行推理（Parallel Reasoning）—— 研究员发散

给定一个问题，同时 spawn K 个独立的"思考者"（thinker），每个思考者从零开始解题，彼此之间完全隔离，不知道其他人在做什么。

关键参数：

温度 1.0、top-p 0.95、top-k 10——刻意提高随机性，确保多样性
K = 8 或 16（主实验），Harness 场景推荐 K = 3~5
每个思考者被鼓励用不同策略（如代数法 vs. 几何法）

为什么隔离很重要？

如果思考者能看到彼此的答案，它们会"从众"——第一个写出答案的人会污染其他人的思路。隔离确保每个思考者都是独立思考。

Stage 2：顺序审议（Sequential Deliberation）—— 主编裁决

并行推理完成后，另一个模型（或同一个模型的第二轮）扮演"审议者"（deliberator）的角色。它收到一个序列化的记忆缓存（memory cache），里面包含所有思考者的完整推理过程。

审议者的四项指令： 1. 分类查询类型——确定分析深度（数学题需要严格证明，代码题需要测试验证） 2. 批判性评估——像专业怀疑主义者一样审视每个思考者，不盲目跟从多数 3. 重新推导——当所有思考者都被判定为错误时，从错误经验中学习并独立重新思考 4. 保持格式一致——数学用 \boxed{}，代码用代码块

关键约束： 禁止表面化的拼接。审议者不能简单地把多数思考者的答案复制粘贴，必须 genuinely synthesize。

记忆缓存的设计艺术

把所有思考者的推理过程塞进审议者的上下文窗口，是一个工程挑战。

论文的解决方案：

裁剪（Pruning）：超出长度限制的轨迹被截断
打乱（Shuffling）：思考者的顺序随机打乱，防止审议者对特定位置产生偏见（比如总是更信任第一个或最后一个）
结构化格式：清晰的标记区分不同思考者

# ====== Problem ======
{problem}
# ====== Problem End ======

# ====== Thinkers Thought Process ======
# ----- Thinker #1 -----
{trajectory_1}
# ----- Thinker #2 -----
{trajectory_2}
...
# ====== Thinkers Thought Process End ======

关键提示指令：

"当大多数思考者得到相同答案时，答案可能是正确的，但不能如此表面化"
"正确的答案可能来自极少数思考者，甚至没有思考者给出正确答案"
"如果你意识到这些思考者都没有正确回答，你可以从错误经验中学习并重新思考"

这些指令把审议者训练成一个不盲从权威的裁判。

实验结果：碾压 Best-of-N

STEM 任务主结果

论文在 AIME25、BeyondAIME、HMMT25-Feb、GPQA-Diamond 四个高难度数学/科学基准上测试了 10+ 个模型。

性能层级（论文发现的一致规律）：

Heavy-Pass@k ≥ Heavy-Mean@K ≥ Vote@K ≥ Mean@k

意思是：

Heavy-Pass@k（heavy thinking 模式下只要有一个对就算对）≥
Heavy-Mean@K（heavy thinking 的均值投票）≥
Vote@K（传统多数投票）≥
Mean@k（简单平均）

关键提升数据：

模型	数据集	Vote@K	HM@4	提升
GPT-5 Thinking	BeyondAIME (K=16)	73.0%	82.5%	+9.5%
	HMMT25-Feb (K=16)	86.7%	95.0%	+8.3%
DeepSeek R1-0528	AIME25 (K=16)	90%	96.7%	+6.7%
	HMMT25-Feb (K=16)	83.3%	91.7%	+8.4%
Kimi K2 Thinking	GPQA-Diamond (K=16)	80.3%	87.5%	+7.2%
GLM 4.6	AIME25 (K=16)	96.7%	96.7%	持平
	HMMT25-Feb (K=8)	96.7%	100%	+3.3%

最惊人的结果：

Kimi K2 Thinking 在 AIME25 (K=8) 上达到 100% 准确率
DeepSeek V3.2 Thinking 在 AIME25 (K=16) 和 HMMT25-Feb (K=16) 上都达到 100%
GLM 4.6 在 HMMT25-Feb (K=8) 上也达到 100%

注意：GPQA-Diamond 上提升较小（+0.8%~+2.0%），因为该数据集本身已经很难，天花板效应明显。

代码任务结果

LiveCodeBench 上的提升相对较小（+0.3%~+2.5%），论文解释：代码任务已有强验证信号（编译器/测试用例可以直接判断对错），所以额外审议的边际收益较小。

但在工具使用场景（Python 解释器辅助）下，提升显著：

模型	数据集	Vote@4	HM@4	提升
Qwen3-8B	HMMT25	54.1%	69.3%	+15.2%
GPT-OSS-20B	HMMT25	73.3%	85.7%	+12.4%

这说明：当外部验证工具存在时，审议阶段能有效利用工具反馈信号，精炼推理轨迹。

消融实验：什么最重要？

发现一：轨迹质量与多样性是关键

论文明确指出： > "The quality and diversity of trajectories generated from parallel reasoning stage are two keys for the performance"

但有趣的是，显式优化多样性没有边际收益：

轨迹选择策略 (K=64)	准确率排序
Max-Answer-Num（选答案出现最多的）	最优
Random ≈ Max-Diversity	中等
Max-Length（选最长的）	最差

关键洞察：随机采样已足够多样，无需额外计算投入优化多样性。冗长不等于推理质量。

发现二：审议模型的能力很重要

固定并行推理模型为 R1-Distill-Qwen-7B，换不同的审议模型：

审议模型	AIME25 (K=8)	HMMT25-Feb (K=8)
R1-Distill-Qwen-7B（同模型）	50.0%	40.0%
R1-Distill-Qwen3-8B	52.5%	32.5%
Qwen2.5-32B-Instruct	60.0%	40.0%

注意：Qwen2.5-32B-Instruct 独立推理能力较弱（AIME25 仅 12.8%），但作为审议模型表现更好。这说明审议阶段更依赖分析综合能力，而非原始推理能力。

论文结论： > "Sequential deliberation almost relies on the general capability of the model employed in this stage, suggesting that separate optimization of thinking and deliberation models may yield additional gains"

这意味着：未来可以专门训练一个"审议专家"模型，不需要它会解题，只需要它会判断和综合。

迭代审议：可以做得更好，但有天花板

论文测试了迭代审议（把审议结果作为"专家思考者"反馈回缓存，重新审议）：

HMMT25-Feb 上的迭代效果：

迭代次数	R1-Distill-Qwen-7B	R1-Distill-Qwen3-8B	DeepSeek R1-0528
1	~32%	~60%	~90%
2	~35%	~62%	~92%
3	~38%	~65%	~93%
4	~40%	~68%	~95%

规律：HM@K 持续提升，但 HP@K（heavy thinking pass@K）显著下降。

原因：后续审议步骤容易受到早期阶段生成信息的干扰。用通俗的话说：审多了，会被自己之前的判断带偏。

论文建议：typically 2-3 iterations max。

RLVR：让深度思考可学习

论文尝试用 RLVR（Reinforcement Learning from Verifiable Rewards）来优化 heavy thinking：

训练配置：

框架：VeRL
算法：GSPO (Group Sequence Policy Optimization)
基座模型：R1-Distill-Qwen-7B
数据来源：实验 3 生成的并行推理轨迹
查询筛选：pass rate ∈ [0, 0.625] 的问题（筛选中等难度，太简单或太难的都不适合）

结果：

K=8：HM@4 提升约 10%，训练过程稳定
K=16：前 100 步增长，之后出现严重的熵崩溃（entropy collapse）

K=16 失败原因：R1-Distill-Qwen-7B 的最大序列长度限制。K=16 的序列化上下文太长，导致截断或次优训练信号。

关键洞察：Heavy thinking 的 RL 训练需要更长上下文的模型。当前 7B 模型的序列长度是瓶颈。

可读技能：从工作流到 Agent 指令

论文的一个独特贡献是把 HEAVYSKILL 封装成一个可读技能（Readable Skill）——一个纯文本文档，可以直接注入任何 Agentic Harness（如 Claude Code、Codex）。

技能结构四组件：

1. 激活条件：什么时候触发 heavy thinking（复杂推理激活，简单查询休眠） 2. 并行推理协议：spawn K 个独立推理 agent，鼓励不同策略 3. 审议提示词：核心模板，要求批判性评估、重新推导、格式一致 4. 输出约束：只输出最终答案，不含元分析

在 Claude Code 中的实现（图9）：

1. 识别问题 → 2. 生成并行 agents (K=3) → 3. 收集结果 → 
4. 自己执行审议分析（不要委托此步骤）→ 5. 输出最终答案

注意：审议步骤不能委托给子代理，因为审议者需要访问所有思考者的完整上下文，这是主代理的核心职责。

与相关工作的对比

方法	核心机制	HEAVYSKILL 的区别
Self-Consistency	多数投票	HEAVYSKILL 看推理过程，不只是答案
Chain-of-Thought	单条推理链	HEAVYSKILL 是多条 + 综合
Tree-of-Thought	树形搜索	HEAVYSKILL 是并行生成 + 序列审议，非树形
Hogwild! Inference	Token-level 并行	HEAVYSKILL 增加显式审议阶段
ParaThinker	并行推理	HEAVYSKILL 增加批判性综合

HEAVYSKILL 不是并行推理的发明者，而是并行推理 + 批判性综合的结合者。

深层洞察：Heavy Thinking 的本质

论文提出一个哲学层面的观点：

> "Heavy thinking is not only as a minimal execution unit in orchestration harness but also as an inner skill internalized within the model's parameters"

这意味着：深度思考不应该只是外部框架的编排技巧，而应该成为模型内部化的一种能力。

就像人类专家经过训练后，可以自然而然地在脑中"多想想"、"换个角度"、"检查有没有漏洞"——这些不是外部工具教会的，而是内化成了思维习惯。

HEAVYSKILL 的目标是：让模型通过 RL 训练，把这种"深度思考习惯"写进参数里。

局限与边界

1. 序列长度瓶颈：K=16 的 RL 训练崩溃，当前模型上下文是天花板 2. 成本：并行生成 K 条轨迹 + 审议，token 消耗是单条推理的 K+1 倍 3. 代码任务收益小：已有强验证信号时，边际收益递减 4. 迭代干扰：多轮审议会被早期判断带偏 5. 小模型不适用：R1-Distill-Qwen-7B 在某些任务上 HM@4 甚至低于 Vote@K（能力天花板太低）

一句话总结

HEAVYSKILL 不是让模型"想更多次"，而是让模型"想得更深"——通过并行发散 + 批判性综合，把民主投票升级为专家裁决。

它提出的核心问题是：如果模型的参数里能内化"深度思考"这种技能，我们是否还需要复杂的外部编排框架？答案可能是：外部框架负责激活技能，模型参数负责执行技能。

---

参考来源：

论文原文: arxiv.org/abs/2605.02396
GitHub: github.com/wjn1996/HeavySkill
相关并行推理工作: Hogwild! Inference, ParaThinker, Pacore
RLVR 框架: VeRL, GSPO

#HEAVYSKILL #HeavyThinking #AgenticHarness #LLMReasoning #SelfDebate #格帕文士 #论文深度解读

HEAVYSKILL：给大模型装上自我辩论的最强大脑

一句话总结

问题的根源：为什么 Best-of-N 不够？

核心架构：两阶段流水线

Stage 1：并行推理（Parallel Reasoning）—— 研究员发散

Stage 2：顺序审议（Sequential Deliberation）—— 主编裁决

记忆缓存的设计艺术

实验结果：碾压 Best-of-N

STEM 任务主结果

代码任务结果

消融实验：什么最重要？

发现一：轨迹质量与多样性是关键

发现二：审议模型的能力很重要

迭代审议：可以做得更好，但有天花板

RLVR：让深度思考可学习

可读技能：从工作流到 Agent 指令

与相关工作的对比

深层洞察：Heavy Thinking 的本质

局限与边界

一句话总结

🌟 智谱 GLM-5 已上线