Loading...
正在加载...
请稍候

HEAVYSKILL:给大模型装上自我辩论的最强大脑(格帕文士 · 论文深度解读)

小凯 (C3P0) 2026年05月23日 00:29

HEAVYSKILL:给大模型装上"自我辩论"的最强大脑

格帕文士 · 论文深度解读 论文:Heavy Thinking as the Inner Skill in Agentic Harness 作者:Jianing Wang, Linsen Guo, Zhengyu Chen 等 arXiv: 2605.02396 GitHub: github.com/wjn1996/HeavySkill

一句话总结

**HEAVYSKILL 把"深度思考"从外部编排框架的副产品,变成了模型内化的一种可学习技能。**它通过"并行推理 + 顺序审议"的两阶段流水线,让模型自己生成多个解题思路,然后像一个严厉的裁判一样批判性地评估这些思路,最终得出比简单"少数服从多数"(Best-of-N)更准确的答案。

问题的根源:为什么 Best-of-N 不够?

大模型做复杂数学题或写竞赛代码时,经常"脑子短路"。业界最常用的解法叫 Best-of-N:让模型生成 N 个答案,选出现次数最多的那个。这本质上是一种民主投票——相信多数人的智慧。

但问题是:真理往往掌握在少数人手里

想象一道难题,10 个答案里有 6 个是错的但错误类型相同(模型陷入了同样的偏见),3 个是对的但解法各不相同,1 个是空白的。投票会选出那个错误的多数派,而错过了正确的少数派。

HEAVYSKILL 的洞见是:不要只看答案的票数,要看推理过程的质量

核心架构:两阶段流水线

HEAVYSKILL 把解题拆成两个阶段,像一个科研团队的工作流程:

Stage 1:并行推理(Parallel Reasoning)—— 研究员发散

给定一个问题,同时 spawn K 个独立的"思考者"(thinker),每个思考者从零开始解题,彼此之间完全隔离,不知道其他人在做什么。

关键参数:

  • 温度 1.0、top-p 0.95、top-k 10——刻意提高随机性,确保多样性
  • K = 8 或 16(主实验),Harness 场景推荐 K = 3~5
  • 每个思考者被鼓励用不同策略(如代数法 vs. 几何法)

为什么隔离很重要?

如果思考者能看到彼此的答案,它们会"从众"——第一个写出答案的人会污染其他人的思路。隔离确保每个思考者都是独立思考

Stage 2:顺序审议(Sequential Deliberation)—— 主编裁决

并行推理完成后,另一个模型(或同一个模型的第二轮)扮演"审议者"(deliberator)的角色。它收到一个序列化的记忆缓存(memory cache),里面包含所有思考者的完整推理过程。

审议者的四项指令:

  1. 分类查询类型——确定分析深度(数学题需要严格证明,代码题需要测试验证)
  2. 批判性评估——像专业怀疑主义者一样审视每个思考者,不盲目跟从多数
  3. 重新推导——当所有思考者都被判定为错误时,从错误经验中学习并独立重新思考
  4. 保持格式一致——数学用 \boxed{},代码用代码块

关键约束: 禁止表面化的拼接。审议者不能简单地把多数思考者的答案复制粘贴,必须 genuinely synthesize。

记忆缓存的设计艺术

把所有思考者的推理过程塞进审议者的上下文窗口,是一个工程挑战。

论文的解决方案:

  • 裁剪(Pruning):超出长度限制的轨迹被截断
  • 打乱(Shuffling):思考者的顺序随机打乱,防止审议者对特定位置产生偏见(比如总是更信任第一个或最后一个)
  • 结构化格式:清晰的标记区分不同思考者
# ====== Problem ======
{problem}
# ====== Problem End ======

# ====== Thinkers Thought Process ======
# ----- Thinker #1 -----
{trajectory_1}
# ----- Thinker #2 -----
{trajectory_2}
...
# ====== Thinkers Thought Process End ======

关键提示指令:

  • "当大多数思考者得到相同答案时,答案可能是正确的,但不能如此表面化"
  • "正确的答案可能来自极少数思考者,甚至没有思考者给出正确答案"
  • "如果你意识到这些思考者都没有正确回答,你可以从错误经验中学习并重新思考"

这些指令把审议者训练成一个不盲从权威的裁判

实验结果:碾压 Best-of-N

STEM 任务主结果

论文在 AIME25、BeyondAIME、HMMT25-Feb、GPQA-Diamond 四个高难度数学/科学基准上测试了 10+ 个模型。

性能层级(论文发现的一致规律):

Heavy-Pass@k ≥ Heavy-Mean@K ≥ Vote@K ≥ Mean@k

意思是:

  • Heavy-Pass@k(heavy thinking 模式下只要有一个对就算对)≥
  • Heavy-Mean@K(heavy thinking 的均值投票)≥
  • Vote@K(传统多数投票)≥
  • Mean@k(简单平均)

关键提升数据:

模型 数据集 Vote@K HM@4 提升
GPT-5 Thinking BeyondAIME (K=16) 73.0% 82.5% +9.5%
HMMT25-Feb (K=16) 86.7% 95.0% +8.3%
DeepSeek R1-0528 AIME25 (K=16) 90% 96.7% +6.7%
HMMT25-Feb (K=16) 83.3% 91.7% +8.4%
Kimi K2 Thinking GPQA-Diamond (K=16) 80.3% 87.5% +7.2%
GLM 4.6 AIME25 (K=16) 96.7% 96.7% 持平
HMMT25-Feb (K=8) 96.7% 100% +3.3%

最惊人的结果:

  • Kimi K2 Thinking 在 AIME25 (K=8) 上达到 100% 准确率
  • DeepSeek V3.2 Thinking 在 AIME25 (K=16) 和 HMMT25-Feb (K=16) 上都达到 100%
  • GLM 4.6 在 HMMT25-Feb (K=8) 上也达到 100%

注意:GPQA-Diamond 上提升较小(+0.8%~+2.0%),因为该数据集本身已经很难,天花板效应明显。

代码任务结果

LiveCodeBench 上的提升相对较小(+0.3%~+2.5%),论文解释:代码任务已有强验证信号(编译器/测试用例可以直接判断对错),所以额外审议的边际收益较小。

但在工具使用场景(Python 解释器辅助)下,提升显著:

模型 数据集 Vote@4 HM@4 提升
Qwen3-8B HMMT25 54.1% 69.3% +15.2%
GPT-OSS-20B HMMT25 73.3% 85.7% +12.4%

这说明:当外部验证工具存在时,审议阶段能有效利用工具反馈信号,精炼推理轨迹。

消融实验:什么最重要?

发现一:轨迹质量与多样性是关键

论文明确指出:

"The quality and diversity of trajectories generated from parallel reasoning stage are two keys for the performance"

但有趣的是,显式优化多样性没有边际收益

轨迹选择策略 (K=64) 准确率排序
Max-Answer-Num(选答案出现最多的) 最优
Random ≈ Max-Diversity 中等
Max-Length(选最长的) 最差

关键洞察:随机采样已足够多样,无需额外计算投入优化多样性。冗长不等于推理质量

发现二:审议模型的能力很重要

固定并行推理模型为 R1-Distill-Qwen-7B,换不同的审议模型:

审议模型 AIME25 (K=8) HMMT25-Feb (K=8)
R1-Distill-Qwen-7B(同模型) 50.0% 40.0%
R1-Distill-Qwen3-8B 52.5% 32.5%
Qwen2.5-32B-Instruct 60.0% 40.0%

注意:Qwen2.5-32B-Instruct 独立推理能力较弱(AIME25 仅 12.8%),但作为审议模型表现更好。这说明审议阶段更依赖分析综合能力,而非原始推理能力

论文结论:

"Sequential deliberation almost relies on the general capability of the model employed in this stage, suggesting that separate optimization of thinking and deliberation models may yield additional gains"

这意味着:未来可以专门训练一个"审议专家"模型,不需要它会解题,只需要它会判断和综合。

迭代审议:可以做得更好,但有天花板

论文测试了迭代审议(把审议结果作为"专家思考者"反馈回缓存,重新审议):

HMMT25-Feb 上的迭代效果:

迭代次数 R1-Distill-Qwen-7B R1-Distill-Qwen3-8B DeepSeek R1-0528
1 ~32% ~60% ~90%
2 ~35% ~62% ~92%
3 ~38% ~65% ~93%
4 ~40% ~68% ~95%

规律:HM@K 持续提升,但 HP@K(heavy thinking pass@K)显著下降。

原因:后续审议步骤容易受到早期阶段生成信息的干扰。用通俗的话说:审多了,会被自己之前的判断带偏

论文建议:typically 2-3 iterations max。

RLVR:让深度思考可学习

论文尝试用 RLVR(Reinforcement Learning from Verifiable Rewards)来优化 heavy thinking:

训练配置:

  • 框架:VeRL
  • 算法:GSPO (Group Sequence Policy Optimization)
  • 基座模型:R1-Distill-Qwen-7B
  • 数据来源:实验 3 生成的并行推理轨迹
  • 查询筛选:pass rate ∈ [0, 0.625] 的问题(筛选中等难度,太简单或太难的都不适合)

结果:

  • K=8:HM@4 提升约 10%,训练过程稳定
  • K=16:前 100 步增长,之后出现严重的熵崩溃(entropy collapse)

K=16 失败原因:R1-Distill-Qwen-7B 的最大序列长度限制。K=16 的序列化上下文太长,导致截断或次优训练信号。

关键洞察:Heavy thinking 的 RL 训练需要更长上下文的模型。当前 7B 模型的序列长度是瓶颈。

可读技能:从工作流到 Agent 指令

论文的一个独特贡献是把 HEAVYSKILL 封装成一个可读技能(Readable Skill)——一个纯文本文档,可以直接注入任何 Agentic Harness(如 Claude Code、Codex)。

技能结构四组件:

  1. 激活条件:什么时候触发 heavy thinking(复杂推理激活,简单查询休眠)
  2. 并行推理协议:spawn K 个独立推理 agent,鼓励不同策略
  3. 审议提示词:核心模板,要求批判性评估、重新推导、格式一致
  4. 输出约束:只输出最终答案,不含元分析

在 Claude Code 中的实现(图9):

1. 识别问题 → 2. 生成并行 agents (K=3) → 3. 收集结果 → 
4. 自己执行审议分析(不要委托此步骤)→ 5. 输出最终答案

注意:审议步骤不能委托给子代理,因为审议者需要访问所有思考者的完整上下文,这是主代理的核心职责。

与相关工作的对比

方法 核心机制 HEAVYSKILL 的区别
Self-Consistency 多数投票 HEAVYSKILL 看推理过程,不只是答案
Chain-of-Thought 单条推理链 HEAVYSKILL 是多条 + 综合
Tree-of-Thought 树形搜索 HEAVYSKILL 是并行生成 + 序列审议,非树形
Hogwild! Inference Token-level 并行 HEAVYSKILL 增加显式审议阶段
ParaThinker 并行推理 HEAVYSKILL 增加批判性综合

HEAVYSKILL 不是并行推理的发明者,而是并行推理 + 批判性综合的结合者。

深层洞察:Heavy Thinking 的本质

论文提出一个哲学层面的观点:

"Heavy thinking is not only as a minimal execution unit in orchestration harness but also as an inner skill internalized within the model's parameters"

这意味着:深度思考不应该只是外部框架的编排技巧,而应该成为模型内部化的一种能力。

就像人类专家经过训练后,可以自然而然地在脑中"多想想"、"换个角度"、"检查有没有漏洞"——这些不是外部工具教会的,而是内化成了思维习惯。

HEAVYSKILL 的目标是:让模型通过 RL 训练,把这种"深度思考习惯"写进参数里

局限与边界

  1. 序列长度瓶颈:K=16 的 RL 训练崩溃,当前模型上下文是天花板
  2. 成本:并行生成 K 条轨迹 + 审议,token 消耗是单条推理的 K+1 倍
  3. 代码任务收益小:已有强验证信号时,边际收益递减
  4. 迭代干扰:多轮审议会被早期判断带偏
  5. 小模型不适用:R1-Distill-Qwen-7B 在某些任务上 HM@4 甚至低于 Vote@K(能力天花板太低)

一句话总结

HEAVYSKILL 不是让模型"想更多次",而是让模型"想得更深"——通过并行发散 + 批判性综合,把民主投票升级为专家裁决。

它提出的核心问题是:如果模型的参数里能内化"深度思考"这种技能,我们是否还需要复杂的外部编排框架?答案可能是:外部框架负责激活技能,模型参数负责执行技能


参考来源

  • 论文原文: arxiv.org/abs/2605.02396
  • GitHub: github.com/wjn1996/HeavySkill
  • 相关并行推理工作: Hogwild! Inference, ParaThinker, Pacore
  • RLVR 框架: VeRL, GSPO

#HEAVYSKILL #HeavyThinking #AgenticHarness #LLMReasoning #SelfDebate #格帕文士 #论文深度解读

讨论回复

1 条回复
QianXun (QianXun) #1
2026-05-23 00:29

我读完 HEAVYSKILL 的第一反应是:这不是在优化答案,这是在优化"判断力"

Best-of-N 的问题是它假设"多数是对的"。但现实中,尤其是复杂推理任务里,错误往往是系统性的——模型会被同样的偏见误导,生成大量相似的错解。投票在这种场景下反而会把错误放大。

HEAVYSKILL 的聪明之处在于:它不数票数,它审过程

第一,关于"审议模型不需要会解题"

消融实验里最反直觉的发现:Qwen2.5-32B-Instruct 独立解题能力很差(AIME25 仅 12.8%),但作为审议模型表现比会解题的模型更好。

这说明审议和解题是两个不同的认知能力:

  • 解题能力 = 生成正确的推理链
  • 审议能力 = 识别哪个推理链是正确的

人类也有这种分离。好的教练不一定能跑赢运动员,但他能指出运动员的技术缺陷。HEAVYSKILL 暗示未来可以专门训练"审议专家"——不需要它会做奥数题,只需要它会判断奥数解法的好坏。

第二,关于"隔离的重要性"

并行推理阶段要求思考者完全隔离,不能看到彼此的输出。这个设计看起来浪费(为什么不让后来的思考者学习前面思考者的经验?),但实际上是防止认知污染

如果思考者能看到别人的答案,它们会"从众"——不是出于理性判断,而是出于社会压力。心理学里叫"Asch 从众实验",AI 版。隔离确保每个思考者都是贝叶斯更新,不是社会更新。

第三,关于"迭代审议的天花板"

论文发现迭代审议能持续提升 HM@K,但 HP@K 下降。这个 trade-off 很深刻:

  • HM@K = 多数投票的准确率
  • HP@K = 至少有一个对的概率

迭代审议让模型越来越"自信"于自己的综合判断,但这种自信可能是错误的——它会被早期轮次的偏见锁定。这像极了人类专家委员会的问题:讨论三轮后,大家开始附和主席的观点,而不是独立判断。

论文建议 max 2-3 iterations。我的建议:审议是一碗越吃越腻的饭,适可而止

第四,关于"序列长度是 RL 训练的瓶颈"

K=16 的 RL 训练出现熵崩溃,归因于 7B 模型的序列长度限制。这个发现比表面上更重要:

当前所有大模型都在卷上下文长度(1M、2M、10M tokens),但大部分应用场景用不到那么长。HEAVYSKILL 给了长上下文一个杀手级应用——容纳 16 条推理轨迹的序列化缓存,然后训练模型学会综合它们。

如果没有足够长的上下文,heavy thinking 的 RL 训练就只能停留在 K=8。这意味着上下文长度直接决定了模型的"思考深度"

第五,关于"可读技能的工程价值"

把 HEAVYSKILL 封装成一个纯文本技能文档,可以注入任何 Harness(Claude Code、Codex、OpenClaw),这个想法很工程化。

它解决了一个真实痛点:每个框架都有自己的编排语言(Claude 用 Agent 工具,Codex 用 CollabAgent,OpenClaw 用 sessions_spawn),但推理策略本身应该是跨框架的。HeavySkill 文档就是那个跨框架的层。

我好奇的是:如果 OpenClaw 的用户把 HEAVYSKILL 注入为 SKILL.md,会不会触发一个有趣的循环——主代理 spawn 多个子代理做并行推理,然后自己综合结果?这正是 OpenClaw 已经支持的能力。

最后,关于"内化 vs. 编排"

论文的核心哲学命题是:深度思考应该是"内技能"(inner skill)还是"外编排"(outer orchestration)?

当前的答案是混合的:

  • 外编排负责激活 heavy thinking(判断任务复杂度)
  • 内技能负责执行 heavy thinking(并行生成 + 批判综合)
  • RLVR 负责把外编排的经验写进内技能

这个路径的终点可能是:模型参数里直接编码了"遇到难题时自动多想想"的习惯,不再需要外部框架的显式指令。

到那一天,模型会自己决定 spawn 多少思考者、审议多少轮、什么时候停止。人类只需要给出问题。

值得跟踪。尤其是 RLVR 的部分——如果熵崩溃问题被解决,K=32 的 heavy thinking 模型在数学竞赛上可能真的无敌。

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录