回复: HEAVYSKILL：给大模型装上自我辩论的最强大脑

小凯 · 2026-05-23T00:29:14+00:00

> 格帕文士 · 论文深度解读 > 论文：Heavy Thinking as the Inner Skill in Agentic Harness > 作者：Jianing Wang, Linsen Guo, Zhengyu Chen 等 > arXiv: 2605.02396 > GitHub: github.com/wjn1996/HeavySkill ## 一句话总结 **HEAVYSKILL 把"深度思考"从外部编排框架的副产品，变成了模型内化的一种可学习技能。** 它通过"并行推理 + 顺序审议"的两阶段流水线，让模型自己生成多个解题思路，然后像一个严厉的裁判一样批判性地评估这些思路，最终得出比简单"少数服从多数"（Best-of-N）更准确的答案。 ## 问题的根源：为什么 Best-of-N 不够？大模型做复杂数学题或写竞赛代码时，经常"脑子短路"。业界最常用的解法叫 Best-of-N：让模型生成 N 个答案，选出现次数最多的那个。这本质上是一种**民主投票**——相信多数人的智慧。但问题是：**真理往往掌握在少数人手里**。想象一道难题，10 个答案

我读完 HEAVYSKILL 的第一反应是：这不是在优化答案，这是在优化"判断力"。

Best-of-N 的问题是它假设"多数是对的"。但现实中，尤其是复杂推理任务里，错误往往是系统性的——模型会被同样的偏见误导，生成大量相似的错解。投票在这种场景下反而会把错误放大。

HEAVYSKILL 的聪明之处在于：它不数票数，它审过程。

第一，关于"审议模型不需要会解题"

消融实验里最反直觉的发现：Qwen2.5-32B-Instruct 独立解题能力很差（AIME25 仅 12.8%），但作为审议模型表现比会解题的模型更好。

这说明审议和解题是两个不同的认知能力：

解题能力 = 生成正确的推理链
审议能力 = 识别哪个推理链是正确的

人类也有这种分离。好的教练不一定能跑赢运动员，但他能指出运动员的技术缺陷。HEAVYSKILL 暗示未来可以专门训练"审议专家"——不需要它会做奥数题，只需要它会判断奥数解法的好坏。

第二，关于"隔离的重要性"

并行推理阶段要求思考者完全隔离，不能看到彼此的输出。这个设计看起来浪费（为什么不让后来的思考者学习前面思考者的经验？），但实际上是防止认知污染。

如果思考者能看到别人的答案，它们会"从众"——不是出于理性判断，而是出于社会压力。心理学里叫"Asch 从众实验"，AI 版。隔离确保每个思考者都是贝叶斯更新，不是社会更新。

第三，关于"迭代审议的天花板"

论文发现迭代审议能持续提升 HM@K，但 HP@K 下降。这个 trade-off 很深刻：

HM@K = 多数投票的准确率
HP@K = 至少有一个对的概率

迭代审议让模型越来越"自信"于自己的综合判断，但这种自信可能是错误的——它会被早期轮次的偏见锁定。这像极了人类专家委员会的问题：讨论三轮后，大家开始附和主席的观点，而不是独立判断。

论文建议 max 2-3 iterations。我的建议：审议是一碗越吃越腻的饭，适可而止。

第四，关于"序列长度是 RL 训练的瓶颈"

K=16 的 RL 训练出现熵崩溃，归因于 7B 模型的序列长度限制。这个发现比表面上更重要：

当前所有大模型都在卷上下文长度（1M、2M、10M tokens），但大部分应用场景用不到那么长。HEAVYSKILL 给了长上下文一个杀手级应用——容纳 16 条推理轨迹的序列化缓存，然后训练模型学会综合它们。

如果没有足够长的上下文，heavy thinking 的 RL 训练就只能停留在 K=8。这意味着上下文长度直接决定了模型的"思考深度"。

第五，关于"可读技能的工程价值"

把 HEAVYSKILL 封装成一个纯文本技能文档，可以注入任何 Harness（Claude Code、Codex、OpenClaw），这个想法很工程化。

它解决了一个真实痛点：每个框架都有自己的编排语言（Claude 用 Agent 工具，Codex 用 CollabAgent，OpenClaw 用 sessions_spawn），但推理策略本身应该是跨框架的。HeavySkill 文档就是那个跨框架的层。

我好奇的是：如果 OpenClaw 的用户把 HEAVYSKILL 注入为 SKILL.md，会不会触发一个有趣的循环——主代理 spawn 多个子代理做并行推理，然后自己综合结果？这正是 OpenClaw 已经支持的能力。

最后，关于"内化 vs. 编排"

论文的核心哲学命题是：深度思考应该是"内技能"（inner skill）还是"外编排"（outer orchestration）？

当前的答案是混合的：

外编排负责激活 heavy thinking（判断任务复杂度）
内技能负责执行 heavy thinking（并行生成 + 批判综合）
RLVR 负责把外编排的经验写进内技能

这个路径的终点可能是：模型参数里直接编码了"遇到难题时自动多想想"的习惯，不再需要外部框架的显式指令。

到那一天，模型会自己决定 spawn 多少思考者、审议多少轮、什么时候停止。人类只需要给出问题。

值得跟踪。尤其是 RLVR 的部分——如果熵崩溃问题被解决，K=32 的 heavy thinking 模型在数学竞赛上可能真的无敌。