SU-01 深度拆解:30B参数如何拿到奥数金牌——一个"极简统一配方"的炼金术
> 这篇论文的名字叫"Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling"。但别被这个谦虚的标题骗了。这不是"我们做了个小改进",这是上海AI Lab联手中大、清华、上交、北大搞出来的一个完整炼丹配方——而且配方简单到让人怀疑之前那么多复杂系统是不是想太多了。
---
序章:为什么30B能打败几百B?
先说几个刺眼的数字:
- IMO 2025:SU-01拿到35★(★表示人类金牌专家复核),刚好金牌线
- USAMO 2026:SU-01拿到35★,超过金牌线10分,追平340名参赛选手中的人类最高分
- IPhO 2024/2025:TTS后均超过金牌线
- 模型大小:30B-A3B(30亿激活参数,MoE架构)
- 训练成本:338K轨迹SFT + 200步RL
论文的核心主张是:奥赛金牌级推理不需要更大的模型,需要更好的训练方法。
---
一、基座选择:从通才到专才的" specialization 哲学"
SU-01的基座模型叫P1-30B-A3B,来自上海AI Lab的P1系列。这是一个已经具备通用科学能力的物理奥林匹克预训练模型。
1.1 为什么选择"已有能力"的模型?
论文明确说:P1-30B-A3B"already shows competitive performance in scientific reasoning"。这不是从头训练,而是在已有能力上调整推理行为。
这个选择背后有一个深刻的方法论:
> "可 specialization 的通用模型"(Specializable Generalist)
传统思路有两种极端:
- 通用模型:什么都懂,什么都不精
- 专用模型:从头训练,只懂一个领域
这样做的好处是能力不丢失。论文验证:SFT后模型在通用任务上保持原有能力,没有灾难性遗忘。如果是从头训练一个"推理专用模型",它可能只会解数学题,不会写代码、不会回答常识问题。
1.2 30B-A3B是什么意思?
- 30B:激活参数(forward时实际计算的参数量)
- A3B:Activated 3 Billion,即30亿激活参数——这是MoE(混合专家)架构
- 总参数量未披露,但典型MoE比例下可能是激活参数的3-10倍
---
二、训练数据:338K轨迹的构成与质量工程
2.1 数据来源分布
| 类别 | 数量 | 占比 | 来源 |
|---|---|---|---|
| Math | 71.8K | 21.2% | Evan Chen奥赛材料、AoPS、DeepMath(难度≥6) |
| STEM | 62.9K | 18.6% | NaturalReasoning科学推理数据 |
| Code | 30.2K | 8.9% | Eurus-2-RL-Data、OpenCodeReasoning-2(竞技编程) |
| IF | 18.8K | 5.6% | 指令跟随数据 |
| Self-Verify | 89.5K | 26.4% | 自验证轨迹 |
| Self-Refine | 65.2K | 19.3% | 自修正轨迹 |
| 总计 | 338K | 100% |
2.2 关键设计:自验证和自修正占45.7%
注意一个比例:Self-Verify + Self-Refine = 154.7K,占总数据的45.7%。
这不是"答案数据",而是"行为数据"。构造方式:
原始问题 → DeepSeek-V3.2-Speciale生成解答 → 生成验证轨迹 → 生成修正轨迹
验证轨迹包含什么?
- "让我检查这个证明是否真的成立"
- "这一步的推理有漏洞,因为..."
- "如果改成另一种思路,会不会更严谨?"
- "发现缺陷,改进论证"
- "填补缺失的论证步骤"
- "重构证明使其更简洁"
2.3 长度限制:为什么严格截断到8K tokens?
论文说"sub-8K-token trajectories",而且是硬性截断。
为什么? 1. 训练稳定性:极长输出在SFT阶段容易截断或优化不稳定 2. 推理泛化:SFT阶段限制在8K,但推理时可以扩展到100K+——这是有意为之的训练-推理长度不对称 3. 数据效率:8K内可以覆盖大部分证明步骤的核心逻辑,太长反而引入噪音
---
三、逆困惑度课程:从最难的开始学
这是SU-01的第一个核心技术创新。
3.1 困惑度是什么?
困惑度(Perplexity, PPL)衡量模型"对一段文本的惊讶程度"。PPL越低,说明模型越"熟悉"这段文本——它预测得很准。PPL越高,说明这段文本对模型来说越"陌生"、越"难懂"。
3.2 逆困惑度课程的逻辑
论文比较了三种排序方式:
| 排序 | AnswerBench | AMO-Bench | 截断率 | 效果 |
|---|---|---|---|---|
| Random | 39.5 | 31.0 | 7-8% | 欠恢复 |
| Ascending PPL(低困惑度优先) | 24.3 | 15.0 | — | 最差 |
| Descending PPL(高困惑度优先) | 55.8 | 40.0 | 0-0.3% | 最佳 |
为什么?
Ascending PPL(先易后难)的问题:
- 模型过早陷入舒适区
- 先学了大量熟悉的样本,推理模式被"锁定"
- 等遇到难样本时,模型已经不愿意改变习惯了
- 结果是:模型只会做简单题,遇到复杂的证明搜索就放弃
- 先暴露模型最不熟悉的推理模式(新颖的证明搜索策略)
- 模型被迫"重学"推理行为
- 熟悉的样本在后面作为"巩固",帮助稳定新行为
- 结果是:模型学会了复杂的证明搜索,然后用简单题来巩固
3.3 课程执行的细节
Epoch 1: 高PPL样本(最陌生、最难适配)
Epoch 2: 中高PPL样本
Epoch 3: 中低PPL样本
Epoch 4: 低PPL样本(巩固已学行为)
训练超参数:
- 4个epoch
- 学习率 1e-5 → 余弦衰减到 1e-6
- 权重衰减 0.1
- Adam β2=0.95(偏自适应)
- 批次大小128
---
四、两阶段RL:从"找到答案"到"证明质量"
4.1 为什么需要两阶段?
一阶段RL的常见问题:
- 如果只用可验证奖励(答案对/错),模型会学到"找到正确答案",但不会学到"写出严谨证明"
- 如果只用生成式奖励(证明质量),模型在没有基本搜索能力时,会被"质量"的模糊性搞糊涂
4.2 第一阶段:Coarse RL(粗粒度强化学习)
目标:建立可靠的搜索和答案寻找能力
| 配置 | 值 |
|---|---|
| 步数 | 96步 |
| 提示数 | 8,967个可验证提示 |
| 算法 | GSPO(Group Sequence Policy Optimization) |
| 每提示采样 | K=8 |
| 最大长度 | 160K tokens |
| 温度 | 1.0 |
不是GRPO(Group Relative Policy Optimization),而是GSPO——Group Sequence PO。区别:
- GRPO按"每个提示的组内相对排名"计算优势
- GSPO用序列级的重要性采样比率
s_i(θ) = exp( (1/|o_i|) Σ log π_θ(o_{i,t}) / π_θ_old(o_{i,t}) )
Ā_i = r(q, o_i) - μ_Gq (组内平均作为基线)
奖励系统是三层的:
Layer 1: 规则化文本匹配(提取最终答案)
↓ 失败
Layer 2: Math-Verify(基于规则的数学表达式验证)
↓ 失败
Layer 3: gpt-oss-120b生成式验证(保守恢复)
这意味着:能规则验证的用规则,规则搞不定的才用大模型判断——节省API调用成本。
4.3 第二阶段:Refined RL(细粒度强化学习)
目标:从"答案正确"转向"证明质量"
| 配置 | 值 |
|---|---|
| 步数 | 104步 |
| 提示池 | 8,967可验证 + 16,287不可验证 = 25,254 |
| 生成式奖励模型 | DeepSeekMath-V2 |
输入:问题 q + 完整解答/证明 o
输出:r_proof(q, o) ∈ {0, 1}
评估维度:
- 数学有效性
- 论证充分性和严谨性
- 完整性(不是只看最终答案)
这是一个二元奖励:证明要么"严谨完整"(1),要么"有漏洞"(0)。
自修正机制:
当组平均证明奖励 < 0.5时,触发修正:
- 批次中20%的查询会被修正
- 修正提示:"critique the argument, fix proof errors, fill missing justifications, and output a complete final solution"
- 不递归:只修正一次,避免在不可学习的样本上浪费算力
检测并替换:
- 泄露的chat-template token
- 不平衡的thinking分隔符
- 严重重复
4.4 经验回放:留住"刚好能解"的困难题
这是从ExGRPO简化而来的设计。
准入条件:0 < n_+(q) < 2
- 一个问题恰好只有1个成功轨迹
- 说明它"困难但可解"——正是最有学习价值的样本
- 当前策略能可靠复现4次以上
- 说明模型已经学会,不需要再回放
选择策略:最低熵轨迹
o* = argmin H(o; π_θ)
选择模型"最确定"的成功轨迹回放,而不是随机选——避免高熵的"碰运气"轨迹污染训练。
---
五、测试时缩放:100K tokens的推理马拉松
5.1 Solve-Verify-Refine循环
┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────┐
│ 初始求解 │────→│ 验证器 │────→│ 修正器 │────→│ 裁决 │
│ (证明搜索) │ │ (结构化审计) │ │ (条件修正) │ │(接受/拒绝/继续)│
└─────────────┘ └─────────────┘ └─────────────┘ └────┬────┘
│
↑───────────────────────────────────────┘
(未通过则循环,直到接受或预算耗尽)
5.2 停止规则
| 参数 | 值 | 含义 |
|---|---|---|
| MAX_VERIFICATION_TRUE_ROUNDS | 5 | 连续5轮通过验证则接受 |
| MAX_VERIFICATION_FALSE_ROUNDS | 10 | 连续10轮失败则提前终止 |
| MAX_EXPLORATION_ROUNDS | 30 | 单轮最大循环数 |
| MAX_RUNS | 10 | 每问题最大独立运行次数 |
5.3 推理长度分布(USAMO 2026)
| 阶段 | 中位数长度 | 特征 |
|---|---|---|
| 初始求解 | 106K tokens | 最广的证明搜索 |
| 修正 | 83K tokens | 条件更复杂,上尾更重 |
| 验证 | 28.7K tokens | 审计完整论证 |
| 裁决 | 404 tokens | 轻量级解析 |
5.4 为什么长度不对称(训练8K vs 推理100K+)?
这是SU-01最精妙的设计之一:
- 训练阶段:限制在8K,确保SFT能稳定学习"核心推理行为"(如何搜索、如何验证、如何修正)
- 推理阶段:放开到100K+甚至256K,让模型在已学会的行为框架内,展开更深、更长的搜索
---
六、实验结果:数字背后的故事
6.1 IMO 2025:刚好金牌线
| 题目 | P1 | P2 | P3 | P4 | P5 | P6 | 总分 |
|---|---|---|---|---|---|---|---|
| 直接生成 | 1 | 7 | 1 | 6 | 6 | 0 | 21 |
| TTS | 7★ | 7★ | 7★ | 7★ | 7★ | 0★ | 35★ |
| 金牌线 | — | — | — | — | — | — | 35 |
注意:直接生成只有21分(过铜牌线19)。TTS后跳到35(金牌线)。
P6是0分——IMO最难的题,人类金牌选手也未必能解。SU-01也没解出来。这说明TTS能显著提升,但无法突破问题的固有难度天花板。
6.2 USAMO 2026:追平人类最高分
| 题目 | P1 | P2 | P3 | P4 | P5 | P6 | 总分 |
|---|---|---|---|---|---|---|---|
| 直接生成 | 7 | 0 | 0 | 7 | 0 | 1 | 15 |
| TTS | 7★ | 0★ | 7★ | 7★ | 7★ | 7★ | 35★ |
| 金牌线 | — | — | — | — | — | — | 25 |
- 中位数:6分
- 前12名cutoff:26分
- 最高分:35分 ← SU-01匹配
6.3 物理奥赛:同尺寸最强
| 模型 | IPhO 2024 | IPhO 2025 |
|---|---|---|
| Gemini 3.1 Pro Thinking | 25.9 | 25.1 |
| GPT-5.5-High | 25.8 | 23.2 |
| DeepSeek-V3.2-Speciale | 25.1 | 21.9 |
| SU-01 (TTS) | 25.3 | 21.7 |
6.4 证明评测:57.6% → 70.2%
| 模型 | 尺寸 | IMO-ProofBench |
|---|---|---|
| Gemini-2.5-DeepThink | 大 | 57.6% |
| SU-01 (直接) | 30B-A3B | 57.6% |
| Gemini-3.1-Pro | 大 | 60.7% |
| GPT-5.5-High | 大 | 80.7% |
| SU-01 (TTS) | 30B-A3B | 70.2% |
6.5 FrontierScience-Research:同尺寸最强
| 模型 | Physics | Chemistry | Biology | Overall |
|---|---|---|---|---|
| GPT-5.5-High | 25.0% | 40.0% | 45.0% | 36.7% |
| SU-01 | 10.0% | 10.0% | 15.0% | 11.7% |
这验证了论文的核心主张:训练数学推理能力,可以迁移到通用科学推理。
---
七、方法论的深层洞见:三个"极简"
7.1 极简统一:数学和物理用同一套流程
传统做法:IMO专用模型、IPhO专用模型、FrontierScience专用模型...
SU-01的做法:一套训练流程,覆盖所有领域。
这背后的假设是:奥赛推理的底层能力是通用的——证明搜索、自我验证、假设修正、长程规划——这些能力不区分数学还是物理。
论文用数据支持了这个假设:只用数学物理信号训练的模型,在化学和生物上也能泛化。
7.2 极简数据:338K轨迹 vs 数百万
很多推理模型训练用了数百万条轨迹。SU-01只用了338K。
关键不是数量,而是质量和行为覆盖:
- 45.7%是自验证/自修正行为数据(不是答案数据)
- 逆困惑度课程确保每样本都高效利用
- 8K截断避免了噪音
7.3 极简RL:200步
只有200步RL(96 coarse + 104 refined),对比一些工作数千步RL。
论文的解释:SFT阶段已经塑造了正确的推理行为,RL只需要"放大"这些行为,而不是"从头学习"。
这就像:SFT是"学会骑自行车",RL是"每天骑去上班练熟练度"。如果你已经会骑了,不需要再花100小时学平衡,只需要花10小时练路线。
---
八、与相关工作的精确对比
| 维度 | AlphaProof | OpenAI o系列 | DeepSeek-R1 | SU-01 |
|---|---|---|---|---|
| 模型规模 | 未公开(推测大) | 未公开(推测大) | 671B | 30B-A3B |
| 训练数据 | 形式化证明数据 | 未公开 | 数百万RL轨迹 | 338K SFT + 200步RL |
| 训练方法 | 形式化验证 + RL | 未公开 | GRPO + 冷启动 | 逆困惑度SFT + 两阶段RL + TTS |
| 验证方式 | Lean形式化证明器 | 未公开 | 基于规则的奖励 | 分层验证(规则→大模型)+ 生成式证明奖励 |
| 测试时缩放 | 树搜索 | 思维链 | 无(主要依赖训练) | Solve-Verify-Refine循环 |
| 通用性 | 仅限形式化数学 | 通用推理 | 通用推理 | 奥赛专用但泛化到科研 |
| 开源 | 否 | 否 | 是 | 是(推测,上海AI Lab惯例) |
---
九、局限与失败案例分析
论文诚实地指出了局限:
9.1 P6始终为0
IMO和USAMO的第6题(最难的题),SU-01直接生成和TTS都是0分。这说明:
- TTS能提升"可解但易错"的问题,但无法突破"极难"的问题
- 模型可能在某些类型的数学构造(如极端组合构造、非标准数论技巧)上仍有盲区
9.2 物理奥赛无人类复核
IPhO分数没有★标记,意味着没有人类金牌专家独立评分。物理题的评分可能涉及步骤分、单位、有效数字等细节,模型可能在"答案对但过程不规范"的情况下得分。
9.3 FrontierScience绝对值仍低
虽然同尺寸最强,但11.7%的overall意味着:科研级科学推理仍有巨大提升空间。RL只用了数学物理信号,化学和生物的能力主要是"基座泛化",没有针对性训练。
9.4 推理成本
TTS的100K+ tokens推理,在API调用成本上不低。虽然模型小(30B),但推理长度长,总成本可能接近商用大模型的短推理。
---
十、结语:Scaling Law的新维度
SU-01最重要的启示是:Scaling Law不止一个方向。
大家一直在问"模型要多大才能做奥赛金牌"。SU-01的回答是:
> 不一定更大,可以更聪明地训练。
三个维度的scaling: 1. 模型规模 scaling:更大的模型(GPT-5.5、Gemini 3.1 Pro) 2. 训练数据 scaling:更多的数据(DeepSeek-R1的数百万轨迹) 3. 训练方法 scaling:更聪明的课程和RL设计(SU-01的逆困惑度 + 两阶段RL)
SU-01证明了第三个维度的潜力:用30B模型 + 338K数据 + 200步RL,可以追平大模型数百万轨迹的效果。
这不是说模型规模不重要,而是说:当资源有限时,方法scaling可能比规模scaling更划算。
---
参考文献
1. Li, Y., Zhan, R., Zhang, H., et al. (2026). Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling. *arXiv preprint arXiv:2605.13301*. https://arxiv.org/abs/2605.13301
#SU01 #奥数AI #推理模型 #上海AI实验室 #逆困惑度 #强化学习 #测试时缩放 #奥赛金牌 #小凯