SU-01 深度拆解：30B参数如何拿到奥数金牌——一个"极简统一配方"的炼金术

> 这篇论文的名字叫"Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling"。但别被这个谦虚的标题骗了。这不是"我们做了个小改进"，这是上海AI Lab联手中大、清华、上交、北大搞出来的一个完整炼丹配方——而且配方简单到让人怀疑之前那么多复杂系统是不是想太多了。

---

序章：为什么30B能打败几百B？

先说几个刺眼的数字：

IMO 2025：SU-01拿到35★（★表示人类金牌专家复核），刚好金牌线
USAMO 2026：SU-01拿到35★，超过金牌线10分，追平340名参赛选手中的人类最高分
IPhO 2024/2025：TTS后均超过金牌线
模型大小：30B-A3B（30亿激活参数，MoE架构）
训练成本：338K轨迹SFT + 200步RL

对比：Gemini 3.1 Pro Thinking、GPT-5.5-High这些商用大模型，参数量级可能是10倍以上，但SU-01在物理奥赛上追平了它们。

论文的核心主张是：奥赛金牌级推理不需要更大的模型，需要更好的训练方法。

---

一、基座选择：从通才到专才的" specialization 哲学"

SU-01的基座模型叫P1-30B-A3B，来自上海AI Lab的P1系列。这是一个已经具备通用科学能力的物理奥林匹克预训练模型。

1.1 为什么选择"已有能力"的模型？

论文明确说：P1-30B-A3B"already shows competitive performance in scientific reasoning"。这不是从头训练，而是在已有能力上调整推理行为。

这个选择背后有一个深刻的方法论：

> "可 specialization 的通用模型"（Specializable Generalist）

传统思路有两种极端：

通用模型：什么都懂，什么都不精
专用模型：从头训练，只懂一个领域

SU-01走的是中间路线：先有一个通用科学基座，然后用小数据、轻量训练，把它的"行为模式"从"快速回答"改造成"严谨证明搜索"。

这样做的好处是能力不丢失。论文验证：SFT后模型在通用任务上保持原有能力，没有灾难性遗忘。如果是从头训练一个"推理专用模型"，它可能只会解数学题，不会写代码、不会回答常识问题。

1.2 30B-A3B是什么意思？

30B：激活参数（forward时实际计算的参数量）
A3B：Activated 3 Billion，即30亿激活参数——这是MoE（混合专家）架构
总参数量未披露，但典型MoE比例下可能是激活参数的3-10倍

MoE在这里有两个好处： 1. 推理成本可控：每次只激活部分专家，30B的推理成本接近30B dense模型 2. Coarse RL阶段稳定性：论文特别提到"冻结MoE路由器"——确保经验回放时专家路由决策稳定，否则同一个问题在不同step可能走不同专家，奖励信号就不一致了

---

二、训练数据：338K轨迹的构成与质量工程

2.1 数据来源分布

类别	数量	占比	来源
Math	71.8K	21.2%	Evan Chen奥赛材料、AoPS、DeepMath（难度≥6）
STEM	62.9K	18.6%	NaturalReasoning科学推理数据
Code	30.2K	8.9%	Eurus-2-RL-Data、OpenCodeReasoning-2（竞技编程）
IF	18.8K	5.6%	指令跟随数据
Self-Verify	89.5K	26.4%	自验证轨迹
Self-Refine	65.2K	19.3%	自修正轨迹
总计	338K	100%

2.2 关键设计：自验证和自修正占45.7%

注意一个比例：Self-Verify + Self-Refine = 154.7K，占总数据的45.7%。

这不是"答案数据"，而是"行为数据"。构造方式：

原始问题 → DeepSeek-V3.2-Speciale生成解答 → 生成验证轨迹 → 生成修正轨迹

验证轨迹包含什么？

"让我检查这个证明是否真的成立"
"这一步的推理有漏洞，因为..."
"如果改成另一种思路，会不会更严谨？"

修正轨迹包含什么？

"发现缺陷，改进论证"
"填补缺失的论证步骤"
"重构证明使其更简洁"

这些数据的核心目的不是"教模型答案"，而是教模型"如何检查自己"。

2.3 长度限制：为什么严格截断到8K tokens？

论文说"sub-8K-token trajectories"，而且是硬性截断。

为什么？ 1. 训练稳定性：极长输出在SFT阶段容易截断或优化不稳定 2. 推理泛化：SFT阶段限制在8K，但推理时可以扩展到100K+——这是有意为之的训练-推理长度不对称 3. 数据效率：8K内可以覆盖大部分证明步骤的核心逻辑，太长反而引入噪音

---

三、逆困惑度课程：从最难的开始学

这是SU-01的第一个核心技术创新。

3.1 困惑度是什么？

困惑度（Perplexity, PPL）衡量模型"对一段文本的惊讶程度"。PPL越低，说明模型越"熟悉"这段文本——它预测得很准。PPL越高，说明这段文本对模型来说越"陌生"、越"难懂"。

3.2 逆困惑度课程的逻辑

论文比较了三种排序方式：

排序	AnswerBench	AMO-Bench	截断率	效果
Random	39.5	31.0	7-8%	欠恢复
Ascending PPL（低困惑度优先）	24.3	15.0	—	最差
Descending PPL（高困惑度优先）	55.8	40.0	0-0.3%	最佳

结果反直觉：先学"容易的"反而最差。先学"难的"反而最好。

为什么？

Ascending PPL（先易后难）的问题：

模型过早陷入舒适区
先学了大量熟悉的样本，推理模式被"锁定"
等遇到难样本时，模型已经不愿意改变习惯了
结果是：模型只会做简单题，遇到复杂的证明搜索就放弃

Descending PPL（先难后易）的优势：

先暴露模型最不熟悉的推理模式（新颖的证明搜索策略）
模型被迫"重学"推理行为
熟悉的样本在后面作为"巩固"，帮助稳定新行为
结果是：模型学会了复杂的证明搜索，然后用简单题来巩固

这就像学钢琴：先练最难的曲子建立正确手型，再练简单的曲子巩固。

3.3 课程执行的细节

Epoch 1: 高PPL样本（最陌生、最难适配）
Epoch 2: 中高PPL样本
Epoch 3: 中低PPL样本
Epoch 4: 低PPL样本（巩固已学行为）

训练超参数：

4个epoch
学习率 1e-5 → 余弦衰减到 1e-6
权重衰减 0.1
Adam β2=0.95（偏自适应）
批次大小128

关键指标：验证截断率 < 5%表示模型已适应目标推理风格。Descending PPL的截断率仅0-0.3%，说明模型几乎不需要被截断，学得干净利落。

---

四、两阶段RL：从"找到答案"到"证明质量"

4.1 为什么需要两阶段？

一阶段RL的常见问题：

如果只用可验证奖励（答案对/错），模型会学到"找到正确答案"，但不会学到"写出严谨证明"
如果只用生成式奖励（证明质量），模型在没有基本搜索能力时，会被"质量"的模糊性搞糊涂

SU-01的解决方案：分而治之

4.2 第一阶段：Coarse RL（粗粒度强化学习）

目标：建立可靠的搜索和答案寻找能力

配置	值
步数	96步
提示数	8,967个可验证提示
算法	GSPO（Group Sequence Policy Optimization）
每提示采样	K=8
最大长度	160K tokens
温度	1.0

GSPO的核心机制：

不是GRPO（Group Relative Policy Optimization），而是GSPO——Group Sequence PO。区别：

GRPO按"每个提示的组内相对排名"计算优势
GSPO用序列级的重要性采样比率

s_i(θ) = exp( (1/|o_i|) Σ log π_θ(o_{i,t}) / π_θ_old(o_{i,t}) )

Ā_i = r(q, o_i) - μ_Gq  （组内平均作为基线）

奖励系统是三层的：

Layer 1: 规则化文本匹配（提取最终答案）
    ↓ 失败
Layer 2: Math-Verify（基于规则的数学表达式验证）
    ↓ 失败
Layer 3: gpt-oss-120b生成式验证（保守恢复）

这意味着：能规则验证的用规则，规则搞不定的才用大模型判断——节省API调用成本。

4.3 第二阶段：Refined RL（细粒度强化学习）

目标：从"答案正确"转向"证明质量"

配置	值
步数	104步
提示池	8,967可验证 + 16,287不可验证 = 25,254
生成式奖励模型	DeepSeekMath-V2

生成式证明奖励：

输入：问题 q + 完整解答/证明 o
输出：r_proof(q, o) ∈ {0, 1}

评估维度：
- 数学有效性
- 论证充分性和严谨性
- 完整性（不是只看最终答案）

这是一个二元奖励：证明要么"严谨完整"（1），要么"有漏洞"（0）。

自修正机制：

当组平均证明奖励 < 0.5时，触发修正：

批次中20%的查询会被修正
修正提示："critique the argument, fix proof errors, fill missing justifications, and output a complete final solution"
不递归：只修正一次，避免在不可学习的样本上浪费算力

反黑客（Anti-Hack）：

检测并替换：

泄露的chat-template token
不平衡的thinking分隔符
严重重复

这是防止模型学到"利用格式漏洞骗取奖励"的trick。之前很多RL工作都栽在这个坑上。

4.4 经验回放：留住"刚好能解"的困难题

这是从ExGRPO简化而来的设计。

准入条件：0 < n_+(q) < 2

一个问题恰好只有1个成功轨迹
说明它"困难但可解"——正是最有学习价值的样本

退役条件：n_+(q) ≥ 4

当前策略能可靠复现4次以上
说明模型已经学会，不需要再回放

回放比例：25%

选择策略：最低熵轨迹

o* = argmin H(o; π_θ)

选择模型"最确定"的成功轨迹回放，而不是随机选——避免高熵的"碰运气"轨迹污染训练。

---

五、测试时缩放：100K tokens的推理马拉松

5.1 Solve-Verify-Refine循环

┌─────────────┐     ┌─────────────┐     ┌─────────────┐     ┌─────────┐
│   初始求解   │────→│   验证器     │────→│   修正器     │────→│  裁决    │
│  (证明搜索)   │     │ (结构化审计)  │     │ (条件修正)   │     │(接受/拒绝/继续)│
└─────────────┘     └─────────────┘     └─────────────┘     └────┬────┘
                                                                    │
                              ↑───────────────────────────────────────┘
                              (未通过则循环，直到接受或预算耗尽)

5.2 停止规则

参数	值	含义
MAX_VERIFICATION_TRUE_ROUNDS	5	连续5轮通过验证则接受
MAX_VERIFICATION_FALSE_ROUNDS	10	连续10轮失败则提前终止
MAX_EXPLORATION_ROUNDS	30	单轮最大循环数
MAX_RUNS	10	每问题最大独立运行次数

5.3 推理长度分布（USAMO 2026）

阶段	中位数长度	特征
初始求解	106K tokens	最广的证明搜索
修正	83K tokens	条件更复杂，上尾更重
验证	28.7K tokens	审计完整论证
裁决	404 tokens	轻量级解析

这意味着一个完整的问题可能需要 200K+ tokens 的总推理量（多次循环累积）。

5.4 为什么长度不对称（训练8K vs 推理100K+）？

这是SU-01最精妙的设计之一：

训练阶段：限制在8K，确保SFT能稳定学习"核心推理行为"（如何搜索、如何验证、如何修正）
推理阶段：放开到100K+甚至256K，让模型在已学会的行为框架内，展开更深、更长的搜索

类比：训练时学"如何下棋"（规则+基本策略），推理时下完整盘棋（可能100步+）。训练不需要覆盖所有可能的棋局，只需要学会"下棋的方法"。

---

六、实验结果：数字背后的故事

6.1 IMO 2025：刚好金牌线

题目	P1	P2	P3	P4	P5	P6	总分
直接生成	1	7	1	6	6	0	21
TTS	7★	7★	7★	7★	7★	0★	35★
金牌线	—	—	—	—	—	—	35

★ = 人类金牌专家复核（3名独立评分，取最保守分）

注意：直接生成只有21分（过铜牌线19）。TTS后跳到35（金牌线）。

P6是0分——IMO最难的题，人类金牌选手也未必能解。SU-01也没解出来。这说明TTS能显著提升，但无法突破问题的固有难度天花板。

6.2 USAMO 2026：追平人类最高分

题目	P1	P2	P3	P4	P5	P6	总分
直接生成	7	0	0	7	0	1	15
TTS	7★	0★	7★	7★	7★	7★	35★
金牌线	—	—	—	—	—	—	25

340名参赛选手：

中位数：6分
前12名cutoff：26分
最高分：35分 ← SU-01匹配

这意味着：在这个特定竞赛上，SU-01达到了人类顶尖水平。

6.3 物理奥赛：同尺寸最强

模型	IPhO 2024	IPhO 2025
Gemini 3.1 Pro Thinking	25.9	25.1
GPT-5.5-High	25.8	23.2
DeepSeek-V3.2-Speciale	25.1	21.9
SU-01 (TTS)	25.3	21.7

SU-01 TTS后超金牌线，且在同尺寸模型中表现最好。值得注意的是：物理奥赛没有人类专家复核（★），分数可能有争议。

6.4 证明评测：57.6% → 70.2%

模型	尺寸	IMO-ProofBench
Gemini-2.5-DeepThink	大	57.6%
SU-01 (直接)	30B-A3B	57.6%
Gemini-3.1-Pro	大	60.7%
GPT-5.5-High	大	80.7%
SU-01 (TTS)	30B-A3B	70.2%

直接生成时SU-01已经追平Gemini-2.5-DeepThink（大模型）。TTS后70.2%，逼近Gemini-3.1-Pro（60.7%已超）。

6.5 FrontierScience-Research：同尺寸最强

模型	Physics	Chemistry	Biology	Overall
GPT-5.5-High	25.0%	40.0%	45.0%	36.7%
SU-01	10.0%	10.0%	15.0%	11.7%

这个overall看起来不高，但要注意： 1. SU-01的RL训练只用了数学和物理信号 2. 但它泛化到了化学和生物 3. 在同尺寸模型中它是最好的

这验证了论文的核心主张：训练数学推理能力，可以迁移到通用科学推理。

---

七、方法论的深层洞见：三个"极简"

7.1 极简统一：数学和物理用同一套流程

传统做法：IMO专用模型、IPhO专用模型、FrontierScience专用模型...

SU-01的做法：一套训练流程，覆盖所有领域。

这背后的假设是：奥赛推理的底层能力是通用的——证明搜索、自我验证、假设修正、长程规划——这些能力不区分数学还是物理。

论文用数据支持了这个假设：只用数学物理信号训练的模型，在化学和生物上也能泛化。

7.2 极简数据：338K轨迹 vs 数百万

很多推理模型训练用了数百万条轨迹。SU-01只用了338K。

关键不是数量，而是质量和行为覆盖：

45.7%是自验证/自修正行为数据（不是答案数据）
逆困惑度课程确保每样本都高效利用
8K截断避免了噪音

7.3 极简RL：200步

只有200步RL（96 coarse + 104 refined），对比一些工作数千步RL。

论文的解释：SFT阶段已经塑造了正确的推理行为，RL只需要"放大"这些行为，而不是"从头学习"。

这就像：SFT是"学会骑自行车"，RL是"每天骑去上班练熟练度"。如果你已经会骑了，不需要再花100小时学平衡，只需要花10小时练路线。

---

八、与相关工作的精确对比

维度	AlphaProof	OpenAI o系列	DeepSeek-R1	SU-01
模型规模	未公开（推测大）	未公开（推测大）	671B	30B-A3B
训练数据	形式化证明数据	未公开	数百万RL轨迹	338K SFT + 200步RL
训练方法	形式化验证 + RL	未公开	GRPO + 冷启动	逆困惑度SFT + 两阶段RL + TTS
验证方式	Lean形式化证明器	未公开	基于规则的奖励	分层验证（规则→大模型）+ 生成式证明奖励
测试时缩放	树搜索	思维链	无（主要依赖训练）	Solve-Verify-Refine循环
通用性	仅限形式化数学	通用推理	通用推理	奥赛专用但泛化到科研
开源	否	否	是	是（推测，上海AI Lab惯例）

SU-01的核心差异：用极简的训练配方，在小模型上达到大模型的奥赛表现。

---

九、局限与失败案例分析

论文诚实地指出了局限：

9.1 P6始终为0

IMO和USAMO的第6题（最难的题），SU-01直接生成和TTS都是0分。这说明：

TTS能提升"可解但易错"的问题，但无法突破"极难"的问题
模型可能在某些类型的数学构造（如极端组合构造、非标准数论技巧）上仍有盲区

9.2 物理奥赛无人类复核

IPhO分数没有★标记，意味着没有人类金牌专家独立评分。物理题的评分可能涉及步骤分、单位、有效数字等细节，模型可能在"答案对但过程不规范"的情况下得分。

9.3 FrontierScience绝对值仍低

虽然同尺寸最强，但11.7%的overall意味着：科研级科学推理仍有巨大提升空间。RL只用了数学物理信号，化学和生物的能力主要是"基座泛化"，没有针对性训练。

9.4 推理成本

TTS的100K+ tokens推理，在API调用成本上不低。虽然模型小（30B），但推理长度长，总成本可能接近商用大模型的短推理。

---

十、结语：Scaling Law的新维度

SU-01最重要的启示是：Scaling Law不止一个方向。

大家一直在问"模型要多大才能做奥赛金牌"。SU-01的回答是：

> 不一定更大，可以更聪明地训练。

三个维度的scaling： 1. 模型规模 scaling：更大的模型（GPT-5.5、Gemini 3.1 Pro） 2. 训练数据 scaling：更多的数据（DeepSeek-R1的数百万轨迹） 3. 训练方法 scaling：更聪明的课程和RL设计（SU-01的逆困惑度 + 两阶段RL）

SU-01证明了第三个维度的潜力：用30B模型 + 338K数据 + 200步RL，可以追平大模型数百万轨迹的效果。

这不是说模型规模不重要，而是说：当资源有限时，方法scaling可能比规模scaling更划算。

---

参考文献

1. Li, Y., Zhan, R., Zhang, H., et al. (2026). Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling. *arXiv preprint arXiv:2605.13301*. https://arxiv.org/abs/2605.13301

#SU01 #奥数AI #推理模型 #上海AI实验室 #逆困惑度 #强化学习 #测试时缩放 #奥赛金牌 #小凯

SU-01 深度拆解：30B参数如何拿到奥数金牌——一个"极简统一配方"的炼金术

SU-01 深度拆解：30B参数如何拿到奥数金牌——一个"极简统一配方"的炼金术

序章：为什么30B能打败几百B？

一、基座选择：从通才到专才的" specialization 哲学"

1.1 为什么选择"已有能力"的模型？

1.2 30B-A3B是什么意思？

二、训练数据：338K轨迹的构成与质量工程

2.1 数据来源分布

2.2 关键设计：自验证和自修正占45.7%

2.3 长度限制：为什么严格截断到8K tokens？

三、逆困惑度课程：从最难的开始学

3.1 困惑度是什么？

3.2 逆困惑度课程的逻辑

3.3 课程执行的细节

四、两阶段RL：从"找到答案"到"证明质量"

4.1 为什么需要两阶段？

4.2 第一阶段：Coarse RL（粗粒度强化学习）

4.3 第二阶段：Refined RL（细粒度强化学习）

4.4 经验回放：留住"刚好能解"的困难题

五、测试时缩放：100K tokens的推理马拉松

5.1 Solve-Verify-Refine循环

5.2 停止规则

5.3 推理长度分布（USAMO 2026）

5.4 为什么长度不对称（训练8K vs 推理100K+）？

六、实验结果：数字背后的故事

6.1 IMO 2025：刚好金牌线

6.2 USAMO 2026：追平人类最高分

6.3 物理奥赛：同尺寸最强

6.4 证明评测：57.6% → 70.2%

6.5 FrontierScience-Research：同尺寸最强

七、方法论的深层洞见：三个"极简"

7.1 极简统一：数学和物理用同一套流程

7.2 极简数据：338K轨迹 vs 数百万

7.3 极简RL：200步

八、与相关工作的精确对比

九、局限与失败案例分析

9.1 P6始终为0

9.2 物理奥赛无人类复核

9.3 FrontierScience绝对值仍低

9.4 推理成本

十、结语：Scaling Law的新维度

🌟 智谱 GLM-5 已上线