零标注、零验证、零教师：苹果 SSD 如何用"自己教自己"突破代码天花板

简单自蒸馏的机械原理与边界审视

> 论文：Embarrassingly Simple Self-Distillation Improves Code Generation > 作者：Ruixiang Zhang*, Richard He Bai*, Huangjie Zheng*, Navdeep Jaitly, Ronan Collobert, Yizhe Zhang* > 机构：Apple > arXiv: 2604.01193v1 > GitHub：https://github.com/apple/ml-ssd

---

一、一个反直觉的起点

先讲一件事，听起来像悖论：

一个模型用自己的错误答案训练自己，结果变得更聪明了。

不是开玩笑。苹果这篇论文展示的方法叫 SSD（Simple Self-Distillation），流程简单到让人怀疑是不是漏看了什么：

1. 给模型一道编程题 2. 让模型在特定温度下生成一个解——不验证对错 3. 用这个原始输出做标准监督微调 4. 测试

就这些。没有人类写的参考答案，没有更强的教师模型，没有奖励模型，没有代码执行环境，没有强化学习。

Qwen3-30B-Instruct 在 LiveCodeBench v6 上：42.4% → 55.3% pass@1。相对提升 30.4%。最难的问题上提升最大。

五个模型（Llama、Qwen，4B/8B/30B，instruct/thinking）全部提升。

这不是魔术。这是某种被忽视的机制在起作用。

---

二、"简单"有多简单？

让我先把方法摊开，看它到底简单到什么程度：

数据合成

给定冻结的预训练模型 p_θ，一组问题提示 X：

y ~ Decode_{T_train, ρ_train}(p_θ(·|x))

其中 T_train 是采样温度，ρ_train 是截断配置（top-k/top-p）。

每个问题只采样 1 个解（N=1）。 论文说 N=1 就够了。

不做任何验证：不执行代码、不跑测试、不过滤正确性。只做最小语法过滤——去掉空回复和单行 stub。

训练

标准交叉熵损失监督微调：

L(θ) = -E_{(x,y)~D_SSD} Σ_{t=1}^{|y|} log p_θ(y_t | x, y_{<t})

就普通的 SFT。没有 KL 散度约束、没有对比损失、没有强化学习梯度。

推理

微调后的模型 p_θ* 用另一套解码配置 (T_eval, ρ_eval) 生成答案。

关键设计：训练温度和推理温度不同。论文发现它们之间存在一个可组合的数学关系。

---

三、数据说话：提升在哪里？

主结果（LiveCodeBench v6）

模型	Base pass@1	+SSD pass@1	提升	相对提升
Qwen3-30B-Instruct	42.4%	55.3%	+12.9pp	+30.4%
Llama-3.1-8B-Instruct	基准值	+3.5pp	+3.5pp	-
Qwen3-4B-Instruct	基准值	+7.5pp	+7.5pp	-
Qwen3-4B-Thinking	基准值	+3.3pp	+3.3pp	-
Qwen3-30B-Thinking	基准值	+2.1pp	+2.1pp	-

难度分层（Qwen3-30B-Instruct）

难度	Base pass@1	+SSD pass@1	提升
Easy	基准值	+6.5pp	小
Medium	基准值	+14.2pp	大
Hard	基准值	+15.3pp	最大

规律：越难的问题，提升越大。

覆盖率（pass@5）

pass@5 衡量"生成 5 个候选中至少有一个正确"的概率，反映模型的探索多样性。

Qwen3-30B-Instruct：

Overall: pass@5 提升 +18.1pp（vs pass@1 +12.9pp）
Hard: pass@5 提升 +23.0pp（vs pass@1 +15.3pp）

SSD 没有压缩多样性。相反，它在保持精确的同时扩大了探索空间。

---

四、核心机制：精确性 vs 探索性的结构性冲突

这是论文最精彩的部分。苹果团队没有停留在"方法有效"的层面，而是问了一个费曼式的问题：为什么这么简单的方法能工作？

答案藏在代码生成任务的内在结构中。

两种 token 位置

写代码时，有些位置几乎没有选择：

if n == ____:  # 这里只能填特定值

语法和语义已经锁死了。模型"知道"正确答案，但分布的长尾里仍然有一些看似合理但实际错误的 token 在抢概率。这些位置叫 Lock（锁）——需要精确性。

另一些位置则 genuinely 有多种选择：

def solve(data):
    ____  # 这里可以是 for loop、recursion、data-structure init

每种选择通向完全不同的算法路径。这些位置叫 Fork（分叉）——需要探索性。

单一温度的困境

全局解码温度 T_eval 必须同时为锁和分叉服务：

低温度：锁精确了，但分叉的探索空间被压扁。模型反复使用同一套解法，错过更优路径。
高温度：分叉的探索恢复了，但锁的 distractor 尾部也复苏了。模型在不该犹豫的地方犹豫。

论文把这个矛盾命名为 Precision-Exploration Conflict。任何全局解码策略都是妥协。

---

五、SSD 如何解决这个冲突

SSD 的聪明之处不在训练方法本身，而在它隐式地做了什么：

支持压缩（Support Compression）

训练时采样使用温度 T_train 和截断 ρ_train。高温采样会产生更多"边缘"token。当模型学习自己的这些输出时，它被迫面对一个事实：在 lock 位置，正确答案的概率远大于错误候选。

微调后，lock 位置的分布变得更尖锐——distractor 尾部被抑制。

支持内重塑（Within-Support Reshaping）

在 fork 位置，高温采样保留了多个合理选项。模型学习这些多样化的路径时，不是记住某一条，而是学会在这些选项之间保持平衡——有用多样性被保留。

论文把这形式化为一个分布变换方程（Equation 4），核心思想是：

SSD 不是在全局提升或降低温度，而是在上下文依赖的方式下重塑分布——精确的地方更精确，探索的地方更开阔。

---

六、温度的代数：T_train 和 T_eval 如何组合

论文发现了一个简洁的组合规律：

定义 有效温度 Teff = T_train × T_eval

在无截断的消融实验中：

Teff 几乎完全 governs performance（R² = 0.75）
最佳峰值在 Teff ≈ 1.2 附近
T_train 和 T_eval 可以 trade off：高 T_train + 低 T_eval ≈ 低 T_train + 高 T_eval

这意味着：训练时的采样温度和推理时的解码温度是可交换的。 你可以在训练时"多花"探索预算，然后在推理时收紧；也可以反过来。

但加上截断（top-k=10）后，性能天花板进一步提升。截断提供了一个额外的提升通道——在数据合成阶段就主动砍掉极低概率的尾部。

---

七、为什么单纯调温度不够？

论文做了一个关键的对比实验：在 base model 上扫描各种 T_eval，看最佳温度能否接近 SSD 的效果。

结果：

Qwen3-30B-Instruct base model：pass@1 从 41.3% 到 43.5%，范围只有 2.2pp
SSD 模型：55.3%
差距：+11.8pp

在 hard 问题上差距更大：+13.3pp pass@1，+19.4pp pass@5。

这意味着 SSD 不只是"找到了更好的温度组合"。它永久性地改变了模型内部的分布形状——这种改变无法通过推理时调参复现。

---

八、费曼式审视：五个硬问题

好，数据讲完了。现在按费曼的规则问几个不舒服的问题。

问题一："Embarrassingly Simple" 算法 vs "Embarrassingly Expensive" 基础设施

论文的方法确实简单——三行就能写完。但实验用了 8× B200 GPUs，Megatron-LM，65,536 的序列长度。

这不是"任何人都能复现"的简单。算法的简单≠实验的简单。小团队可以借鉴思想，但别指望拿到同样的数字。

问题二：N=1 的代价是什么？

每个问题只采样一个解，确实很优雅——成本线性，不爆炸。但如果这个唯一采样恰好是错误解呢？模型会主动学习自己的错误。

论文说"无验证"，但做了最小语法过滤。更重要的是：训练数据中的错误代码仍然会被学习。论文没有讨论错误样本的比例和影响。对于简单题（base model 已经能做对），错误率可能低；对于难题，错误率可能很高。

SSD 的提升是否部分来自"把模型从自己的常见错误中解放出来"？还是"模型在重复采样中偶然撞对了更多难题"？这个边界论文没有明确区分。

问题三：为什么内在奖励方法会崩溃，SSD 不会？

论文提到 majority voting、entropy minimization 等无监督方法在扩展训练中会 reward hacking 和 collapse。SSD 没有这个问题——至少在 2500 iterations（instruct）/ 300 iterations（thinking）的范围内。

但 2500 iterations 不算长训练。如果继续训练到 10K、50K iterations，SSD 会不会也开始 collapse？论文没有回答。"不崩溃"的声明只在测试过的范围内成立。

问题四：跨领域稳定性的真相

论文声称只在代码数据上训练的模型，在数学推理、通用代码、代码理解上"性能稳定"。但仔细阅读：原文说 "Performance remains broadly stable for the 30B models"——只在 30B 模型上做了这个测试。4B 模型呢？论文没有给出具体数字。

更大的模型可能有足够的冗余容量来吸收领域偏移，小模型可能没这个奢侈。"跨领域稳定"可能不是 SSD 的功劳，而是 30B 参数的功劳。

问题五："零教师"是真零，还是换了形式的教师？

SSD 说不需要教师模型。但等一下——base model 在采样时的分布就是它自己的"知识"。微调时模型在学习自己生成的样本，但这些样本的质量分布严重依赖采样参数。

你可以说：base model 充当了它自己的教师。这不算外部教师，但也不是"无中生有"。教师模型没有被消灭，只是被内化了。

---

九、更大的图景：SSD 意味着什么？

1. 后训练的新方向

当前 LLM 代码能力提升的路径有三条：

路径	代表	优点	缺点
人类标注	CodeContests	质量高	极贵、稀缺
教师蒸馏	DistillCode	可扩展	受限于教师天花板
强化学习	RLVR, R1	效果强	复杂、不稳定
自蒸馏	SSD	极简、无验证	提升幅度中等

SSD 不取代 RL，而是提供了一条互补的后训练路径——当你没有验证环境、没有更强教师、不想碰 RL 的复杂度时，它给你一个"免费"的提升。

2. "模型内含未实现的能力"

论文的核心洞察之一：现有代码模型包含未被固定解码配置实现的能力。模型"知道"更多解法，但标准解码把它锁在了一个次优的局部。

SSD 的本质是解锁这些内置能力——不是灌输新知识，而是让模型更好地组织已有的知识。

3. Precision-Exploration Conflict 的普适性

论文用代码作为测试平台，因为 lock/fork 结构特别清晰。但这个框架是否适用于其他任务？

数学推理：证明步骤中的"计算验证"是 lock，"策略选择"是 fork
创意写作：情节转折是 fork，语法约束是 lock
对话系统：事实检索是 lock，风格选择是 fork

如果其他任务也存在类似的结构化冲突，SSD 或其变体可能有效。

---

十、核心结论：我们到底知道了什么？

让我用费曼的方式总结——短句锚定，然后展开：

模型可以用自己的错误答案训练自己，变得更聪明。

听起来像悖论，实际有机制：SSD 不是学习"正确答案"，而是学习"在正确的时间和位置，该精确还是该探索"。

代码生成有两类 token 位置：锁和分叉。

锁需要精确，分叉需要探索。单一全局温度无法满足两者。SSD 通过上下文依赖的分布重塑解决了这个冲突。

有效温度 Teff = T_train × T_eval，最佳约 1.2。

训练和推理温度是可组合的。截断进一步提高天花板。

"简单"是算法层面的，不是基础设施层面的。

8× B200 GPUs 不是免费午餐。小团队可借鉴思想，但需调整期望。

跨领域稳定性只在 30B 上验证过。

不要假设 4B/8B 也有同样的稳定性。

SSD 不取代 RL，而是提供互补路径。

当你没有验证环境或不想碰 RL 复杂度时，它是零成本的 baseline。

---

参考文献

Zhang, R., Bai, R. H., Zheng, H., Jaitly, N., Collobert, R., & Zhang, Y. (2026). Embarrassingly Simple Self-Distillation Improves Code Generation. arXiv:2604.01193v1.
GitHub 仓库：https://github.com/apple/ml-ssd
HuggingFace 模型：apple/SimpleSD-4B-instruct, apple/SimpleSD-4B-thinking, apple/SimpleSD-30b-a3b-instruct

---

#SSD #简单自蒸馏 #Apple #代码生成 #LiveCodeBench #自蒸馏 #后训练 #费曼视角 #小凯