ZAYA1-8B深度解读草稿

文学化标题

《大卫与歌利亚：当一个700M参数的"侏儒"掀翻了推理巨人的牌桌》

论文信息

标题：ZAYA1-8B Technical Report
作者：Robert Washbourne, Rishi Iyer, Tomas Figliolia等（Zyphra团队）
arXiv：2605.05365
发布时间：2026-05-06

核心数据

Active参数：0.76B（约7亿）
总参数：8.4B
架构：MoE++（Zyphra自研）
训练硬件：AMD MI300X + Pollara网络
AIME'25：91.9%（with Markovian RSA TTC）
HMMT'25：89.6%（with Markovian RSA TTC）
匹配/超越DeepSeek-R1-0528

五大设计选择

1. 架构：CCA注意力 + ZAYA1 Router + Residual Scaling 2. 推理感知训练：预训练阶段就引入长CoT数据 + Answer-Preserving Trimming 3. 四阶段RL级联：warmup → RLVE-Gym 400任务 → math/code+TTC → behavioral RL 4. 测试时计算：Markovian RSA（递归聚合，仅携带4K-token tail） 5. AMD全栈训练

费曼风格解读结构

🎭 开场：牌桌上的侏儒

想象你走进一家高端赌场。牌桌对面坐着几位巨人——他们 each 拥有数百亿参数的"大脑"，训练成本数以千万计。而你手里只有一个700M参数的"侏儒"，看起来连牌桌都够不到。

但Zyphra团队说："让我们来看看这个侏儒能做什么。"

结果是：这个侏儒在数学竞赛AIME'25上拿了91.9分，在HMMT'25上拿了89.6分。它不是在作弊——它是用了一套全新的打牌策略。

🔍 第一幕：什么是MoE，以及为什么"少即是多"

传统的Transformer模型就像一家所有员工都必须参与每个项目的公司。无论任务多简单，所有人都要开会、讨论、出方案。MoE（Mixture of Experts，混合专家模型）改变了这一点。

想象一家咨询公司，有16个专业部门（experts）。当客户提出问题时，前台（router）会根据问题类型，把客户引导到最相关的1-2个部门。其他部门继续处理自己的事，不被打扰。

ZAYA1-8B有16个专家，但每个token只激活1个专家（top-1 routing）。总参数8.4B，但每个前向传播只用到0.76B参数。这就像你有16位专家的智慧，但每次咨询只付1位专家的费用。

传统的MoE router是一个简单的线性分类器——就像前台只有一本简单的分类手册。Zyphra发现，如果把前台升级为一个多层MLP（像培训了一位资深调度经理），routing质量大幅提升。这就是ZAYA1 Router的核心创新。

他们还加入了EDA（Exponential Depth Averaging）——前台经理不仅看当前请求，还会参考上一层的routing决策。这就像经理记住了"这类问题通常指向哪个部门"，而不是每次都重新判断。

⚡ 第二幕：CCA——把注意力的"望远镜"换成"显微镜"

注意力机制是Transformer的核心。传统的Multi-Head Attention就像用望远镜观察星空——你需要看到每一个点的细节。但当序列很长时，望远镜变得很重（KV-cache内存爆炸）。

MLA（Multi-head Latent Attention，DeepSeek-V3用的）和GQA（Grouped Query Attention）都是给望远镜做"减肥手术"。CCA（Compressed Convolutional Attention）走的是另一条路：它把望远镜换成了显微镜。

CCA用一个轻量的卷积下投影器（convolutional downprojector）把序列压缩到一个更小的潜在空间，在那里做注意力计算，然后再投影回来。这带来了三重好处： 1. 训练时FLOP更低 2. 推理时prefill更快 3. KV-cache压缩率 comparable to MLA（8x压缩）

更重要的是，CCA在131K长上下文上表现良好——这对ZAYA1-8B的推理训练至关重要，因为推理轨迹往往超过10K tokens。

🧬 第三幕：Answer-Preserving Trimming——在巨人的脚印上跳舞

这是论文中最精妙的数据工程技巧之一。

想象你要教一个学生解数学题。你给他一道题和完整的解题过程，但这个过程有15000字长，而你的教室（context window）只能容纳4000字。

传统方法有三种： 1. 直接扔掉这道题（损失宝贵的推理信号） 2. 从中间截断（保留开头，但丢掉答案——学生学到的是"半途而废"的推理） 3. ZAYA1的方法：从推理过程的尾部截断，但保留最终答案

为什么截尾部比截中间好？因为推理过程的结构通常是：

开头：问题分解、规划、探索多种方法
中间：尝试和验证
尾部：整合所选方法，得出结论

截断尾部保留的是"如何开始思考"和"答案是什么"，而损失的只是"最后的整合步骤"。这对预训练来说是一个更好的信号——模型学到的是"从问题到答案的完整路径"，尽管路径末端有些模糊。

随着训练阶段推进（4K → 32K → 131K context）， progressively less trimming is needed，模型能看到越来越完整的推理过程。

🎯 第四幕：四阶段RL级联——从学徒到大师

ZAYA1-8B的后训练不是一次性RL，而是一个精心编排的"四幕剧"：

第一幕：Reasoning Warmup（推理热身） 232步，在数学和谜题上做基础RL。就像运动员比赛前的热身——让身体（模型）熟悉即将到来的高强度训练。

第二幕：RLVE-Gym课程（400任务自适应难度） 400步，在400个不同难度的环境中训练。环境会根据模型表现自适应调整难度——太难会挫败，太简单会无聊。这就像一个有经验的教练，总是给你"跳一跳够得着"的挑战。

第三幕：Math + Code + TTC（核心能力锻造） 384+464=848步，在数学、编程和测试时计算轨迹上深度训练。这是真正的大师级训练——模型不仅要学会解题，还要学会"如何思考解题"。

第四幕：Behavioral RL（行为打磨） 384步，轻量级的行为优化。调整聊天风格、指令跟随、偏好行为。这就像大师在完成技术训练后，学习如何优雅地与人交流。

关键技术细节：

PipelineRL：异步训练，rollout和梯度更新在不同GPU池上并行运行
DPPO Binary-TV：用Binary Total-Variation trust-region替代PPO的clipping，更稳定
Dr-GRPO SMTSN：序列级loss aggregation，避免标准GRPO对长回复的隐性偏置
MaxRL advantage estimation：用均值而非标准差归一化，对困难问题产生更强的梯度信号
无KL正则化：完全依赖trust region，避免KL-in-reward带来的长度偏置

🔄 第五幕：Markovian RSA——测试时计算的"分形压缩"

这是ZAYA1-8B最惊艳的技术创新。

传统的测试时计算（Test-Time Compute, TTC）方法如RSA（Recursive Self-Improvement）让模型生成多个推理候选，然后递归地聚合和改进。但问题是：每次递归都需要把完整的推理历史带入下一轮的prefill——当推理链很长时，这变得极其昂贵。

Markovian RSA的核心洞察来自一个古老的数学概念：马尔可夫性。

马尔可夫性的意思是：未来只取决于现在，不依赖于过去。换句话说，你不需要记住完整的历史，只需要知道"当前状态"。

应用到推理上：假设模型已经生成了很长的推理链。与其在下一轮把整条链都带进去，不如只保留每条候选推理的"尾部"（最近的几千tokens）——这些尾部包含了最关键的状态信息。

具体操作： 1. 第一轮：并行生成N个候选推理，每个长度β 2. 聚合：把这些候选的尾部（长度τ）拼接，作为下一轮的输入 3. 重复：每一轮只携带τ长度的tail，而非完整历史

结果是：ZAYA1-8B在40K/4K配置（总长度40K，每次携带4K tail）下，AIME'25达到91.9%，HMMT'25达到89.6%。

这个成绩比肩Gemini-2.5 Pro、DeepSeek-V3.2、GPT-5-High——而这些模型的active参数是它的数十倍乃至数百倍。

🏗️ 第六幕：AMD全栈——不是NVIDIA也能玩

ZAYA1-8B另一个重要意义在于：它是在AMD MI300X GPU + Pollara 400网络上完成全周期训练的（预训练、中训练、SFT）。

这证明了AMD的AI训练栈已经能够支持从0到1的完整模型训练——不仅仅是做推理或者微调。对于希望摆脱NVIDIA垄断的市场来说，这是一个重要的里程碑。

📊 实验数据精选

模型	Active参数	AIME'25	HMMT'25	LCB-v6
ZAYA1-8B (single)	0.76B	~70%	~65%	~75%
ZAYA1-8B + RSA	0.76B	91.9%	89.6%	~85%
DeepSeek-R1-0528	~37B	~85%	~80%	~82%
Gemini-2.5 Pro	?	~92%	~90%	~88%
GPT-5-High	?	~94%	~92%	~90%

*注：精确对比数字请参考论文原文Table XI*

🎬 结语：侏儒的启示

ZAYA1-8B的故事告诉我们：在AI的军备竞赛中，参数数量不是唯一的故事。

Zyphra用700M active参数做到了别家用数十亿参数才能做到的事。他们的秘密不是魔法，而是五个设计选择的协同： 1. 更聪明的架构（CCA + MLP Router） 2. 更聪明的训练数据（Answer-Preserving Trimming） 3. 更聪明的RL级联（四阶段渐进） 4. 更聪明的测试时计算（Markovian RSA） 5. 更聪明的训练栈（AMD全栈验证）

正如费曼所说："凡是我不能创造的，我就还没有真正理解。" ZAYA1-8B不仅是一个模型，它是对"如何创造高效推理"这个问题的一次完整回答。

---

参考文献

1. Washbourne, R., Iyer, R., Figliolia, T., et al. (2026). ZAYA1-8B Technical Report. *arXiv preprint arXiv:2605.05365*. 2. Anthony, Q., et al. (2025). MoE++: Zyphra's Mixture-of-Experts Architecture. *Zyphra Technical Report*. 3. Figliolia, T., et al. (2025). Compressed Convolutional Attention (CCA). *arXiv preprint*. 4. Akter, S., et al. (2025). Reasoning-aware pretraining. *ICML 2025*. 5. Khatri, et al. (2025). PipelineRL and length-control methods. *NeurIPS 2025*. 6. Venkatraman, et al. (2025). Recursive Self-Improvement (RSA). *ICML 2025*. 7. Aghajohari, et al. (2025). Markovian Thinking. *arXiv preprint*. 8. DeepSeek-AI (2025). DeepSeek-R1 and DeepSeek-V3. *Technical Reports*.

---

*费曼风格深度解读 | 自动采集于 2026-05-09*

#论文 #arXiv #AI #MoE #推理模型 #ZAYA1 #费曼解读 #小凯