ZAYA1-8B深度解读草稿
文学化标题
《大卫与歌利亚:当一个700M参数的"侏儒"掀翻了推理巨人的牌桌》论文信息
- 标题:ZAYA1-8B Technical Report
- 作者:Robert Washbourne, Rishi Iyer, Tomas Figliolia等(Zyphra团队)
- arXiv:2605.05365
- 发布时间:2026-05-06
核心数据
- Active参数:0.76B(约7亿)
- 总参数:8.4B
- 架构:MoE++(Zyphra自研)
- 训练硬件:AMD MI300X + Pollara网络
- AIME'25:91.9%(with Markovian RSA TTC)
- HMMT'25:89.6%(with Markovian RSA TTC)
- 匹配/超越DeepSeek-R1-0528
五大设计选择
1. 架构:CCA注意力 + ZAYA1 Router + Residual Scaling 2. 推理感知训练:预训练阶段就引入长CoT数据 + Answer-Preserving Trimming 3. 四阶段RL级联:warmup → RLVE-Gym 400任务 → math/code+TTC → behavioral RL 4. 测试时计算:Markovian RSA(递归聚合,仅携带4K-token tail) 5. AMD全栈训练费曼风格解读结构
🎭 开场:牌桌上的侏儒
想象你走进一家高端赌场。牌桌对面坐着几位巨人——他们 each 拥有数百亿参数的"大脑",训练成本数以千万计。而你手里只有一个700M参数的"侏儒",看起来连牌桌都够不到。但Zyphra团队说:"让我们来看看这个侏儒能做什么。"
结果是:这个侏儒在数学竞赛AIME'25上拿了91.9分,在HMMT'25上拿了89.6分。它不是在作弊——它是用了一套全新的打牌策略。
🔍 第一幕:什么是MoE,以及为什么"少即是多"
传统的Transformer模型就像一家所有员工都必须参与每个项目的公司。无论任务多简单,所有人都要开会、讨论、出方案。MoE(Mixture of Experts,混合专家模型)改变了这一点。
想象一家咨询公司,有16个专业部门(experts)。当客户提出问题时,前台(router)会根据问题类型,把客户引导到最相关的1-2个部门。其他部门继续处理自己的事,不被打扰。
ZAYA1-8B有16个专家,但每个token只激活1个专家(top-1 routing)。总参数8.4B,但每个前向传播只用到0.76B参数。这就像你有16位专家的智慧,但每次咨询只付1位专家的费用。
传统的MoE router是一个简单的线性分类器——就像前台只有一本简单的分类手册。Zyphra发现,如果把前台升级为一个多层MLP(像培训了一位资深调度经理),routing质量大幅提升。这就是ZAYA1 Router的核心创新。
他们还加入了EDA(Exponential Depth Averaging)——前台经理不仅看当前请求,还会参考上一层的routing决策。这就像经理记住了"这类问题通常指向哪个部门",而不是每次都重新判断。
⚡ 第二幕:CCA——把注意力的"望远镜"换成"显微镜"
注意力机制是Transformer的核心。传统的Multi-Head Attention就像用望远镜观察星空——你需要看到每一个点的细节。但当序列很长时,望远镜变得很重(KV-cache内存爆炸)。
MLA(Multi-head Latent Attention,DeepSeek-V3用的)和GQA(Grouped Query Attention)都是给望远镜做"减肥手术"。CCA(Compressed Convolutional Attention)走的是另一条路:它把望远镜换成了显微镜。
CCA用一个轻量的卷积下投影器(convolutional downprojector)把序列压缩到一个更小的潜在空间,在那里做注意力计算,然后再投影回来。这带来了三重好处: 1. 训练时FLOP更低 2. 推理时prefill更快 3. KV-cache压缩率 comparable to MLA(8x压缩)
更重要的是,CCA在131K长上下文上表现良好——这对ZAYA1-8B的推理训练至关重要,因为推理轨迹往往超过10K tokens。
🧬 第三幕:Answer-Preserving Trimming——在巨人的脚印上跳舞
这是论文中最精妙的数据工程技巧之一。
想象你要教一个学生解数学题。你给他一道题和完整的解题过程,但这个过程有15000字长,而你的教室(context window)只能容纳4000字。
传统方法有三种: 1. 直接扔掉这道题(损失宝贵的推理信号) 2. 从中间截断(保留开头,但丢掉答案——学生学到的是"半途而废"的推理) 3. ZAYA1的方法:从推理过程的尾部截断,但保留最终答案
为什么截尾部比截中间好?因为推理过程的结构通常是:
- 开头:问题分解、规划、探索多种方法
- 中间:尝试和验证
- 尾部:整合所选方法,得出结论
随着训练阶段推进(4K → 32K → 131K context), progressively less trimming is needed,模型能看到越来越完整的推理过程。
🎯 第四幕:四阶段RL级联——从学徒到大师
ZAYA1-8B的后训练不是一次性RL,而是一个精心编排的"四幕剧":
第一幕:Reasoning Warmup(推理热身) 232步,在数学和谜题上做基础RL。就像运动员比赛前的热身——让身体(模型)熟悉即将到来的高强度训练。
第二幕:RLVE-Gym课程(400任务自适应难度) 400步,在400个不同难度的环境中训练。环境会根据模型表现自适应调整难度——太难会挫败,太简单会无聊。这就像一个有经验的教练,总是给你"跳一跳够得着"的挑战。
第三幕:Math + Code + TTC(核心能力锻造) 384+464=848步,在数学、编程和测试时计算轨迹上深度训练。这是真正的大师级训练——模型不仅要学会解题,还要学会"如何思考解题"。
第四幕:Behavioral RL(行为打磨) 384步,轻量级的行为优化。调整聊天风格、指令跟随、偏好行为。这就像大师在完成技术训练后,学习如何优雅地与人交流。
关键技术细节:
- PipelineRL:异步训练,rollout和梯度更新在不同GPU池上并行运行
- DPPO Binary-TV:用Binary Total-Variation trust-region替代PPO的clipping,更稳定
- Dr-GRPO SMTSN:序列级loss aggregation,避免标准GRPO对长回复的隐性偏置
- MaxRL advantage estimation:用均值而非标准差归一化,对困难问题产生更强的梯度信号
- 无KL正则化:完全依赖trust region,避免KL-in-reward带来的长度偏置
🔄 第五幕:Markovian RSA——测试时计算的"分形压缩"
这是ZAYA1-8B最惊艳的技术创新。
传统的测试时计算(Test-Time Compute, TTC)方法如RSA(Recursive Self-Improvement)让模型生成多个推理候选,然后递归地聚合和改进。但问题是:每次递归都需要把完整的推理历史带入下一轮的prefill——当推理链很长时,这变得极其昂贵。
Markovian RSA的核心洞察来自一个古老的数学概念:马尔可夫性。
马尔可夫性的意思是:未来只取决于现在,不依赖于过去。换句话说,你不需要记住完整的历史,只需要知道"当前状态"。
应用到推理上:假设模型已经生成了很长的推理链。与其在下一轮把整条链都带进去,不如只保留每条候选推理的"尾部"(最近的几千tokens)——这些尾部包含了最关键的状态信息。
具体操作: 1. 第一轮:并行生成N个候选推理,每个长度β 2. 聚合:把这些候选的尾部(长度τ)拼接,作为下一轮的输入 3. 重复:每一轮只携带τ长度的tail,而非完整历史
结果是:ZAYA1-8B在40K/4K配置(总长度40K,每次携带4K tail)下,AIME'25达到91.9%,HMMT'25达到89.6%。
这个成绩比肩Gemini-2.5 Pro、DeepSeek-V3.2、GPT-5-High——而这些模型的active参数是它的数十倍乃至数百倍。
🏗️ 第六幕:AMD全栈——不是NVIDIA也能玩
ZAYA1-8B另一个重要意义在于:它是在AMD MI300X GPU + Pollara 400网络上完成全周期训练的(预训练、中训练、SFT)。
这证明了AMD的AI训练栈已经能够支持从0到1的完整模型训练——不仅仅是做推理或者微调。对于希望摆脱NVIDIA垄断的市场来说,这是一个重要的里程碑。
📊 实验数据精选
| 模型 | Active参数 | AIME'25 | HMMT'25 | LCB-v6 |
|---|---|---|---|---|
| ZAYA1-8B (single) | 0.76B | ~70% | ~65% | ~75% |
| ZAYA1-8B + RSA | 0.76B | 91.9% | 89.6% | ~85% |
| DeepSeek-R1-0528 | ~37B | ~85% | ~80% | ~82% |
| Gemini-2.5 Pro | ? | ~92% | ~90% | ~88% |
| GPT-5-High | ? | ~94% | ~92% | ~90% |
🎬 结语:侏儒的启示
ZAYA1-8B的故事告诉我们:在AI的军备竞赛中,参数数量不是唯一的故事。
Zyphra用700M active参数做到了别家用数十亿参数才能做到的事。他们的秘密不是魔法,而是五个设计选择的协同: 1. 更聪明的架构(CCA + MLP Router) 2. 更聪明的训练数据(Answer-Preserving Trimming) 3. 更聪明的RL级联(四阶段渐进) 4. 更聪明的测试时计算(Markovian RSA) 5. 更聪明的训练栈(AMD全栈验证)
正如费曼所说:"凡是我不能创造的,我就还没有真正理解。" ZAYA1-8B不仅是一个模型,它是对"如何创造高效推理"这个问题的一次完整回答。
---
参考文献
1. Washbourne, R., Iyer, R., Figliolia, T., et al. (2026). ZAYA1-8B Technical Report. *arXiv preprint arXiv:2605.05365*. 2. Anthony, Q., et al. (2025). MoE++: Zyphra's Mixture-of-Experts Architecture. *Zyphra Technical Report*. 3. Figliolia, T., et al. (2025). Compressed Convolutional Attention (CCA). *arXiv preprint*. 4. Akter, S., et al. (2025). Reasoning-aware pretraining. *ICML 2025*. 5. Khatri, et al. (2025). PipelineRL and length-control methods. *NeurIPS 2025*. 6. Venkatraman, et al. (2025). Recursive Self-Improvement (RSA). *ICML 2025*. 7. Aghajohari, et al. (2025). Markovian Thinking. *arXiv preprint*. 8. DeepSeek-AI (2025). DeepSeek-R1 and DeepSeek-V3. *Technical Reports*.
---
*费曼风格深度解读 | 自动采集于 2026-05-09*
#论文 #arXiv #AI #MoE #推理模型 #ZAYA1 #费曼解读 #小凯