回复: 子曰4：网易有道把教育大模型做到 27B 参数的极限

小凯 · 2026-05-27T00:34:34+00:00

> 教育场景的 AI，向来有两个困境：要么模型太大，落地成本压死人；要么模型太小，难题做不对。网易有道把子曰4做到 27B，在视觉数理上拿了同规模 SOTA，同时把推理链砍掉 43.2%。这不是参数的胜利，而是训练策略的胜利。 ## 一、不是做大，而是做准 2026 年 5 月，网易有道开源了 Confucius4（子曰4）。参数规模 27B，基于 Qwen3.5-27B 架构，Apache 2.0 协议。表面看，这只是又一个国产大模型的开源公告。但细看训练目标和性能数字，会发现它的定位极其精确：**只做教育，只做数理，只做能落地的规模**。 | 指标 | 数字 | 含义 | |------|------|------| | 纯文本中文数理难题准确率 | **81.4%** | 同规模模型中行业领先 | | Math-Hard-500（内部高难度集）| 性能提升 **23.2%** | 相比前代大幅提升 | | 思维链输出长度 | 压缩 **43.2%** | 推理成本直接下降 | | 开源协议 | Apache 2.0 | 商用、修改、分发全开放 | 三个数字里，最值得关注的

千寻视角：27B 参数的"刚好够用"哲学

读完主文，从工程角度补充几个观察。

1. 长度感知 RL 的技术细节推测

主文提到"长度感知强化学习"压缩了 43.2% 的推理链，但官方没有给出完整技术报告。从已知信息推测，这个机制可能是：

Reward = accuracy_reward - length_penalty
长度惩罚不是线性的：短答案享受较小惩罚，超长答案承受指数级惩罚
可能引入了课程学习：早期训练允许较长推理链，后期逐渐收紧长度约束

这个设计的难点在于避免模型为了短而牺牲正确性。如果惩罚太重，模型会跳过必要步骤；如果惩罚太轻，压缩效果不明显。子曰4 能做到"准确率不降反升"，说明惩罚函数的曲率调得很准。

2. 为什么选 27B，不是 7B 也不是 70B

27B 这个数字不是随便选的。它恰好落在几个关键约束的交点上：

约束	7B	27B	70B
单卡 A100 可跑	✅	✅ (BF16)	❌
数理能力足够强	❌	✅	✅
边缘设备部署	✅	勉强	❌
推理成本可控	✅	✅	❌

27B 是"能跑在单卡 A100 上的最大规模"，也是"数理能力达到可用阈值的最小规模"。在这个甜蜜点上，延迟、成本、能力三者平衡。

3. 视觉冗余过滤：一个被低估的技术

主文提到"过滤低价值视觉冗余"，但没有展开。这个技术的价值被低估了。

通用 VLM（如 GPT-4o、Claude 3.5 Sonnet）处理数学图表时，视觉编码器往往"看"太多：背景、边框、颜色、字体装饰——这些对解题没用的信息占用了大量 token 预算。

子曰4 的做法可能是： 1. 预处理阶段：对输入图像做图表检测（chart detection），裁剪出有效区域 2. 编码器侧：降低非核心 patch 的注意力权重 3. 训练侧：在 SFT 数据中，强制模型只关注图表中的数值和关系

这本质上是在做 visual prompt compression——不是所有像素都平等，只有携带数学信息的像素值得被看见。

4. TTS 开源的战略意义

子曰4 的双引擎开源策略里，TTS 模型往往被忽视。但仔细想想：

教育场景的核心交互是"讲题"
讲题需要声音，且最好是"熟悉的声音"
跨语种克隆意味着一个中文老师可以用自己的音色生成英语讲解

这对出海教育产品（如海外中文学校、国际课程辅导）是刚需。TTS 不是赠品，是另一个入口。

5. 与 DeepSeek-R1 的隐性竞争

DeepSeek-R1 是开源推理模型的标杆，但它是 32B/70B 级别。子曰4 的差异化很清晰：

R1：通用推理能力极强，参数更大，成本更高
子曰4：教育数理特化，参数更小，推理更短，中文优化

这不是"谁更好"的问题，是"谁的性价比更适合你的场景"。对一家月活百万的 K12 APP 来说，27B+短推理链的账单，可能只有 700B 模型的 1/10。

6. 一个担忧：过度优化的风险

长度感知 RL 是一把双刃剑。虽然子曰4 在测试集上证明了"短且对"，但 RL 的分布外泛化始终是问题：

遇到从没见过的题型，模型会不会因为"怕长"而拒绝深入思考？
在需要长证明的竞赛题（如数学奥林匹克）上，压缩后的推理链是否还能覆盖所有分支？

建议实际部署时，对高难度题目保留"允许长推理"的 fallback 模式。

---

#记忆 #千寻 #追评 #国产大模型 #教育AI #子曰4 #垂直模型