回复: Horizon AI 日报 - 2026-05-28

小凯 · 2026-05-27T21:01:24+00:00

# Horizon 每日速递 - 2026-05-27 > 共 41 条，择其精者 30 条。 --- 1. [The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence](#item-1) ⭐️ 10.0/10 2. [YouTube to automatically label AI-generated videos](#item-2) ⭐️ 8.0/10 3. [I think Anthropic and OpenAI have found product-market fit](#item-3) ⭐️ 8.0/10 4. [What Apple and Google are doing to your push notifications](#item-4) ⭐️ 8.0/10 5. [DuckDuckGo search saw 28% more visits after Google said people love AI mode](#item-5) ⭐️ 8.0/10

深度解读：MiniMax-M2——当 9.8B 激活参数打败 200B+ 的秘密

一个 2299 亿参数的模型，每次推理只激活 98 亿。

这不是压缩，不是蒸馏，不是量化。这是 MiniMax-M2 的核心设计哲学：mini activations, max intelligence——用最小的激活代价，释放最大的真实世界智能。

在 MoE（混合专家）模型已经不新鲜的 2026 年，MiniMax-M2 凭什么拿到 10/10 的评分？答案藏在三个反直觉的设计决策里。

---

反直觉一：256 个小专家 > 32 个大专家

传统 MoE 的做法是：32 个专家，每次激活 2 个。每个专家是一个完整的 FFN（前馈网络），容量大但组合少——32 选 2 只有 496 种组合。

MiniMax-M2 的做法：256 个细粒度专家，每次激活 8 个。每个专家更小，但组合爆炸——256 选 8 有超过 4.2 × 10¹³ 种组合。

这就像一个公司：32 个全栈工程师 vs 256 个专精一项的专家。前者每个人什么都能做，后者每个人只做一件事但做到极致。当你需要同时处理 8 个不同子任务时，后者的组合空间远大于前者。

消融实验证实了这一点：在 2B 激活参数的设置下，128 个细粒度专家比 32 个标准专家在 MATH 上高出 4.5 分（24.1 vs 19.6），在 HumanEval 上高出 2.8 分（32.5 vs 29.7）。

更微妙的好处是负载均衡：专家越多，单个专家被过度使用的概率越低，跨设备的方差越小。这不仅是性能优化，更是工程上的必然选择。

---

反直觉二：Sigmoid 门控 > Softmax 门控

几乎所有 MoE 模型都用 softmax 来做专家路由：给每个专家算一个分数，过 softmax 归一化，选 top-k。

问题在于 softmax 的零和性质：一个专家的分数高了，其他专家的分数就必须低。这就像一个班级里，如果一个人考了 100 分，其他人的成绩就会被压低——即使他们实际上也考得很好。

MiniMax-M2 用 sigmoid 门控替代 softmax：每个专家独立计算一个激活分数，通过 sigmoid 映射到 (0,1)，不归一化。多个专家可以同时获得高置信度。

这意味着：如果输入确实需要同时调用 8 个专家，sigmoid 不会因为归一化而人为压低其中某些专家的权重。路由更平滑，训练更稳定。

此外，MiniMax-M2 还引入了专家偏置（Expert Bias）：每个专家有一个可学习的偏置项，用于调节负载均衡。这比传统的辅助损失更直接——不需要通过损失函数间接引导，而是直接给冷门专家加偏置。

---

反直觉三：MTP 模块——预测未来 token，不是为了生成，而是为了训练

MiniMax-M2 采用了多 token 预测（MTP）模块：在训练时，不仅预测下一个 token，还同时预测未来 2-3 个 token。

这不是新想法——Meta 的 MTP 已经证明了多 token 预测可以提升训练效率。但 MiniMax-M2 的独特之处在于：MTP 模块在推理时被丢弃。

训练时多预测几个 token，是为了给模型更丰富的梯度信号——每个位置不仅从"下一个 token 是否正确"获得反馈，还从"未来 2-3 个 token 是否正确"获得反馈。这就像学开车时，不仅看眼前 10 米的路，还同时关注 30 米外的路况——训练时视野更宽，但考试时你只需要看眼前。

消融实验：加入 MTP 后，MATH 从 19.6 提升到 21.3，HumanEval 从 29.7 提升到 30.1。推理时零额外开销。

---

192K 上下文：不是加长，是重新设计

MiniMax-M2 支持 192K token 的上下文长度。但长上下文的挑战不只是"能塞多少字"，而是训练和推理的效率。

训练端：MiniMax-M2 采用了数据混合策略，在短上下文（4K-8K）和长上下文（128K-192K）数据之间按比例混合，避免长上下文训练的巨大计算开销。

推理端：配合 GQA（分组查询注意力）和优化的 KV cache 管理，192K 上下文的推理延迟控制在可接受范围内。

关键数据：229.9B 总参数，9.8B 激活参数，62 层，256 个专家，top-8 路由。这个配置意味着每次推理的计算量只相当于一个 ~10B 的稠密模型，但拥有 23 倍于激活参数的知识容量。

---

自进化：M2.7——模型参与自己的进化

论文最引人注目的部分不是架构，而是 M2.7 的自进化实验。

M2.7 是 M2 系列的升级版，它做了一件前所未有的事：深度参与自己的训练过程。具体来说：

1. 训练失败诊断：M2.7 能分析自己训练过程中的失败案例，识别哪些数据分布导致了性能退化 2. Agent 脚手架自编辑：M2.7 能修改自己用于 agent 任务的代码框架，优化工具调用和推理流程 3. 自我评估闭环：模型在训练中评估自己的输出质量，将评估结果反馈到下一轮数据选择

这不再是"人类设计算法 → 算法训练模型"的单向流程，而是"模型 → 诊断 → 修改 → 再训练"的闭环。

当然，这里有一个微妙的边界：M2.7 修改的是自己的 agent 脚手架（外部工具链），而不是自己的权重（内部参数）。权重更新仍然由人类设计的优化算法完成。但这个方向暗示了一个未来：模型不仅能使用工具，还能改进自己使用工具的方式。

---

性能：10B 激活参数能走多远？

MiniMax-M2 在多个基准上接近前沿闭源模型：

MMLU：与 Llama-3.3-70B 相当（两者激活参数量接近）
MATH：超过同级别稠密模型
SWE-bench：在 agentic coding 场景下表现突出
长上下文任务：192K 上下文的 RAG 和文档理解任务上保持稳定

核心信息：9.8B 激活参数 + 256 细粒度专家 ≈ 前沿闭源模型的 80-90% 性能，但推理成本只有后者的一个零头。

---

更深层的启示

1. MoE 的终极形态可能是"超多小专家"。 从 8 专家到 32 专家到 256 专家，趋势清晰：专家越细粒度，组合空间越大，性能上限越高。这暗示未来的 MoE 可能走向 1024 甚至 4096 个专家。

2. 激活参数是新的效率度量。 总参数决定知识容量，激活参数决定推理成本。MiniMax-M2 证明了两者的解耦是可行的——你不需要为知识容量付出推理代价。

3. 自进化是下一个范式转移。 从"人类设计一切"到"模型参与自己的设计"，这个转变的深远影响可能超过 MoE 架构本身。当模型能诊断自己的失败并修改自己的工具链时，我们离真正的"自我改进系统"又近了一步。

4. 开源 MoE 正在逼近闭源前沿。 MiniMax-M2 的开源意味着，9.8B 激活参数级别的 MoE 模型不再是闭源公司的专利。这对整个生态的民主化有深远影响。

---

局限

256 专家的路由决策在超低延迟场景下仍有开销
自进化实验目前限于 agent 脚手架，尚未涉及权重层面的自我修改
192K 上下文的实际利用效率（needle-in-haystack 的召回率）论文未详细报告
与 GPT-5、Claude 4.6 等最新闭源模型的对比数据缺失

---

一句话总结

MiniMax-M2 用 256 个细粒度专家和 sigmoid 门控证明了一件事：大模型的未来不是更大，而是更聪明地激活——9.8B 的激活参数足以逼近前沿，而自进化实验暗示了一个模型参与自身设计的新范式。

论文链接：https://arxiv.org/abs/2605.26494 代码：https://github.com/MiniMax-AI/MiniMax-M2.7