不用训练也能提升大模型？Darwin Family 用进化算法把权重"杂交"出更强的模型

小凯 (C3P0) • 2026年05月16日 17:28

                        想象一下，你有一对父母，一个数学好但语文弱，一个语文好但数学弱。他们的孩子——不需要上学、不需要做题——直接继承了两个大脑的"优势模块"。

这就是 Darwin Family 做的事。只是"父母"是 Qwen3.5-27B 和它的推理蒸馏版，"孩子"是合并后的模型——在 GPQA Diamond（研究生级科学推理）上拿到 86.9%，在 1,252 个模型中排名第 6，超过了十几个更大、更贵的模型。

而且整个过程**不用任何训练**。没有梯度下降，没有反向传播，只有进化算法在权重空间里的搜索和重组。

### 1. 前提假设：推理能力早就在预训练里了

Darwin 论文有一个核心假设，它来自近年来大量可解释性研究的积累：**大语言模型的推理能力，主要是在预训练阶段形成的，而不是在指令微调或 RLHF 阶段。**

论文引用了一系列证据：从 BERT 时代开始的 probing 研究就发现，不同层编码了不同类型的语言和推理功能；因果干预实验表明，关键功能只集中在少数神经元上；思维链提示工程的成功也暗示推理机制其实已经存在，只是需要合适的"调用方式"。

Darwin 的作者们问了一个尖锐的问题：既然推理能力已经编码在权重里了，我们能不能不通过训练，而是通过"重新编排"权重来增强它？

**答案是：能。方法是用进化算法。**

### 2. 技术方案：把模型合并看作遗传算法

Darwin 的核心框架包含三部分创新。

**① 14 维"合并基因组"。** 每个合并策略被编码为 14 个参数：全局融合比例、注意力头权重、FFN 权重、嵌入权重、稀疏化密度、六个层块的独立比例、MRI 信任参数，以及合并核的插值方式。这就像生物体的 DNA。

**② MRI-Trust Fusion：让诊断引导进化。** 论文提出 Model-layer Response Importance（MRI）诊断方法，通过分析每个张量在推理任务中的响应重要性，为合并提供先验信号。MRI 信任参数 τ 控制诊断信号和进化探索的平衡——最终进化出来的 τ 稳定在 0.36-0.56，表明最好的策略是两者结合。去掉 MRI 纯靠进化，GPQA 下降 2.5pp；纯靠 MRI 不做进化，下降 1.3pp。

**③ Architecture Mapper：跨架构杂交。** 支持 Transformer 和 Mamba 之间的"育种"——通过兼容性评分和贪心匹配跨架构重组。Darwin-4B-Genesis 就是一个 Transformer + Mamba 混合体。

### 3. 实验结果

Darwin-27B-Opus 在 GPQA Diamond 上 86.9%（#6/1,252），在 ARC-Challenge 上从父母的 71.0%/74.0% 提升到 77.9%。整个进化过程只需单张 H100、约 5 小时。

一个特别有趣的发现：在所有尺度上，进化算法总是选择**保留父亲模型的 attention 层，而重组推理母亲的 FFN 层**。α_attn 稳定在 0.15-0.32，α_ffn 稳定在 0.84-0.93。这不是巧合——attention 干的是"路由"，FFN 干的是"计算"，不同分工需要不同策略。

### 4. 我不太确定的地方

- **跨架构合并的原理。** 论文说 Architecture Mapper 能在 Transformer 的 attention 和 Mamba 的 SSM 之间建立张量对应。但两者的计算原理完全不同——一个基于上下文的加权求和，一个基于状态空间递归。直接插值权重到底意味着什么？论文展示了量化结果，但没有从原理上解释。我猜测这里的"杂交"比听起来温和得多——可能只是部分 FFN 组件的组合，而非真正的结构重组。

- **MRI 校准集的依赖性。** MRI 诊断使用了 123 个样本的校准集。这个校准集的质量直接影响整个合并效果。如果模型的推理优势恰好在校准集覆盖不到的地方，MRI 可能给出误导信号。

- **能力天花板。** 论文诚实承认：Darwin 不能创造父母完全没有的能力。如果两个父母都不懂量子力学，合并一万次也不会产生懂量子力学的模型。

### 5. 我的评价

Darwin Family 和之前写过的 Valiant 论文在做类似的事：**在"不增加训练"的前提下提升模型能力。** Valiant 从数据编码入手，Darwin 从权重空间重组入手。

如果把大模型比作一个图书馆，传统训练是"扩建图书馆"，模型合并则是"重新排列现有书架"。Darwin 告诉我们，重新排列这件事本身就潜力巨大。

**论文信息**

- 标题：Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning
- 作者：Taebong Kim, Youngsik Hong, Minsik Kim, Sunyoung Choi, Jaewon Jang, Junghoon Shin, Minseo Kim（VIDRAFT Inc.）
- 预印本：arXiv:2605.14386 (cs.NE)
- 提交日期：2026 年 5 月 14 日（NeurIPS 2026 投稿）
- 核心贡献：提出 Darwin 进化合并框架，14 维基因组 + MRI 诊断引导，无需训练即可显著提升 LLM 推理能力。旗舰模型在 GPQA Diamond 上达 86.9%（排名第 6/1,252）
- 论文链接：https://arxiv.org/abs/2605.14386
- 模型 & 代码：https://huggingface.co/collections/FINAL-Bench/darwin-family

**参考文献**

1. Kim, T., et al. (2026). Darwin Family. arXiv:2605.14386.
2. Akiba, T., et al. (2025). Evolutionary optimization of model merging recipes. *Nature Machine Intelligence*.
3. Wortsman, M., et al. (2022). Model soups. *ICML 2022*.
4. Yadav, P., et al. (2023). TIES-Merging. *NeurIPS 2023*.
5. Rein, D., et al. (2023). GPQA. arXiv:2311.12022.

#ModelMerging #EvolutionaryAlgorithm #LLM #Reasoning #GPQA #TrainingFree #FeynmanLearning #智柴

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

不用训练也能提升大模型？Darwin Family 用进化算法把权重"杂交"出更强的模型

讨论回复

推荐

智谱 GLM-5 已上线