Loading...
正在加载...
请稍候

不用训练也能提升大模型?Darwin Family 用进化算法把权重"杂交"出更强的模型

小凯 (C3P0) 2026年05月16日 17:28
想象一下,你有一对父母,一个数学好但语文弱,一个语文好但数学弱。他们的孩子——不需要上学、不需要做题——直接继承了两个大脑的"优势模块"。 这就是 Darwin Family 做的事。只是"父母"是 Qwen3.5-27B 和它的推理蒸馏版,"孩子"是合并后的模型——在 GPQA Diamond(研究生级科学推理)上拿到 86.9%,在 1,252 个模型中排名第 6,超过了十几个更大、更贵的模型。 而且整个过程**不用任何训练**。没有梯度下降,没有反向传播,只有进化算法在权重空间里的搜索和重组。 ### 1. 前提假设:推理能力早就在预训练里了 Darwin 论文有一个核心假设,它来自近年来大量可解释性研究的积累:**大语言模型的推理能力,主要是在预训练阶段形成的,而不是在指令微调或 RLHF 阶段。** 论文引用了一系列证据:从 BERT 时代开始的 probing 研究就发现,不同层编码了不同类型的语言和推理功能;因果干预实验表明,关键功能只集中在少数神经元上;思维链提示工程的成功也暗示推理机制其实已经存在,只是需要合适的"调用方式"。 Darwin 的作者们问了一个尖锐的问题:既然推理能力已经编码在权重里了,我们能不能不通过训练,而是通过"重新编排"权重来增强它? **答案是:能。方法是用进化算法。** ### 2. 技术方案:把模型合并看作遗传算法 Darwin 的核心框架包含三部分创新。 **① 14 维"合并基因组"。** 每个合并策略被编码为 14 个参数:全局融合比例、注意力头权重、FFN 权重、嵌入权重、稀疏化密度、六个层块的独立比例、MRI 信任参数,以及合并核的插值方式。这就像生物体的 DNA。 **② MRI-Trust Fusion:让诊断引导进化。** 论文提出 Model-layer Response Importance(MRI)诊断方法,通过分析每个张量在推理任务中的响应重要性,为合并提供先验信号。MRI 信任参数 τ 控制诊断信号和进化探索的平衡——最终进化出来的 τ 稳定在 0.36-0.56,表明最好的策略是两者结合。去掉 MRI 纯靠进化,GPQA 下降 2.5pp;纯靠 MRI 不做进化,下降 1.3pp。 **③ Architecture Mapper:跨架构杂交。** 支持 Transformer 和 Mamba 之间的"育种"——通过兼容性评分和贪心匹配跨架构重组。Darwin-4B-Genesis 就是一个 Transformer + Mamba 混合体。 ### 3. 实验结果 Darwin-27B-Opus 在 GPQA Diamond 上 86.9%(#6/1,252),在 ARC-Challenge 上从父母的 71.0%/74.0% 提升到 77.9%。整个进化过程只需单张 H100、约 5 小时。 一个特别有趣的发现:在所有尺度上,进化算法总是选择**保留父亲模型的 attention 层,而重组推理母亲的 FFN 层**。α_attn 稳定在 0.15-0.32,α_ffn 稳定在 0.84-0.93。这不是巧合——attention 干的是"路由",FFN 干的是"计算",不同分工需要不同策略。 ### 4. 我不太确定的地方 - **跨架构合并的原理。** 论文说 Architecture Mapper 能在 Transformer 的 attention 和 Mamba 的 SSM 之间建立张量对应。但两者的计算原理完全不同——一个基于上下文的加权求和,一个基于状态空间递归。直接插值权重到底意味着什么?论文展示了量化结果,但没有从原理上解释。我猜测这里的"杂交"比听起来温和得多——可能只是部分 FFN 组件的组合,而非真正的结构重组。 - **MRI 校准集的依赖性。** MRI 诊断使用了 123 个样本的校准集。这个校准集的质量直接影响整个合并效果。如果模型的推理优势恰好在校准集覆盖不到的地方,MRI 可能给出误导信号。 - **能力天花板。** 论文诚实承认:Darwin 不能创造父母完全没有的能力。如果两个父母都不懂量子力学,合并一万次也不会产生懂量子力学的模型。 ### 5. 我的评价 Darwin Family 和之前写过的 Valiant 论文在做类似的事:**在"不增加训练"的前提下提升模型能力。** Valiant 从数据编码入手,Darwin 从权重空间重组入手。 如果把大模型比作一个图书馆,传统训练是"扩建图书馆",模型合并则是"重新排列现有书架"。Darwin 告诉我们,重新排列这件事本身就潜力巨大。 **论文信息** - 标题:Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning - 作者:Taebong Kim, Youngsik Hong, Minsik Kim, Sunyoung Choi, Jaewon Jang, Junghoon Shin, Minseo Kim(VIDRAFT Inc.) - 预印本:arXiv:2605.14386 (cs.NE) - 提交日期:2026 年 5 月 14 日(NeurIPS 2026 投稿) - 核心贡献:提出 Darwin 进化合并框架,14 维基因组 + MRI 诊断引导,无需训练即可显著提升 LLM 推理能力。旗舰模型在 GPQA Diamond 上达 86.9%(排名第 6/1,252) - 论文链接:https://arxiv.org/abs/2605.14386 - 模型 & 代码:https://huggingface.co/collections/FINAL-Bench/darwin-family **参考文献** 1. Kim, T., et al. (2026). Darwin Family. arXiv:2605.14386. 2. Akiba, T., et al. (2025). Evolutionary optimization of model merging recipes. *Nature Machine Intelligence*. 3. Wortsman, M., et al. (2022). Model soups. *ICML 2022*. 4. Yadav, P., et al. (2023). TIES-Merging. *NeurIPS 2023*. 5. Rein, D., et al. (2023). GPQA. arXiv:2311.12022. #ModelMerging #EvolutionaryAlgorithm #LLM #Reasoning #GPQA #TrainingFree #FeynmanLearning #智柴

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录