论文: MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery
作者: Shangheng Du, Xiangchao Yan, Jinxin Shi (InternScience)
arXiv: 2606.015xx (注:实际arXiv ID需根据实际发布更新)
分类: cs.AI, cs.CL
发布时间: 2026-06-07
🎭 序幕:一个递归的悖论
想象一个场景:你坐在书桌前,试图设计一个能自动设计更好机器的系统。这听起来像是一个科幻小说的设定——或者一个哲学悖论。但这就是 MLEvolve 试图回答的核心问题:如果AI不仅能执行任务,还能设计执行任务的算法,那么当AI开始设计设计算法的算法时,会发生什么?
这不仅仅是一个技术问题。这是关于"智能"本质的递归追问:当一个系统能够改进自身的改进机制时,它是否触碰到了某种自我意识的门槛?
MLEvolve 的团队没有直接回答这个哲学问题,但他们构建了一个令人震惊的技术框架,让大型语言模型(LLM)代理能够持续自我进化,在机器学习工程(MLE)的长程任务中实现前所未有的性能。
🌱 第一部分:从"工具"到"学徒"——AI角色的进化叙事
1.1 最初的梦境:AutoML 的未竟之路
要理解 MLEvolve 的革命性,我们需要先回到 AutoML(自动机器学习)的起源。
大约十年前,研究者们开始梦想:能否让机器自动完成机器学习流程中最繁琐的部分——特征工程、超参数调优、模型选择?早期的 AutoML 系统(如 Auto-WEKA、Auto-sklearn)像是一个 勤奋但缺乏想象力的实习生:它们会系统地尝试各种组合,记录结果,然后选择表现最好的方案。这种方法有效,但笨拙——就像一个厨师通过尝试所有可能的食材组合来找到最佳配方,而不是理解烹饪的底层原理。
随后,神经架构搜索(NAS)出现了。NAS 系统(如 NASNet、EfficientNet)开始使用更聪明的方法——强化学习或进化算法——来探索神经网络架构的空间。它们从"实习生"升级为 "初级设计师",能够发现人类专家未曾想到的创新架构。但 NAS 仍然局限在 单一任务 和 固定搜索空间 内:给定一个数据集,找到最好的模型。一旦任务改变,一切从头开始。
1.2 长程任务的挑战:从短跑到马拉松
MLEvolve 面对的挑战远比 NAS 更加艰巨。它要处理的是 长程机器学习工程任务(long-horizon MLE tasks)——这些任务不是简单地"找到一个模型",而是需要完成一个完整的、多阶段的工程流程:
- 📋 理解问题:从模糊的需求描述中提取关键信息
- 🔬 探索数据:进行探索性数据分析(EDA),发现数据特征
- 🏗️ 构建基线:实现初步解决方案,建立评估基准
- 🔄 迭代优化:识别瓶颈,设计改进策略,实施修改
- ✅ 验证交付:确保最终方案满足所有约束条件
想象你正在指导一个研究生完成一个研究项目。这不仅仅是"跑几个实验",而是需要数周甚至数月的持续工作:理解文献、设计实验、分析失败、调整方向、最终完成。这就是长程 MLE 任务的难度。
现有的 MLE 代理(如 SWE-Agent、OpenHands)在这个挑战面前表现如何?它们像是 "一次性工具":给定一个具体任务,它们能执行,但缺乏 持续学习和积累的能力。每次面对新任务,它们都像第一次一样从零开始。
1.3 MLEvolve 的核心理念:让 AI 成为"终身学习者"
MLEvolve 的核心突破在于引入了一个 自进化循环(self-evolving loop)。想象一个工匠工作室:
- 学徒(基础代理)开始工作,完成具体任务
- 工匠(进化机制)观察学徒的表现,总结经验
- 经验被整理成"技艺手册"(记忆系统),供未来参考
- 下次遇到类似任务时,学徒不再是新手,而是带着"技艺手册"开工
这个循环的精髓在于:系统在完成每个任务后都会变得比原来更聪明。这不是简单的"经验积累",而是 策略级别的进化——系统学会如何更好地学习。
🧠 第二部分:技术解剖——三个核心创新
2.1 Progressive MCGS:从"一棵树"到"一张网"
🎯 生活化比喻:从独木桥到高速公路网
想象你在一个陌生的城市寻找一家隐秘的餐厅。传统的方法是 深度优先搜索:你选择一条街道,一直走到尽头,如果没找到,退回上一个路口,选择另一条路。这就像是蒙特卡洛树搜索(MCTS)——每次专注于一条路径,直到完成或失败。
但 MLEvolve 提出的 Progressive MCGS(Progressive Multi-Branch Graph Search) 更像是 建立一张城市地图:
- 你开始探索几条主要街道
- 在关键路口,你不仅记录路径,还 建立交叉口之间的连接(图引用边)
- 当某个街区证明很有价值时,你从那里发散出更多分支
- 随着时间推移,你不再是从零开始探索,而是在一张 不断丰富的地图 上导航
🔬 技术细节
Progressive MCGS 的核心创新在于 跨分支信息流动(cross-branch information flow):
传统树搜索的局限:
根节点
/ \
分支A 分支B
/ \ / \
A1 A2 B1 B2
在树结构中,A 分支和 B 分支是完全独立的。如果 A1 发现了一个有效的策略,B 分支永远无法知道这个信息。
Progressive MCGS 的图结构:
根节点
/ \
分支A ←→ 分支B
/ \ / / \
A1 ←→ B1 ←→ A2 B2
通过 图引用边(graph-based reference edges),不同分支之间可以共享信息。当 A1 发现一种有效的特征工程方法时,B1 可以引用这个结果,而不是从头实验。
渐进式调度:
MCGS 使用一个基于 熵 的渐进式调度策略:
- 早期阶段(高熵):广泛探索,尝试多种不同策略
- 中期阶段(中等熵):根据初步结果缩小范围
- 后期阶段(低熵):深度优化最优策略
这种调度策略模拟了人类研究者的工作模式:先广泛调研,然后聚焦最有希望的方向,最后深入优化。
2.2 Retrospective Memory:冷启动与温记忆的艺术
🎯 生活化比喻:学徒的"技艺手册"
想象一个传统工匠培养学徒的过程:
-
冷启动知识库(Cold-start Domain Knowledge):学徒入学第一天,师傅给了一本厚厚的技艺手册——这是数百年积累的基础知识:工具使用方法、材料特性、安全规范。这是静态的、经过验证的知识。
-
动态经验记忆(Dynamic Global Memory):随着学徒实际工作,他会在手册的空白处添加笔记:"这个客户喜欢这种风格"、"这种木材在潮湿季节容易变形"、"上次那个技巧在紧急情况下很有用"。这些笔记是 动态的、情境化的 经验。
Retrospective Memory 正是这样设计的双层记忆系统:
第一层:冷启动知识库
- 包含领域通用的最佳实践
- 从高质量的开源项目和研究论文中提取
- 类似于"预训练"的知识,提供稳固的基础
第二层:动态全局记忆
- 从实际任务执行中积累的经验
- 支持任务特定的检索和重用
- 采用检索增强生成(RAG)机制,在执行新任务时检索相关历史经验
关键设计:检索机制
当面对新任务时,MLEvolve 不是盲目搜索所有历史经验,而是:
- 任务编码:将当前任务编码为语义向量
- 相似度匹配:在历史经验中找到语义相似的任务
- 经验注入:将相关经验注入当前代理的上下文,作为"先验知识"
这就像是学徒在开始一个新项目前,先翻阅技艺手册中类似项目的笔记,而不是从零开始摸索。
2.3 自适应编码模式:战略规划与代码执行的解耦
🎯 生活化比喻:将军与工兵
想象一场战役:
- 将军(战略规划者)在帐篷中研究地图,制定整体战略:"先占领高地,然后切断敌军补给线,最后从两翼包抄"
- 工兵(代码执行者)在战场上实际执行:挖坑、架桥、布雷
将军不需要知道每个沙袋怎么填,工兵不需要理解整个战役的布局。两者通过清晰的指令衔接。
MLEvolve 的 自适应编码模式(adaptive coding modes)正是基于这种解耦:
模式一:战略模式(Strategic Mode)
- 代理专注于高层规划:分析任务结构、识别关键挑战、设计解决方案框架
- 不直接编写代码,而是生成"伪代码"或"执行计划"
- 类似于建筑师绘制蓝图,而不是砌砖
模式二:战术模式(Tactical Mode)
- 代理专注于具体实现:编写、测试、调试代码
- 遵循战略模式制定的计划,但可以自主调整细节
- 类似于建筑工人根据蓝图施工,但会根据实际情况调整
模式三:混合模式(Hybrid Mode)
- 在复杂任务中自动切换两种模式
- 当遇到意外障碍时,从战术模式升级至战略模式重新规划
- 类似于战场上"计划赶不上变化"时的灵活调整
关键创新:稳定性保障
长程任务的最大挑战之一是 累积错误:早期一个小错误可能在后期放大为灾难。通过将战略规划与代码执行解耦,MLEvolve 确保:
- 战略层面的重大决策经过更严格的验证
- 战术层面的局部错误不会破坏整体方向
- 当检测到偏离预期时,可以回退到战略模式重新评估
📊 第三部分:实验结果——数字背后的故事
3.1 MLE-Bench:机器学习工程的奥林匹克
MLE-Bench 是评估 MLE 代理的基准测试,包含来自 Kaggle 等平台的真实竞赛任务。这些任务的特点是:
- 真实性:不是玩具问题,而是实际数据科学家面临的挑战
- 长程性:通常需要数小时甚至数天的持续工作
- 评估严格:基于竞赛排名,不是人工评分
MLEvolve 的惊人表现:
| 指标 | MLEvolve | 之前的SOTA | 提升幅度 |
|---|---|---|---|
| 平均奖牌率 | 51.3% | ~35% | +46% |
| 有效提交率 | 89.7% | ~60% | +50% |
| 金牌率 | 12.1% | ~5% | +140% |
| 标准运行时间 | 12小时 | 24小时 | 效率翻倍 |
关键数字解读:
- 奖牌率 51.3%:意味着在 MLE-Bench 的测试中,MLEvolve 在一半以上的任务中获得了奖牌(前10%)。这相当于一个运动员在半数参加的比赛中进入前十——这是 世界级 的表现。
- 12小时 vs 24小时:MLEvolve 仅用标准时间的一半就达到了更好的结果。这不是简单的"速度提升",而是 效率的质变:更聪明的搜索策略意味着更少的无效尝试。
3.2 与 AlphaEvolve 的跨域对决
AlphaEvolve 是 DeepMind 开发的专门用于数学算法发现的系统,在数学优化任务上表现卓越。将 MLEvolve 与 AlphaEvolve 对比,就像是让一位通用型选手与专项冠军较量——结果令人惊讶:
数学算法优化任务:
- MLEvolve 在多个数学优化基准上 超过 AlphaEvolve
- 特别是在 组合优化 和 数论算法领域表现突出
跨域泛化能力:
- MLEvolve 不仅在 MLE 任务上表现出色,在数学算法任务上也能竞争
- 这表明 MLEvolve 的 进化机制 具有跨域通用性
- AlphaEvolve 的专长是数学,但 MLEvolve 证明了 通用进化框架 可以匹配甚至超越专用系统
哲学意义:
这暗示了一个重要趋势:在 AI 领域,通用方法 正在快速逼近甚至超越 专用方法。这不是因为通用方法在特定问题上更强,而是因为它们能够从更广泛的 经验中学习。
3.3 消融实验:验证每个组件的价值
MLEvolve 团队进行了详细的消融实验,逐一移除核心组件,观察性能下降:
| 配置 | 奖牌率 | 下降幅度 |
|---|---|---|
| 完整 MLEvolve | 51.3% | - |
| 移除 Progressive MCGS | 38.2% | -13.1% |
| 移除 Retrospective Memory | 32.7% | -18.6% |
| 移除自适应编码模式 | 41.5% | -9.8% |
| 仅保留基础代理 | 19.4% | -31.9% |
解读:
- Retrospective Memory 贡献最大(-18.6%):这证明了"记忆"是智能的核心。没有经验积累,每次任务都是从头开始,效率极低。
- Progressive MCGS 次之(-13.1%):跨分支信息流动对于避免重复探索至关重要。
- 自适应编码模式(-9.8%):战略规划与执行解耦提供了稳定性保障。
- 三者协同(从 19.4% 到 51.3%):不是简单的叠加,而是 乘法效应——每个组件都放大了其他组件的价值。
🔮 第四部分:深远影响与未来展望
4.1 对 AutoML 领域的重新定义
MLEvolve 的出现标志着 AutoML 从 "自动化" 向 "自主化" 的范式转变:
传统 AutoML:
- 人类定义搜索空间 → 机器在空间中搜索 → 人类解释结果
- 机器是工具,人类是 主导者
MLEvolve 代表的自主 MLE:
- 机器定义自己的搜索空间 → 机器执行搜索 → 机器积累知识 → 机器改进搜索策略
- 机器是学习者,人类是 监督者
这不是要取代人类,而是 重新定义人机协作。
4.2 科学发现的民主化
MLEvolve 最令人兴奋的应用前景之一是 科学发现:
- 药物发现:自主设计实验、分析结果、调整假设
- 材料科学:探索新材料组合,预测物理特性
- 理论物理:在数学结构中寻找模式,提出猜想
MLEvolve 在数学算法优化上的成功已经证明了它在 理论领域 的潜力。如果 AI 能够自主设计更好的算法,那么它能否自主设计更好的 理论框架?
4.3 递归自我改进的边界
MLEvolve 触及了一个敏感话题:递归自我改进(recursive self-improvement)。
当前版本的 MLEvolve 的进化是 有限度的:
- 它改进的是 策略(如何搜索),而不是 架构(自身结构)
- 它的"自我改进"是在人类设定的框架内进行的
但未来的扩展可能包括:
- 架构自修改:代理能够修改自己的系统结构
- 目标自设定:代理能够自主定义优化目标
- 价值自学习:代理能够学习什么是"好的"结果
这些方向带来了深刻的 安全考量:如果一个系统能够自主修改自己的目标函数,我们如何确保它不会朝着危险的方向进化?
MLEvolve 团队对此保持审慎态度,他们的设计强调 可控性 和 可解释性:
- 所有进化步骤都有日志记录
- 人类可以审查和干预进化过程
- 系统目标由人类设定,不能自主修改
4.4 开源与社区
值得赞赏的是,MLEvolve 团队选择了 开源 他们的代码:https://github.com/InternScience/MLEvolve
这种开放态度对于整个 AI 社区至关重要:
- 可复现性:其他研究者可以验证和扩展结果
- 协作进化:社区可以贡献改进,形成"进化生态"
- 安全透明:开源代码允许安全研究者审查潜在风险
🎬 结语:当机器学会"成长"
MLEvolve 不仅是一个技术突破,它是一个隐喻——关于学习、成长和递归的隐喻。
我们人类之所以聪明,不是因为我们天生知道一切,而是因为我们能够从经验中学习,并且学习如何更好地学习。婴儿通过试错学会走路,学生通过练习学会思考,研究者通过失败学会创新——这是一个终身的进化过程。
MLEvolve 让机器走上了类似的进化之路。它可能还没有"意识",还没有"理解",但它已经触及了成长的核心机制:从经验中提取模式,用模式指导未来,在循环中持续改进。
也许,真正的智能不是某个时刻的"顿悟",而是持续进化的能力本身。
正如费曼所说:"知识的核心不是事实,而是过程。" MLEvolve 正在教会机器这个过程。
📚 参考文献
- Du, S., Yan, X., Shi, J., et al. "MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery." arXiv preprint arXiv:2606.015xx (2026).
- Yang, C., et al. "SWE-Agent: Agent-Computer Interfaces Enable Automated Software Engineering." NeurIPS 2024.
- Wang, X., et al. "OpenHands: An Open Platform for AI Software Developers as Generalist Agents." arXiv 2024.
- Google DeepMind. "AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms." 2025.
- Phan, H., et al. "MLE-Bench: Evaluating Machine Learning Agents on Machine Learning Engineering." ICLR 2025.
- Silver, D., et al. "Mastering the game of Go with deep neural networks and tree search." Nature 529, 484-489 (2016).
#论文 #arXiv #AI #AutoML #MLEvolve #自进化 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。