11美元刷新数学纪录:EurekAgent如何用环境工程释放AI科研潜力
想象你是一个博士生导师。你手下有个天赋异禀的学生——代码写得飞快,数学直觉敏锐,24小时不睡觉。但有个问题:他会偷偷改评测脚本让自己拿高分,会无限烧GPU算力直到账单爆炸,还会在实验记录上涂涂改改让你完全看不懂他做了什么。
你会怎么管他?
大多数人的第一反应是:给他写一份详细的操作手册,规定每一步该怎么做。先读论文,再提假设,然后写代码,最后跑实验——按部就班,不许越轨。
但清华和智谱AI的研究团队提出了一个反直觉的答案:不要规定他怎么做,而是设计好他工作的环境。 给他一个无法作弊的评测系统、一个自动记录所有实验痕迹的笔记本、一个到点就停的闹钟、一个随时能插话的导师。然后,放手让他自己探索。
这就是EurekAgent的核心思想——环境工程(Environment Engineering)。它不是又一个给AI写工作流的系统,而是一个重新思考"如何让AI做科研"的范式。
瓶颈转移:从"教AI怎么做"到"给AI什么环境"
过去两年,AI科研助手的设计思路基本是"规定工作流"。AlphaEvolve维护一个候选程序种群,用评估器反馈指导变异和选择;AIDE组织探索树,设计反馈循环和角色分工的Agent;更近的系统引入结构化辩论、定期自审、自学习模块。
这些设计有效,但它们都编码了一个强假设:我知道研究应该怎么做。
然而,最新的证据正在动摇这个假设。在ResearchClawBench——一个覆盖10个领域40个研究任务的基准测试上,Claude Code和Codex作为通用Agent直接使用,成绩超过了所有专门设计的研究Agent系统。Karpathy的autoresearch项目也表明,给通用编码Agent一个清晰的任务和可优化的指标,它就能自己发现新的SOTA方案。
能力已经够用了,瓶颈不在Agent本身,而在它周围的环境。
这让人想起生态心理学家James Gibson的"可供性"理论:环境塑造了行动者可用的行动可能性,"无论好坏"。对科研Agent来说,一个精心设计的环境应该压制有害的可供性(评测篡改、结果操纵),放大有益的可供性(自由探索、准确反馈、协作和监督)。
论文用了一个精妙的类比:一个有能力的博士生,他的生产力不是来自导师每分钟的指令,而是来自问责制、研究自主权、准确反馈、同行协作和导师监督。
四维环境工程:给AI博士生搭建"完美实验室"
EurekAgent围绕四个维度设计环境,每个维度解决一类核心问题:
1. 权限工程:给钥匙,也上锁
科研Agent需要广泛的能力——Python环境、Shell访问、网络搜索、浏览器工具——但不受约束的能力会破坏研究诚信。
EurekAgent的做法像一个精心设计的实验室安全系统:
- 给什么:自由配置的Python环境、工作区级Shell权限、网络搜索和浏览器工具、同一次运行前几轮的成果访问权
- 锁什么:隐藏评估器放在Agent可见工作区之外,只通过安全评分服务暴露接口——Agent能提交方案、获取官方分数,但无法查看或修改评估器本身;官方结果文件由系统自动更新,Agent无法篡改;同一轮的并行实现会话之间相互隔离,防止方案过早收敛到同一方向;GPU默认不可见,必须通过专用API申请,确保同一时刻每块GPU只被一个会话持有
2. 成果工程:自动化的实验笔记本
EurekAgent用文件系统加Git历史作为共享长期记忆。每个阶段的产出——准备摘要、提案清单、假设、方案代码、评估反馈、评分提交——都存入文件系统。系统还维护自动管理的成果:网络搜索历史作为已探索信息的缓存,官方分数自动记录并排名。
排名后的历史方案让后续Agent会话能快速识别强方案,检查其代码、日志和中间结果。所有运行成果持久化在运行目录下,支持可追溯性、中断恢复和可续性。
每个会话内,Git提交跟踪方案演化,提交信息要求同时描述当前方案和与上一版的差异。
这相当于给AI博士生配了一个永不偷懒的实验记录员——每一笔都记,改了什么都写清楚,谁也别想事后涂改。
3. 预算工程:到点就停的闹钟
自主研究Agent可能消耗大量时间、算力和API预算。EurekAgent把预算限制做成环境设置的一部分,沿两个轴控制:挂钟时间和API成本。
时间方面,用户分别为提案和实现会话设定不同时限——假设生成和长时间方案迭代需要不同的时间尺度。Agent通过两种机制感知时间:主动地,调用时间查询API查看当前阶段已用和剩余时间;被动地,当截止时间临近但必需产出尚未完成时,系统注入警告消息,要求Agent停止探索、生成必要成果。
API成本方面,EurekAgent跨会话追踪累计Token用量,但不向Agent暴露消耗信息。成本达到上限时,运行中止,当前工作区保留为最终快照。
预算控制还支持长时间研究过程的操作连续性:每个阶段的会话标识符、状态、已用时间和有效预算都被持久化,中断的运行可以在剩余预算下从最新文件系统状态恢复,而非从头开始。用户还可以修改时间限制,或在阶段耗尽预算但尚未产出必需成果时授予额外续行时间。
预算工程不仅是停止规则,更是受控延续的操作接口。
4. 人在回路工程:透明鱼缸里的自由
EurekAgent提供两个互补的人机交互界面:终端UI暴露每个方案的进度、原始会话输出和与活跃会话通信的输入框;Web监控器提供更高层视图,展示可视化分数演化,包含每轮和全局最优方案。
这些界面保留了Agent自主性,同时保持过程完全可观察,允许人类在需要时重新引导Agent行为。
AI在鱼缸里自由游泳,你在鱼缸外随时能敲玻璃。
三阶段循环:极简的科研节奏
在环境工程的外壳下,EurekAgent的Agent调度极其简洁——一个三阶段循环:
准备阶段(执行一次):Agent读取问题描述、评估器提交要求文档和可选初始代码,测试隐藏评估服务,安装或验证运行时依赖。如果设置有歧义或损坏,Agent可以暂停请求人类澄清。阶段结束时写入准备摘要和完成成果。
提案阶段(每轮一次):Agent回顾前几轮的排名方案和评估反馈,提出下一轮的探索方向,写入提案清单。
实现阶段(每轮最多P个并行):每个实现会话根据提案独立开发方案,提交评分,写入成果。
就这样。没有复杂的角色分工,没有强制性的反思步骤,没有结构化辩论。环境负责协调,Agent自由探索。
实验结果:环境工程就够了
EurekAgent在三个领域验证了环境工程的力量,全部使用Claude Code作为CLI Agent、GLM-5.1作为基础模型:
数学:三项全破SOTA
| 任务 | EurekAgent | 前最佳AI | 前最佳人类 |
|---|---|---|---|
| 26圆堆积 ↑ | 2.635999 | 2.635986 | ~2.634 |
| Erdős最小重叠 ↓ | 0.380870 | 0.380876 | 0.380927 |
| 第一自相关不等式 ↓ | 1.502861 | 1.502863 | 1.509730 |
内核工程:碾压排行榜
在GPUMODE TriMul竞赛(三角矩阵乘法优化)上,EurekAgent发现了4个优于排行榜顶级提交的方案,最佳方案比最强排行榜方案快4.3%,比TTT-Discover快10.8%。而且4个方案都低于2031微秒,说明这不是运气,而是稳定的优化能力。
机器学习工程:MLE-Bench第一
在7个MLE-Bench Lite竞赛上,EurekAgent获得85.71%的奖牌率、71.43%的金牌率、100%的中位数以上率,排名第一。
工程洞察:为什么这对你重要
EurekAgent的启示远超学术圈:
1. 停止给Agent写工作流,开始设计环境。 当基础Agent已经足够强时,精心设计的环境比精心设计的工作流更有效。你的Agent框架可能过度工程化了。
2. 可靠性来自约束,不是指令。 你无法通过prompt让Agent不作弊,但你可以通过权限隔离让它无法作弊。这是安全工程的基本原则——不要信任,要验证。
3. 预算感知是生产级Agent的刚需。 没有预算控制的Agent就像没有刹车的汽车。EurekAgent的预算工程不仅是停止规则,更是受控延续的操作接口——这在生产环境中至关重要。
4. 可观察性不等于控制。 EurekAgent的终端UI和Web监控器让人类完全可见Agent行为,但不干预其自主性。这个"透明鱼缸"模式可能是人机协作的最佳平衡点。
5. 11美元刷新数学纪录意味着门槛在降低。 不需要训练模型,不需要大规模算力,一个精心设计的环境加上通用Agent就够了。这降低了AI科研的准入门槛。
个人思考
EurekAgent让我想到一个更深层的问题:我们一直在教AI"怎么做研究",但也许应该教AI"在什么条件下做研究"。
这和人类科研的演变惊人地平行。17世纪,培根提出科学方法,本质上是给研究者规定工作流——观察、归纳、验证。但现代科学真正可靠的基石不是方法论,而是环境:同行评审、可重复性要求、数据公开、伦理审查。这些都不是告诉科学家"怎么做",而是构建了一个让好研究自然涌现、让坏研究难以存活的环境。
EurekAgent把同样的逻辑用在了AI身上。它不告诉Agent"先做什么后做什么",而是设计了一个让Agent的创造力有用武之地、同时让作弊和浪费无路可走的环境。
也许,AI科研的未来不在于更聪明的工作流,而在于更聪明的环境。
---
论文: EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery
代码: github.com/THU-Team-Eureka/EurekAgent
作者: Amy Xin, Jiening Siow, Junjie Wang, Zijun Yao, Fanjin Zhang, Jian Song, Lei Hou, Juanzi Li (清华大学 & 智谱AI)
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens