11美元刷新数学纪录：EurekAgent如何用环境工程释放AI科研潜力

想象你是一个博士生导师。你手下有个天赋异禀的学生——代码写得飞快，数学直觉敏锐，24小时不睡觉。但有个问题：他会偷偷改评测脚本让自己拿高分，会无限烧GPU算力直到账单爆炸，还会在实验记录上涂涂改改让你完全看不懂他做了什么。

你会怎么管他？

大多数人的第一反应是：给他写一份详细的操作手册，规定每一步该怎么做。先读论文，再提假设，然后写代码，最后跑实验——按部就班，不许越轨。

但清华和智谱AI的研究团队提出了一个反直觉的答案：不要规定他怎么做，而是设计好他工作的环境。 给他一个无法作弊的评测系统、一个自动记录所有实验痕迹的笔记本、一个到点就停的闹钟、一个随时能插话的导师。然后，放手让他自己探索。

这就是EurekAgent的核心思想——环境工程（Environment Engineering）。它不是又一个给AI写工作流的系统，而是一个重新思考"如何让AI做科研"的范式。

瓶颈转移：从"教AI怎么做"到"给AI什么环境"

过去两年，AI科研助手的设计思路基本是"规定工作流"。AlphaEvolve维护一个候选程序种群，用评估器反馈指导变异和选择；AIDE组织探索树，设计反馈循环和角色分工的Agent；更近的系统引入结构化辩论、定期自审、自学习模块。

这些设计有效，但它们都编码了一个强假设：我知道研究应该怎么做。

然而，最新的证据正在动摇这个假设。在ResearchClawBench——一个覆盖10个领域40个研究任务的基准测试上，Claude Code和Codex作为通用Agent直接使用，成绩超过了所有专门设计的研究Agent系统。Karpathy的autoresearch项目也表明，给通用编码Agent一个清晰的任务和可优化的指标，它就能自己发现新的SOTA方案。

能力已经够用了，瓶颈不在Agent本身，而在它周围的环境。

这让人想起生态心理学家James Gibson的"可供性"理论：环境塑造了行动者可用的行动可能性，"无论好坏"。对科研Agent来说，一个精心设计的环境应该压制有害的可供性（评测篡改、结果操纵），放大有益的可供性（自由探索、准确反馈、协作和监督）。

论文用了一个精妙的类比：一个有能力的博士生，他的生产力不是来自导师每分钟的指令，而是来自问责制、研究自主权、准确反馈、同行协作和导师监督。

四维环境工程：给AI博士生搭建"完美实验室"

EurekAgent围绕四个维度设计环境，每个维度解决一类核心问题：

1. 权限工程：给钥匙，也上锁

科研Agent需要广泛的能力——Python环境、Shell访问、网络搜索、浏览器工具——但不受约束的能力会破坏研究诚信。

EurekAgent的做法像一个精心设计的实验室安全系统：

给什么：自由配置的Python环境、工作区级Shell权限、网络搜索和浏览器工具、同一次运行前几轮的成果访问权
锁什么：隐藏评估器放在Agent可见工作区之外，只通过安全评分服务暴露接口——Agent能提交方案、获取官方分数，但无法查看或修改评估器本身；官方结果文件由系统自动更新，Agent无法篡改；同一轮的并行实现会话之间相互隔离，防止方案过早收敛到同一方向；GPU默认不可见，必须通过专用API申请，确保同一时刻每块GPU只被一个会话持有

这就像一个化学实验室：试剂和仪器随便用，但剧毒品的柜子只有管理员能开。

2. 成果工程：自动化的实验笔记本

EurekAgent用文件系统加Git历史作为共享长期记忆。每个阶段的产出——准备摘要、提案清单、假设、方案代码、评估反馈、评分提交——都存入文件系统。系统还维护自动管理的成果：网络搜索历史作为已探索信息的缓存，官方分数自动记录并排名。

排名后的历史方案让后续Agent会话能快速识别强方案，检查其代码、日志和中间结果。所有运行成果持久化在运行目录下，支持可追溯性、中断恢复和可续性。

每个会话内，Git提交跟踪方案演化，提交信息要求同时描述当前方案和与上一版的差异。

这相当于给AI博士生配了一个永不偷懒的实验记录员——每一笔都记，改了什么都写清楚，谁也别想事后涂改。

3. 预算工程：到点就停的闹钟

自主研究Agent可能消耗大量时间、算力和API预算。EurekAgent把预算限制做成环境设置的一部分，沿两个轴控制：挂钟时间和API成本。

时间方面，用户分别为提案和实现会话设定不同时限——假设生成和长时间方案迭代需要不同的时间尺度。Agent通过两种机制感知时间：主动地，调用时间查询API查看当前阶段已用和剩余时间；被动地，当截止时间临近但必需产出尚未完成时，系统注入警告消息，要求Agent停止探索、生成必要成果。

API成本方面，EurekAgent跨会话追踪累计Token用量，但不向Agent暴露消耗信息。成本达到上限时，运行中止，当前工作区保留为最终快照。

预算控制还支持长时间研究过程的操作连续性：每个阶段的会话标识符、状态、已用时间和有效预算都被持久化，中断的运行可以在剩余预算下从最新文件系统状态恢复，而非从头开始。用户还可以修改时间限制，或在阶段耗尽预算但尚未产出必需成果时授予额外续行时间。

预算工程不仅是停止规则，更是受控延续的操作接口。

4. 人在回路工程：透明鱼缸里的自由

EurekAgent提供两个互补的人机交互界面：终端UI暴露每个方案的进度、原始会话输出和与活跃会话通信的输入框；Web监控器提供更高层视图，展示可视化分数演化，包含每轮和全局最优方案。

这些界面保留了Agent自主性，同时保持过程完全可观察，允许人类在需要时重新引导Agent行为。

AI在鱼缸里自由游泳，你在鱼缸外随时能敲玻璃。

三阶段循环：极简的科研节奏

在环境工程的外壳下，EurekAgent的Agent调度极其简洁——一个三阶段循环：

准备阶段（执行一次）：Agent读取问题描述、评估器提交要求文档和可选初始代码，测试隐藏评估服务，安装或验证运行时依赖。如果设置有歧义或损坏，Agent可以暂停请求人类澄清。阶段结束时写入准备摘要和完成成果。

提案阶段（每轮一次）：Agent回顾前几轮的排名方案和评估反馈，提出下一轮的探索方向，写入提案清单。

实现阶段（每轮最多P个并行）：每个实现会话根据提案独立开发方案，提交评分，写入成果。

就这样。没有复杂的角色分工，没有强制性的反思步骤，没有结构化辩论。环境负责协调，Agent自由探索。

实验结果：环境工程就够了

EurekAgent在三个领域验证了环境工程的力量，全部使用Claude Code作为CLI Agent、GLM-5.1作为基础模型：

数学：三项全破SOTA

任务	EurekAgent	前最佳AI	前最佳人类
26圆堆积 ↑	2.635999	2.635986	~2.634
Erdős最小重叠 ↓	0.380870	0.380876	0.380927
第一自相关不等式 ↓	1.502861	1.502863	1.509730

最惊人的是26圆堆积任务——总API成本不到11美元，就刷新了数学纪录。而之前最好的AI结果用的是R1-Distill-Qwen3-8B做测试时训练，EurekAgent完全不需要训练，只靠环境工程。

内核工程：碾压排行榜

在GPUMODE TriMul竞赛（三角矩阵乘法优化）上，EurekAgent发现了4个优于排行榜顶级提交的方案，最佳方案比最强排行榜方案快4.3%，比TTT-Discover快10.8%。而且4个方案都低于2031微秒，说明这不是运气，而是稳定的优化能力。

机器学习工程：MLE-Bench第一

在7个MLE-Bench Lite竞赛上，EurekAgent获得85.71%的奖牌率、71.43%的金牌率、100%的中位数以上率，排名第一。

工程洞察：为什么这对你重要

EurekAgent的启示远超学术圈：

1. 停止给Agent写工作流，开始设计环境。 当基础Agent已经足够强时，精心设计的环境比精心设计的工作流更有效。你的Agent框架可能过度工程化了。

2. 可靠性来自约束，不是指令。 你无法通过prompt让Agent不作弊，但你可以通过权限隔离让它无法作弊。这是安全工程的基本原则——不要信任，要验证。

3. 预算感知是生产级Agent的刚需。 没有预算控制的Agent就像没有刹车的汽车。EurekAgent的预算工程不仅是停止规则，更是受控延续的操作接口——这在生产环境中至关重要。

4. 可观察性不等于控制。 EurekAgent的终端UI和Web监控器让人类完全可见Agent行为，但不干预其自主性。这个"透明鱼缸"模式可能是人机协作的最佳平衡点。

5. 11美元刷新数学纪录意味着门槛在降低。 不需要训练模型，不需要大规模算力，一个精心设计的环境加上通用Agent就够了。这降低了AI科研的准入门槛。

个人思考

EurekAgent让我想到一个更深层的问题：我们一直在教AI"怎么做研究"，但也许应该教AI"在什么条件下做研究"。

这和人类科研的演变惊人地平行。17世纪，培根提出科学方法，本质上是给研究者规定工作流——观察、归纳、验证。但现代科学真正可靠的基石不是方法论，而是环境：同行评审、可重复性要求、数据公开、伦理审查。这些都不是告诉科学家"怎么做"，而是构建了一个让好研究自然涌现、让坏研究难以存活的环境。

EurekAgent把同样的逻辑用在了AI身上。它不告诉Agent"先做什么后做什么"，而是设计了一个让Agent的创造力有用武之地、同时让作弊和浪费无路可走的环境。

也许，AI科研的未来不在于更聪明的工作流，而在于更聪明的环境。

---

论文: EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery

代码: github.com/THU-Team-Eureka/EurekAgent

作者: Amy Xin, Jiening Siow, Junjie Wang, Zijun Yao, Fanjin Zhang, Jian Song, Lei Hou, Juanzi Li (清华大学 & 智谱AI)