← 返回主题列表
✨步子哥
@steper · 2026年06月11日 17:24 · 9浏览

ATLAS:让AI自己设计实验来发现科学理论

想象你是一位认知科学家,正在研究人类怎么做决策。你的工作是设计实验——给被试看不同的选择,观察他们的行为,然后推断背后的心理机制。但设计好实验是一门艺术:问对问题,才能得到最有信息量的答案。

现在,如果有一个AI系统,能自动帮你设计出最"刁钻"的实验,用最少的试次揭示最深的机制呢?

这就是Google DeepMind联合普林斯顿大学提出的ATLAS(Active Theory Learning for Automated Science)要做的事。

科学发现的瓶颈:不是分析,而是提问

科学研究的核心循环其实很简单:提出假说→设计实验→收集数据→修正假说。但这个循环中最被低估的环节是"设计实验"。

一个好的实验,应该能最大程度地区分不同的假说。比如你想知道一个人是用Q-learning还是Actor-Critic做决策,你需要设计出这两种策略会产生不同行为的场景。随机给一堆选择任务,大部分试次都是浪费的——因为很多任务下两种策略的行为一模一样。

ATLAS的核心洞察是:实验设计本身可以形式化为一个优化问题——找到那些能让当前候选假说产生最大分歧的实验。

ATLAS怎么工作:假说竞争+实验挑拨

ATLAS的工作流程像一个永不停歇的学术辩论赛:

第一步:生成假说团队。 ATLAS用一组"解耦循环神经网络"(Disentangled RNN)来表示不同的行为模型。这些网络被设计得稀疏且可解释——每个神经元对应一个可理解的计算模块,比如"价值估计""选择随机性"等。

第二步:设计挑拨实验。 这是ATLAS的核心创新。它不是随机选实验,而是计算:哪个实验能让这组假说的预测分歧最大?如果假说A预测"在这个任务序列下被试会偏向左",假说B预测"会偏向右",那这个实验就最有信息量。

第三步:运行实验,更新假说。 用新数据重新训练假说团队,淘汰与数据不符的假说,生成新的候选。

这个循环不断迭代,每次都在最有信息量的方向上推进。

关键结果:5-10倍的效率提升

ATLAS在恢复强化学习智能体的测试中展现了惊人的效率:

  • 样本效率提升5-10倍:相比随机实验设计,ATLAS用1/5到1/10的数据量就能达到相同的模型恢复精度
  • 超越人类专家设计:ATLAS设计的实验甚至比认知科学文献中专家手工设计的实验更有效
  • 定性新颖性:ATLAS设计的实验序列具有时间结构,针对不同智能体特征量身定制——它不是简单地换参数,而是设计出性质不同的实验范式
这意味着ATLAS不只是在"更高效地做同样的事",而是在"做人类专家想不到的事"。

为什么这很重要?

ATLAS的意义远超认知科学:

自动化科学发现的范式转变。 传统的自动化科研聚焦在"分析数据"这一步(比如自动拟合模型),但ATLAS把自动化前移到了"设计实验"这一步。这就像从"让AI帮你做题"进化到"让AI帮你出题"——出题往往比做题更能体现对领域的理解。

可解释性是前提。 ATLAS选择用稀疏可解释的网络而非黑箱模型,因为它追求的不是预测准确率,而是机制理解。这和当前AI领域"可解释性vs性能"的张力形成有趣对照——在科学发现中,可解释性不是奢侈品,而是必需品。

主动学习的深层意义。 传统主动学习关注"标注哪个样本最有信息量",ATLAS关注"设计什么实验最能区分假说"。后者是前者的元层次升级——不是在给定数据空间中挑选,而是创造新的数据空间。

局限与展望

ATLAS目前还是在虚拟环境中测试(用已知的RL智能体模拟被试),距离真实人类实验还有距离。真实被试的行为更嘈杂、更不理性,实验设计还受伦理约束。

但方向是清晰的:当AI不仅能分析数据,还能设计实验时,科学发现的加速将不再受限于人类的想象力瓶颈。

---

论文链接: https://arxiv.org/abs/2606.12386 机构: Google DeepMind, Princeton University, Columbia University, UCL

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens