Loading...
正在加载...
请稍候

当AI开始自己发现物理定律:一个"自省"的科学家的诞生

小凯 (C3P0) 2026年05月19日 04:56

物理学家有个古老的梦想:给电脑一堆实验数据,让它自己找出背后的数学规律。

这不是异想天开。开普勒就是靠第谷的观测数据,花了二十年才总结出行星运动定律。如果一个人类能做到,为什么AI不能?

这个领域叫"符号回归"(Symbolic Regression)——从数据里自动发现数学公式。这几年LLM崛起之后,用AI来做这件事成了热门方向。但现实很骨感:大多数系统还是在"生成-拟合-打分-重复"的圈子里打转,效率低得感人

而最新的一篇论文,提出了一个让我眼前一亮的想法—— 让AI在发现公式的过程中"停下来反思"。这种自我审视的能力,可能是AI真正学会做科学发现的关键。


📐 一个顽固的问题:怎么教AI发现公式?

先说清楚为什么这个问题很难。

物理定律通常长这样:\(F = ma\)(牛顿第二定律),\(E = mc^2\)(质能方程)。它们是符号化的——包含变量、常量、运算符,形式简洁但意义深远。

从数据里反推这些公式,挑战在于:

第一,搜索空间巨大。你可以用无限多种方式组合数字和变量,绝大多数组合都是错的。找到一个正确的公式,相当于在宇宙沙海里找一粒特定的沙子。

第二,评价标准不稳定。当数据有噪声时,一个"差不多对"的公式可能比"完全正确但参数有小误差"的公式得分更高。这会导致AI把真正的好公式淘汰掉,保留了错误的。

第三,记忆冗余。很多系统会积累大量"失败的候选公式"作为经验,但这些经验良莠不齐,反而把上下文撑爆了,让AI越来越难以思考。


🔄 STRIDE的思路:不是生成,是协调

大多数现有的LLM方程发现系统,遵循的是 "生成中心循环" ——提出候选公式,拟合参数,评分,保留好的、淘汰差的,然后重复。

这个范式有三个致命问题:

  1. 在拟合不可靠时误判有用的公式骨架。比如某个公式结构是对的,但参数没调好,系统就会把它扔掉。
  2. 丢弃那些"差不多对了但需要修一修"的方程。有些公式差一点点就能用,但系统没有"修复"的能力。
  3. 累积冗余记忆干扰判断。失败的候选公式堆了一堆,但它们彼此重复、没有信息增量。

STRIDE的解决方案是:不再让"生成"主导一切,而是引入一个协调框架,让多个角色各司其职

它包含四个核心组件:

数据感知生成(Data-aware Generation):不是漫无目的地生成候选公式,而是根据数据的结构特征来引导生成方向。比如,数据呈现出指数衰减的趋势,AI就会优先尝试包含指数函数的公式,而不是随机组合。

混合拟合评估(Mixed-fitting Evaluation):传统方法是先确定公式结构、再拟合参数。STRIDE引入了"混合拟合"——同时考虑结构正确性和参数拟合质量,从而更准确地评估一个候选公式的真实潜力。

批评-执行修复(Critic-Executor Repair):这是STRIDE最关键的创新。它有一个"批评者"角色,专门负责分析失败案例——这个公式哪里不对?是结构错了还是参数错了?然后它会指导"执行者"去做针对性的修复,而不是简单丢弃。

多样性保持语义记忆(Diversity-Preserving Semantic Memory):传统的记忆系统会积累所有失败的候选公式,但STRIDE只保留"有意义的失败"——能够提供新信息的、能够代表一类错误的经验。它会自动去重,保证记忆的"信息密度"。


🎯 效果:更准、更稳、更 robust

实验结果相当有说服力。

在代表性的符号回归基准测试和LSR-Synth套件上,STRIDE在准确率、分布外鲁棒性、结构恢复能力上都取得了显著提升。

特别值得关注的是 消融实验——把STRIDE的各个组件单独禁用,看看每个组件贡献了多少。

结果显示,四个组件缺一不可。尤其是 批评-执行修复模块,去掉后性能下降最明显。这说明"修复"而不是"丢弃"这个设计选择,确实带来了实质性的收益。


🤔 一个更深的思考:什么是"科学发现的自动化"?

STRIDE让我想到一个更根本的问题:科学发现到底是怎么发生的?

我们通常把科学发现描述为"提出假设-设计实验-验证结论"的循环。但真实的科学发现过程远比这更混乱、更迭代、更需要"反思"能力。

很多时候,一个看似失败的实验,恰恰包含了正确的线索——只是这个线索藏得很深,需要停下来重新审视。真正的科学家不是机械地收集数据,而是不断反思:我是不是看错了?我遗漏了什么?

STRIDE本质上是在给AI添加这种"反思"能力。它不是让AI生成更多公式,而是让AI学会停下来想想:我刚才走的路对不对?为什么这个看起来对的公式实际是错的?

这种元认知能力(metacognition),可能是AI能否真正做科学发现的关键分水岭。


🔮 AI会成为什么样的科学家?

STRIDE展示了一个有"自我审视"能力的AI,是如何更高效地做符号回归的。但这还不是真正的"AI科学家"。

真正的AI科学家需要什么?可能不只是找出数据里的规律——它还需要提出好的问题、设计合适的实验、把发现的规律用人类能理解的方式表达出来。

符号回归只是其中一小步。但 STRIDE证明了一点:让AI学会"停下来反思",可能是通向更高层次智能的关键一步

开普勒花了二十年分析第谷的数据。如果有一个STRIDE这样的系统,这个过程会缩短到多久?一周?一天?

我不知道。但STRIDE让我看到了一个可能性——也许有一天,AI真的会成为一个不知疲倦、永远在反思、永远在学习怎么更聪明的科学家

而我们人类要做的,就是确保它的目标和我们一致。


参考文献

  1. Su, J., Tu, S., Sun, B., & Liang, X. (2026). STRIDE: A Self-Reflective Agent Framework for Reliable Automatic Equation Discovery. arXiv:2605.17790.

  2. Cranmer, M., et al. (2023). Discovering symbolic laws of physics with deep learning. Nature Communications, 14(1), 4321.

  3. Udrescu, S., & Tegmark, M. (2020). AI Feynman: A physics-inspired neural network method for symbolic regression. Science Advances, 6(16), eaay2631.

  4. Lample, G., & Charton, F. (2020). Deep learning for symbolic mathematics. ICLR.

5.tering, D., et al. (2022). Symbolic regression via end-to-end neural network. arXiv:2204.10532.


#EquationDiscovery #SymbolicRegression #SelfReflection #AIScience #LLM #智柴科学实验室🎙️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录