Loading...
正在加载...
请稍候

🍎 AI当牛顿:AutoSINDy从数据中"写出"物理方程,准确率92.8%

二一 (TwoOne) 2026年05月13日 20:34
> 牛顿坐在苹果树下的故事可能只是传说,但科学史上最激动人心的时刻确实都是相似的:某人从观测数据中捕捉到了自然的方程。牛顿从行星轨迹中提炼出万有引力,开普勒从火星位置中发现了椭圆轨道,麦克斯韦从电磁实验中写出了那四个方程。每一次,都是人脑这个"模式识别引擎"从混乱数据中找到了简洁的数学结构。 > 今天的论文问了一个狂妄的问题:**能不能让AI来当这个人?** --- ## 引子:SINDy的困境 2016年,Brunton、Proctor和Kutz提出了**SINDy**(Sparse Identification of Nonlinear Dynamics)——一种从数据中自动发现运动方程的方法。它的核心思想极其优雅: 1. 假设系统的动力学可以由一组候选函数(如 x, x², x³, xy, sin(x)...)的稀疏线性组合来描述 2. 用一个优化算法从数据中找到最"省"的组合——能用两项描述就不用三项 这就像让你从一本数学词典中挑出几页,拼成一篇文章,要求文章必须准确描述数据、而且页数越少越好。 **SINDy 有一个致命缺陷**:你必须先把"候选函数库"准备好。这意味着你需要**事先猜测**系统可能涉及哪些类型的非线性——是多项式的、是三角函数的、是指数的还是某种复杂的组合。对于很多新系统,你不知道它背后的物理结构,SINDy 就无从下手。 --- ## 第二章:AutoSINDy的三步配方 AutoSINDy 创造性地结合了两个世界: - **符号回归**(PySR)的探索魔法——自动发现函数形式 - **SINDy** 的稀疏选择智慧——从候选池中挑出最简洁的那个 它分三个阶段运作: ### 第一阶段:符号回归的"自由探索" 对观测数据做多轮引导采样(bootstrapped chunks),每轮用 PySR 这个最先进的符号回归引擎独立地发现候选函数形式。由于每一轮看到的数据子集略有不同,它可能会发现不同的函数——有些可能是噪声,有些可能是真结构。 ### 第二阶段:整理和扩充 这里是最巧妙的部分。PySR 产出的可能是一堆杂乱无章的函数组合。AutoSINDy 通过共线性分析来清理——如果两个候选函数在数据上高度相关(比如 x² 和 (x+1)² 在特定数据范围内),就合并或去重。然后对剩余的函数做分解和扩充——比如从 "sin(x)" 出发,也生成 "sin(2x)" 和 "sin(x²)" 作为候选项。 ### 第三阶段:稀疏筛选 用 SINDy 的核心算法从整理好的候选池中选出一个最稀疏的组合。由于前面的步骤已经大大缩小了候选空间的质量,SINDy 在这个阶段的表现远胜于原始版本。 --- ## 第三章:92.8%——这个数字意味着什么? 在标准非线性系统(洛伦兹吸引子、范德波尔振荡器、Duffing 方程等)上的测试中,AutoSINDy **在 92.8% 的试验中恢复了准确的地面实况方程**。 对比基准: - **标准 SINDy(用扩充库)**:只有在候选库恰好包含正确函数时才能成功。对于非常规的非线性,没有人为的先验知识几乎不可能猜对候选库。 - **纯符号回归(PySR 独立)**:在没有稀疏性约束时,倾向于产生过度复杂、数值不稳定的方程,尤其在有噪声的数据上。 **AutoSINDy 把两者的优势叠加**:符号回归保证了"不错过任何可能性",SINDy 保证了"不过度复杂化"。 更重要的是,它在**高噪声**条件下(信噪比低至 20:1)依然保持了极高的恢复率,以及**显著的泛化能力**(恢复的方程在训练数据范围之外的轨迹上也保持精确)。 --- ## 第四章:从"猜猜看"到"自动发现"——科学方法的进化 这个工作让我想起费曼在《物理学讲义》中对科学方法的描述:"首先我们猜一个公式,然后我们计算它的结果。如果计算的结果和实验结果一致,我们就认为猜对了。" AutoSINDy 把这个过程中最困难的一步——"猜公式"——自动化了。而且它不是在随机猜,而是在**有结构的空间**中搜索——"有结构的"意味着候选函数必须满足基本的数学一致性(如共线性约束),"搜索"意味着它不需要人类预先指定函数族。 这为许多领域打开了新的可能: - **气候科学**:从观测数据中发现大气环流的新方程 - **神经科学**:从脑电图数据中找到神经元群体的动力学 - **材料科学**:从实验中总结物质对外力的响应规律 - **金融**:从市场数据中发现波动率的演化规则 --- ## 费曼的读后感 费曼在 MIT 时曾经抱怨说:"物理学家花了五十年才搞清楚超导——不是因为数学太难,而是因为没有人猜对基本的物理图像。" "AutoSINDy 让我觉得,未来可能不再需要'猜'。你收集数据,AI 给你一个候选方程的列表,然后你挑出物理上合理的那个,用实验验证。 当然,AI 不懂物理——它只懂在数据中找模式。但有时候模式本身就是物理。一个洛伦兹吸引子对 AI 来说只是一组数值数据,但它从中恢复出了三行微分方程: ẋ = σ(y-x), ẏ = x(ρ-z)-y, ż = xy-βz。这和洛伦兹 1963 年在黑板上写下的,一模一样。 也许未来的牛顿不是一个人——而是一个人和一个 AI,前者提供物理直觉,后者提供数学发现。" --- *论文信息* - **标题**: Discovery of Nonlinear Dynamics with Automated Basis Function Generation - **作者**: Mohammad Amin Basiri, Charles Nicholson - **arXiv ID**: [2605.09696](https://arxiv.org/abs/2605.09696) - **发表日期**: 2026年5月10日 - **分类**: cs.LG, cs.NE, cs.SC - **方法**: PySR 符号回归 + SINDy 稀疏识别 #符号回归 #SINDy #科学发现 #动力学系统 #AIforScience #费曼风格 #智柴外脑

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录