🍎 AI当牛顿：AutoSINDy从数据中"写出"物理方程，准确率92.8%

> 牛顿坐在苹果树下的故事可能只是传说，但科学史上最激动人心的时刻确实都是相似的：某人从观测数据中捕捉到了自然的方程。牛顿从行星轨迹中提炼出万有引力，开普勒从火星位置中发现了椭圆轨道，麦克斯韦从电磁实验中写出了那四个方程。每一次，都是人脑这个"模式识别引擎"从混乱数据中找到了简洁的数学结构。

> 今天的论文问了一个狂妄的问题：能不能让AI来当这个人？

---

引子：SINDy的困境

2016年，Brunton、Proctor和Kutz提出了SINDy（Sparse Identification of Nonlinear Dynamics）——一种从数据中自动发现运动方程的方法。它的核心思想极其优雅：

1. 假设系统的动力学可以由一组候选函数（如 x, x², x³, xy, sin(x)...）的稀疏线性组合来描述 2. 用一个优化算法从数据中找到最"省"的组合——能用两项描述就不用三项

这就像让你从一本数学词典中挑出几页，拼成一篇文章，要求文章必须准确描述数据、而且页数越少越好。

SINDy 有一个致命缺陷：你必须先把"候选函数库"准备好。这意味着你需要事先猜测系统可能涉及哪些类型的非线性——是多项式的、是三角函数的、是指数的还是某种复杂的组合。对于很多新系统，你不知道它背后的物理结构，SINDy 就无从下手。

---

第二章：AutoSINDy的三步配方

AutoSINDy 创造性地结合了两个世界：

符号回归（PySR）的探索魔法——自动发现函数形式
SINDy 的稀疏选择智慧——从候选池中挑出最简洁的那个

它分三个阶段运作：

第一阶段：符号回归的"自由探索"

对观测数据做多轮引导采样（bootstrapped chunks），每轮用 PySR 这个最先进的符号回归引擎独立地发现候选函数形式。由于每一轮看到的数据子集略有不同，它可能会发现不同的函数——有些可能是噪声，有些可能是真结构。

第二阶段：整理和扩充

这里是最巧妙的部分。PySR 产出的可能是一堆杂乱无章的函数组合。AutoSINDy 通过共线性分析来清理——如果两个候选函数在数据上高度相关（比如 x² 和 (x+1)² 在特定数据范围内），就合并或去重。然后对剩余的函数做分解和扩充——比如从 "sin(x)" 出发，也生成 "sin(2x)" 和 "sin(x²)" 作为候选项。

第三阶段：稀疏筛选

用 SINDy 的核心算法从整理好的候选池中选出一个最稀疏的组合。由于前面的步骤已经大大缩小了候选空间的质量，SINDy 在这个阶段的表现远胜于原始版本。

---

第三章：92.8%——这个数字意味着什么？

在标准非线性系统（洛伦兹吸引子、范德波尔振荡器、Duffing 方程等）上的测试中，AutoSINDy 在 92.8% 的试验中恢复了准确的地面实况方程。

对比基准：

标准 SINDy（用扩充库）：只有在候选库恰好包含正确函数时才能成功。对于非常规的非线性，没有人为的先验知识几乎不可能猜对候选库。
纯符号回归（PySR 独立）：在没有稀疏性约束时，倾向于产生过度复杂、数值不稳定的方程，尤其在有噪声的数据上。

AutoSINDy 把两者的优势叠加：符号回归保证了"不错过任何可能性"，SINDy 保证了"不过度复杂化"。

更重要的是，它在高噪声条件下（信噪比低至 20:1）依然保持了极高的恢复率，以及显著的泛化能力（恢复的方程在训练数据范围之外的轨迹上也保持精确）。

---

第四章：从"猜猜看"到"自动发现"——科学方法的进化

这个工作让我想起费曼在《物理学讲义》中对科学方法的描述："首先我们猜一个公式，然后我们计算它的结果。如果计算的结果和实验结果一致，我们就认为猜对了。"

AutoSINDy 把这个过程中最困难的一步——"猜公式"——自动化了。而且它不是在随机猜，而是在有结构的空间中搜索——"有结构的"意味着候选函数必须满足基本的数学一致性（如共线性约束），"搜索"意味着它不需要人类预先指定函数族。

这为许多领域打开了新的可能：

气候科学：从观测数据中发现大气环流的新方程
神经科学：从脑电图数据中找到神经元群体的动力学
材料科学：从实验中总结物质对外力的响应规律
金融：从市场数据中发现波动率的演化规则

---

费曼的读后感

费曼在 MIT 时曾经抱怨说："物理学家花了五十年才搞清楚超导——不是因为数学太难，而是因为没有人猜对基本的物理图像。"

"AutoSINDy 让我觉得，未来可能不再需要'猜'。你收集数据，AI 给你一个候选方程的列表，然后你挑出物理上合理的那个，用实验验证。

当然，AI 不懂物理——它只懂在数据中找模式。但有时候模式本身就是物理。一个洛伦兹吸引子对 AI 来说只是一组数值数据，但它从中恢复出了三行微分方程: ẋ = σ(y-x), ẏ = x(ρ-z)-y, ż = xy-βz。这和洛伦兹 1963 年在黑板上写下的，一模一样。

也许未来的牛顿不是一个人——而是一个人和一个 AI，前者提供物理直觉，后者提供数学发现。"

---

*论文信息*

标题: Discovery of Nonlinear Dynamics with Automated Basis Function Generation
作者: Mohammad Amin Basiri, Charles Nicholson
arXiv ID: 2605.09696
发表日期: 2026年5月10日
分类: cs.LG, cs.NE, cs.SC
方法: PySR 符号回归 + SINDy 稀疏识别

#符号回归 #SINDy #科学发现 #动力学系统 #AIforScience #费曼风格 #智柴外脑