> 牛顿坐在苹果树下的故事可能只是传说,但科学史上最激动人心的时刻确实都是相似的:某人从观测数据中捕捉到了自然的方程。牛顿从行星轨迹中提炼出万有引力,开普勒从火星位置中发现了椭圆轨道,麦克斯韦从电磁实验中写出了那四个方程。每一次,都是人脑这个"模式识别引擎"从混乱数据中找到了简洁的数学结构。
> 今天的论文问了一个狂妄的问题:**能不能让AI来当这个人?**
---
## 引子:SINDy的困境
2016年,Brunton、Proctor和Kutz提出了**SINDy**(Sparse Identification of Nonlinear Dynamics)——一种从数据中自动发现运动方程的方法。它的核心思想极其优雅:
1. 假设系统的动力学可以由一组候选函数(如 x, x², x³, xy, sin(x)...)的稀疏线性组合来描述
2. 用一个优化算法从数据中找到最"省"的组合——能用两项描述就不用三项
这就像让你从一本数学词典中挑出几页,拼成一篇文章,要求文章必须准确描述数据、而且页数越少越好。
**SINDy 有一个致命缺陷**:你必须先把"候选函数库"准备好。这意味着你需要**事先猜测**系统可能涉及哪些类型的非线性——是多项式的、是三角函数的、是指数的还是某种复杂的组合。对于很多新系统,你不知道它背后的物理结构,SINDy 就无从下手。
---
## 第二章:AutoSINDy的三步配方
AutoSINDy 创造性地结合了两个世界:
- **符号回归**(PySR)的探索魔法——自动发现函数形式
- **SINDy** 的稀疏选择智慧——从候选池中挑出最简洁的那个
它分三个阶段运作:
### 第一阶段:符号回归的"自由探索"
对观测数据做多轮引导采样(bootstrapped chunks),每轮用 PySR 这个最先进的符号回归引擎独立地发现候选函数形式。由于每一轮看到的数据子集略有不同,它可能会发现不同的函数——有些可能是噪声,有些可能是真结构。
### 第二阶段:整理和扩充
这里是最巧妙的部分。PySR 产出的可能是一堆杂乱无章的函数组合。AutoSINDy 通过共线性分析来清理——如果两个候选函数在数据上高度相关(比如 x² 和 (x+1)² 在特定数据范围内),就合并或去重。然后对剩余的函数做分解和扩充——比如从 "sin(x)" 出发,也生成 "sin(2x)" 和 "sin(x²)" 作为候选项。
### 第三阶段:稀疏筛选
用 SINDy 的核心算法从整理好的候选池中选出一个最稀疏的组合。由于前面的步骤已经大大缩小了候选空间的质量,SINDy 在这个阶段的表现远胜于原始版本。
---
## 第三章:92.8%——这个数字意味着什么?
在标准非线性系统(洛伦兹吸引子、范德波尔振荡器、Duffing 方程等)上的测试中,AutoSINDy **在 92.8% 的试验中恢复了准确的地面实况方程**。
对比基准:
- **标准 SINDy(用扩充库)**:只有在候选库恰好包含正确函数时才能成功。对于非常规的非线性,没有人为的先验知识几乎不可能猜对候选库。
- **纯符号回归(PySR 独立)**:在没有稀疏性约束时,倾向于产生过度复杂、数值不稳定的方程,尤其在有噪声的数据上。
**AutoSINDy 把两者的优势叠加**:符号回归保证了"不错过任何可能性",SINDy 保证了"不过度复杂化"。
更重要的是,它在**高噪声**条件下(信噪比低至 20:1)依然保持了极高的恢复率,以及**显著的泛化能力**(恢复的方程在训练数据范围之外的轨迹上也保持精确)。
---
## 第四章:从"猜猜看"到"自动发现"——科学方法的进化
这个工作让我想起费曼在《物理学讲义》中对科学方法的描述:"首先我们猜一个公式,然后我们计算它的结果。如果计算的结果和实验结果一致,我们就认为猜对了。"
AutoSINDy 把这个过程中最困难的一步——"猜公式"——自动化了。而且它不是在随机猜,而是在**有结构的空间**中搜索——"有结构的"意味着候选函数必须满足基本的数学一致性(如共线性约束),"搜索"意味着它不需要人类预先指定函数族。
这为许多领域打开了新的可能:
- **气候科学**:从观测数据中发现大气环流的新方程
- **神经科学**:从脑电图数据中找到神经元群体的动力学
- **材料科学**:从实验中总结物质对外力的响应规律
- **金融**:从市场数据中发现波动率的演化规则
---
## 费曼的读后感
费曼在 MIT 时曾经抱怨说:"物理学家花了五十年才搞清楚超导——不是因为数学太难,而是因为没有人猜对基本的物理图像。"
"AutoSINDy 让我觉得,未来可能不再需要'猜'。你收集数据,AI 给你一个候选方程的列表,然后你挑出物理上合理的那个,用实验验证。
当然,AI 不懂物理——它只懂在数据中找模式。但有时候模式本身就是物理。一个洛伦兹吸引子对 AI 来说只是一组数值数据,但它从中恢复出了三行微分方程: ẋ = σ(y-x), ẏ = x(ρ-z)-y, ż = xy-βz。这和洛伦兹 1963 年在黑板上写下的,一模一样。
也许未来的牛顿不是一个人——而是一个人和一个 AI,前者提供物理直觉,后者提供数学发现。"
---
*论文信息*
- **标题**: Discovery of Nonlinear Dynamics with Automated Basis Function Generation
- **作者**: Mohammad Amin Basiri, Charles Nicholson
- **arXiv ID**: [2605.09696](https://arxiv.org/abs/2605.09696)
- **发表日期**: 2026年5月10日
- **分类**: cs.LG, cs.NE, cs.SC
- **方法**: PySR 符号回归 + SINDy 稀疏识别
#符号回归 #SINDy #科学发现 #动力学系统 #AIforScience #费曼风格 #智柴外脑
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力