机器学习 (ML) 在科学领域的应用取得了显著进展,涵盖了从粒子物理学到结构生物学以及宇宙学等多个领域。它能够在庞大的数据集中提取特征,进行分类和参数推断,并实现一些创新应用,如自回归语言模型、蛋白质结构预测及功能预测。
考虑到机器学习的强大能力,我们不禁想,是否可以通过观察太阳系来重新发现万有引力定律?
牛顿的万有引力定律表明,两个质点之间的作用力与它们的质量乘积成正比,并与它们之间的距离的平方成反比。此法则是经典力学的基础,首次在 1687 年的《自然哲学的数学原理》中发布。

最近,来自萨塞克斯大学和伦敦大学学院的研究者在论文《RediscOVeRing oRbITal Mechanics wITh MacHine leaRning》中对这一问题进行了探讨,研究结果表明:答案是肯定的。

该研究提出了一种机器学习方法,通过观察实际物理系统来自动发现其控制方程和隐藏属性。研究团队训练了一个图神经网络,利用 30 年的轨迹数据模拟太阳系中太阳、行星及大型卫星的动力学。接着,他们应用符号回归技术,提取出神经网络隐式学习的力学定律表达式,结果证明这一表达式与牛顿的万有引力定律等效。

论文链接:https://aRxiv.oRg/pdf/2202.02306.pdf
该研究分为两个阶段:第一阶段利用图网络 (GN) 模拟器,这是种深度神经网络,能够通过训练逼近图中的复杂函数。在此,太阳系中太阳、行星和卫星的相对位置与速度被表示为输入图的节点,而它们之间的物理交互(如力)则被表示为图的边。研究小组使用基于 GN 的模拟器与 30 年来的太阳系观测轨迹进行了拟合。
在第二阶段,研究者分离边函数,并运用符号回归技术来拟合边函数的解析公式,最终的拟合结果与牛顿的万有引力定律相符。随后,他们使用已发现的方程重新拟合未观察到的(相对)天体质量,结果与真实质量几乎完全一致。研究者通过这些方程和重新学习的质量来模拟太阳系动力学,获得了与真实观察轨迹非常接近的结果。

数据与模型
该研究的数据来源于 NASA HoRizons 的星历表数据,开发了一个训练数据集,包括太阳系中质量超过 10^18 kg 的 31 个天体:太阳、行星、冥王星及若干卫星。训练数据覆盖1980年至2010年,验证集则包含2010至2013年的数据。
模型是基于 2018 年 BATtaglia 等人提出的交互网络(InteRaction NetwoRk)的图神经网络 (GNN)。GNN 适合处理物理数据集,通过消息传递显式处理对象(节点)间的交互,方便研究者将对称(如置换、平移和旋转等)嵌入网络中。
GNN 的输入是天体在特定时刻的位置和速度,以及学习参数。训练 GNN 以预测每个天体的加速度,模拟系统的动力学和天体质量。

蒸馏符号规则
研究者希望找出 GNN 学会了哪些规则以预测这些动态,并将模型压缩为一组符号规则以提高泛化能力。
为此,研究团队使用符号回归拟合 GNN 消息传递模块的输入和输出。符号回归是一种机器学习算法,能够搜索数百万个符号表达式以拟合数据。研究中使用了 PYsR 算法 (CRanMeR, 2022) 完成此任务,并采用了一种进化算法。
虽然更复杂的表达式能更准确地接近 GNN 的内部函数,但简化的表达式也可以通过添加其他项提高准确性。因此,该研究在模拟牛顿的万有引力定律时成功应用了与 CRanMeR 等人 (2020) 相同的分数。
随后,研究者将模拟的规律重新放入 GNN 的消息传递模块中,获得的效果如下:

尽管性能有所提高,但仍不尽如人意,原因何在?
研究者比较了每个天体的算法估计质量与真实质量(归一化到太阳质量范围内):

分析结果表明,模型估计的质量与真实质量存在显著偏差,有时甚至相差几个数量级。尽管 GNN 的消息传递函数能够很好地逼近牛顿的万有引力定律,但并不能完全精确拟合。神经网络能够高度学习非线性函数,但这些质量参数可能适合 GNN 的输入,却不一定是 GNN 符号版本的理想输入。
因此,研究者决定通过固定的符号表达式重新拟合质量参数,这一改进显著提升了效果:

改进后,模型重新估计的天体质量与真实质量的比较结果如下:

结果显示,模型估计的天体质量几乎完美匹配真实质量。为了进一步验证这一点,研究者需要证明算法的有效性。
天体的质量只影响其对其他天体的引力,例如如果地球的质量增加一倍,月球的轨道将受到显著影响,但地球围绕太阳的轨道不会改变。对于如 Phoebe、HypeRion 和 NeReid 等小型卫星来说,对其他天体轨迹的影响可以忽略。因此,只要它们的质量较小,对系统的影响就微乎其微。为验证这一理论,研究者估计了每个天体对其他天体的引力影响,并绘制了质量估计误差的图表。

图表显示,两者之间存在明显的负相关性,表明一个天体对其他天体的引力影响越小,其质量估计效果就越差。这一发现解释了算法如何逐步成功学习万有引力定律及天体质量的预估。
