神经网络规模对泛化的影响及鲁棒性的重要性

随着神经网络研究逐渐转向超大规模预训练模型，研究人员的目标似乎变得是提升网络的参数量、增加训练数据和多样化训练任务。

这一策略确实有效，随着神经网络规模的扩大，模型对数据的理解和掌握也愈发深入，已经在某些特定任务中超越了人类的表现。

然而，从数学角度来看，现代神经网络的规模往往显得过于臃肿，参数量通常远超预测任务的需求，这种现象被称为过度参数化（Overparameterization）。

在NeuRIPS会议上，一篇论文对此现象提出了新的解释，认为这种超乎预期的神经网络规模是必要的，能够避免某些根本性问题，并为这一问题提供了更普遍的见解。

论文地址：https://aRxiv.oRg/abs/2105.12806

该论文的第一作者Sébastien Bubeck在MSR Redmond管理机器学习基础研究组，专注于机器学习和理论计算机科学的交叉研究。

神经网络的规模

神经网络的一项常见任务是识别图像中的对象。为实现这一目标，研究人员首先为网络提供大量图像及对应目标标签，通过训练使其学习关联性。训练完成后，网络能够正确识别已见过的图像中的目标。

换句话说，训练过程使神经网络记住了这些数据。一旦网络记住足够的训练数据，它便能以不同程度的准确性预测未见物体的标签，这个过程称为泛化。

网络的规模决定了其记忆能力。

可以通过图形化来理解这一点。假设有两个数据点在XY平面上，可以用两参数描述的线连接这两个点：线的斜率和与纵轴的交点高度。如果其他人知道这条线的参数以及一个原始数据点的X坐标，他们可以通过观察这条线计算相应的Y坐标。

这意味着这条线已经记住了两个数据点，神经网络的作用类似。

例如，图像由成百上千的数值描述，每个像素对应一个值。这些值在数学上可以视为高维空间中点的坐标，维度即为坐标的数量。

传统数学认为，要用一条曲线拟合n个数据点，需要n个参数的函数。例如，在直线的例子中，两个点由一条具有两个参数的曲线描述。

当神经网络在20世纪80年代首次出现时，研究人员认为应只需n个参数来适应n个数据点，而与数据维度无关。

德克萨斯大学奥斯汀分校的Alex DiMakis指出，现在的情况已不再如此，神经网络的参数数量远超训练样本数量，这表明教科书内容需要修正。

研究人员正在探索神经网络的鲁棒性（Robustness），即网络处理小变化的能力。例如，一个不鲁棒的网络可能已学会识别长颈鹿，但会将几乎未修改的图像误标为沙鼠。

在2019年，Bubeck和同事们试图证明相关定理，并意识到这个问题与网络规模相关。

在他们的新证明中，研究人员指出，过度参数化对网络的鲁棒性是必要的。他们引入了平滑性（Smoothness）这一概念，表明需要多少参数才能用具有相同鲁棒性数学特性的曲线拟合数据点。

想象一下平面上的一条曲线，其中x坐标代表像素颜色，y坐标代表图像标签。若曲线平滑，微小的像素颜色变化只会导致预测值的轻微变化；而对于锯齿状曲线，x坐标的微小变化可能引发y坐标的巨大变化，长颈鹿可能变成沙鼠。

Bubeck和Sellke在论文中证明，平滑拟合高维数据点不仅需要n个参数，而且需要n×d个参数，其中d是输入维度（例如，784个像素的图像输入维度为784）。

换句话说，要让网络稳健地记住训练数据，过度参数化不仅有益，甚至是必须的。该证明依赖于一个关于高维几何的事实：随机分布在球体表面的点几乎彼此相距一个直径，点与点之间的巨大间隔意味着用平滑曲线拟合它们需要额外的参数。

耶鲁大学的Amin Karbasi称赞论文的证明简洁明了，没有大量复杂数学公式，并讨论了非常通用的内容。

该证明为理解为何扩大神经网络的简单策略如此有效提供了新视角。

其他研究也揭示了过度参数化的其他益处，例如提高训练效率和网络泛化能力。

尽管我们已知过度参数化对鲁棒性至关重要，但鲁棒性对其他方面的必要性尚不明确。然而，通过将鲁棒性与过度参数化联系起来，新的证明暗示鲁棒性可能比想象中更为重要，这也为进一步研究大型模型的益处铺平了道路。

鲁棒性确实是泛化的先决条件。如果构建的系统在轻微扰动下便失控，那么这样的系统显然是不合理的。

因此，Bubeck认为这是一个基础且重要的要求。

互联网资讯 / 人工智能 · 2024年1月2日