互联网资讯

理解神经网络之前，先了解通用近似定理

2024年4月4日 · admin

在关于深度学习的讨论中，关于通用近似定理的核心观点一直是理解神经网络能力的关键。下文对这一理论及其在神经网络中的含义进行梳理。

最先引起广泛关注的是一位业界领军人物所提出的观点：深度学习并非如直觉般“无所不能”，它实质上是通过曲线拟合进行的插值；但在高维空间中，往往不存在简单的插值，更多的是外推。该论点对我们理解神经网络在高维数据中的表现提供了重要视角。在理解通用近似定理之前，你可能都不会理解神经网络

这一论述的背景来自知名认知科学家的观点，他指出：通用近似定理解释了神经网络为何能够工作，以及为何在某些情形下表现不如预期。要理解神经网络的本质，理解通用近似定理是关键步骤。在理解通用近似定理之前，你可能都不会理解神经网络

接下来要介绍的作者撰写的文章，尽管发布时间较早，但在理解神经网络的数学基础方面具有深远影响。该文聚焦于通用近似定理在人工神经网络中的作用及其局限性。

通用近似定理通常指：人工神经网络具备在理论上近似任意函数的能力，通常讨论的是前馈神经网络，且所近似的对象是在欧几里得空间定义的连续函数。也有研究把这一结论扩展到其他网络体系，例如卷积神经网络、径向基函数网络等。该定理体现的是：神经网络能够以足够的结构和参数，逼近极其复杂的函数，且理论上可以达到任意精度。然而，它并未指示我们应如何选择具体的网络参数（权重、层数、神经元数量等）来实现这一目标。

1989 年，GeoRge Cybenko 首次证明了一个单隐藏层、任意宽度、以 S 函数为激活函数的前馈网络能够实现通用近似；两年后，Kurt Hornik 的研究显示，激活函数的具体选取并非关键，前馈网络的多层结构才是实现通用逼近的关键要素。

最重要的是，这一定理揭示了为什么神经网络能够表现出“聪明”的近似能力。理解其内涵，是深入学习神经网络的重要一步。

更深层次的探索

在有限、封闭的输入集合上，任何连续函数都可以被分段函数近似。以在区间 -3 到 3 之间的正弦波为例，可以用三段函数来构建近似——两段二次函数和一段线性函数，如后文所示。在理解通用近似定理之前，你可能都不会理解神经网络

Cybenko 对这一定理的描述更进一步：分段函数可以是恒定的，通过大量分段来拟合给定区间内的函数行为。随着恒定区段数量的增加，我们可以在指定范围内获得更合理的估计。在理解通用近似定理之前，你可能都不会理解神经网络

在此基础上，我们可以把神经元看作分段函数的单元，通过权值和偏置作为“门”来决定输入信号的下降路径以及哪些神经元应被激活。足够数量的神经元就能将任意函数分割成若干恒定区域以实现近似。

若输入落在某些神经元的“下降部分”，通过增大权重，最后的输出趋近于 1（在使用 sigmoid 时）；若不在这部分，权重趋向负无穷会使输出逼近 0。使用 sigmoid 来作为处理器，便能通过大量神经元实现几乎任意函数的近似。在更高维空间中，逐步扩展的思想是：每个神经元在多维函数中控制一个超立方体区域。

通用近似定理的核心在于：它不是在输入与输出之间构建复杂的直接关系，而是通过简单的线性操作将复杂函数分割成若干小块，由各自的神经元来处理。在理解通用近似定理之前，你可能都不会理解神经网络

自最初的证明以来，学界对该理论进行了多项改进，例如对不同激活函数（如 ReLU）的适用性以及对循环网络、卷积网络等不同架构的测试。

总之，这些 explorations 的核心是一致的——神经网络的优势来自于神经元数量及其分布对特征空间的覆盖。神经元越多，单个神经元需要监控的空间就越少，近似能力就越强；无论激活函数为何，更多的小片段拼接往往能逼近任意函数。

泛化与外推

有观点认为通用近似定理在概念上过于简单：神经网络在某些任务上表现聪明，可能只是一个复杂的逼近器。 neural networks 的目标是拟合给定数据点上的复杂函数关系，但当输入超出训练范围，模型可能会失效。这类似于有限泰勒级数的局限：在一定范围内可以很好拟合正弦波，超出范围则可能失效。

外推能力——在训练范围之外做出合理预测——并非通用近似定理追求的目标。通过上述理论，我们理解到神经网络并非真正的“智能”体，而是一个多维环境中的估计器，在低维空间看起来可能并不突出。在理解通用近似定理之前，你可能都不会理解神经网络

定理的实际意义在于提醒我们：在实践中，神经网络的表现需要综合考虑网络结构、数据分布以及训练过程等多方面因素。尽管理论上可以通过无限参数实现更强的近似能力，现实中需在计算成本与性能之间取舍。