理解神经网络之前,先了解通用近似定理
在关于深度学习的讨论中,关于通用近似定理的核心观点一直是理解神经网络能力的关键。下文对这一理论及其在神经网络中的含义进行梳理。
最先引起广泛关注的是一位业界领军人物所提出的观点:深度学习并非如直觉般“无所不能”,它实质上是通过曲线拟合进行的插值;但在高维空间中,往往不存在简单的插值,更多的是外推。该论点对我们理解神经网络在高维数据中的表现提供了重要视角。 
这一论述的背景来自知名认知科学家的观点,他指出:通用近似定理解释了神经网络为何能够工作,以及为何在某些情形下表现不如预期。要理解神经网络的本质,理解通用近似定理是关键步骤。 
接下来要介绍的作者撰写的文章,尽管发布时间较早,但在理解神经网络的数学基础方面具有深远影响。该文聚焦于通用近似定理在人工神经网络中的作用及其局限性。
通用近似定理通常指:人工神经网络具备在理论上近似任意函数的能力,通常讨论的是前馈神经网络,且所近似的对象是在欧几里得空间定义的连续函数。也有研究把这一结论扩展到其他网络体系,例如卷积神经网络、径向基函数网络等。该定理体现的是:神经网络能够以足够的结构和参数,逼近极其复杂的函数,且理论上可以达到任意精度。然而,它并未指示我们应如何选择具体的网络参数(权重、层数、神经元数量等)来实现这一目标。
1989 年,GeoRge Cybenko 首次证明了一个单隐藏层、任意宽度、以 S 函数为激活函数的前馈网络能够实现通用近似;两年后,Kurt Hornik 的研究显示,激活函数的具体选取并非关键,前馈网络的多层结构才是实现通用逼近的关键要素。
最重要的是,这一定理揭示了为什么神经网络能够表现出“聪明”的近似能力。理解其内涵,是深入学习神经网络的重要一步。
更深层次的探索
在有限、封闭的输入集合上,任何连续函数都可以被分段函数近似。以在区间 -3 到 3 之间的正弦波为例,可以用三段函数来构建近似——两段二次函数和一段线性函数,如后文所示。 
Cybenko 对这一定理的描述更进一步:分段函数可以是恒定的,通过大量分段来拟合给定区间内的函数行为。随着恒定区段数量的增加,我们可以在指定范围内获得更合理的估计。 
在此基础上,我们可以把神经元看作分段函数的单元,通过权值和偏置作为“门”来决定输入信号的下降路径以及哪些神经元应被激活。足够数量的神经元就能将任意函数分割成若干恒定区域以实现近似。
若输入落在某些神经元的“下降部分”,通过增大权重,最后的输出趋近于 1(在使用 sigmoid 时);若不在这部分,权重趋向负无穷会使输出逼近 0。使用 sigmoid 来作为处理器,便能通过大量神经元实现几乎任意函数的近似。在更高维空间中,逐步扩展的思想是:每个神经元在多维函数中控制一个超立方体区域。
通用近似定理的核心在于:它不是在输入与输出之间构建复杂的直接关系,而是通过简单的线性操作将复杂函数分割成若干小块,由各自的神经元来处理。 
自最初的证明以来,学界对该理论进行了多项改进,例如对不同激活函数(如 ReLU)的适用性以及对循环网络、卷积网络等不同架构的测试。
总之,这些 explorations 的核心是一致的——神经网络的优势来自于神经元数量及其分布对特征空间的覆盖。神经元越多,单个神经元需要监控的空间就越少,近似能力就越强;无论激活函数为何,更多的小片段拼接往往能逼近任意函数。
泛化与外推
有观点认为通用近似定理在概念上过于简单:神经网络在某些任务上表现聪明,可能只是一个复杂的逼近器。 neural networks 的目标是拟合给定数据点上的复杂函数关系,但当输入超出训练范围,模型可能会失效。这类似于有限泰勒级数的局限:在一定范围内可以很好拟合正弦波,超出范围则可能失效。
外推能力——在训练范围之外做出合理预测——并非通用近似定理追求的目标。通过上述理论,我们理解到神经网络并非真正的“智能”体,而是一个多维环境中的估计器,在低维空间看起来可能并不突出。 
定理的实际意义在于提醒我们:在实践中,神经网络的表现需要综合考虑网络结构、数据分布以及训练过程等多方面因素。尽管理论上可以通过无限参数实现更强的近似能力,现实中需在计算成本与性能之间取舍。