互联网资讯 / 人工智能 · 2024年1月3日

模型复现性与架构关系

在不同的初始化条件下,同一神经网络经过两次训练能否得到相同的结果?

一项在CVPR 2022上发布的研究通过可视化决策边界的方法对此进行了探讨。

结果显示,有些模型容易复现,而有些则非常困难。

例如,从研究中可以看出,VIT模型相比ResNet模型更难以复现,经过两次训练后,VIT的决策边界差异明显更大。

此外,研究还发现,模型的可复现性与模型本身的宽度有着密切的关系。

研究人员利用这种可视化方法,对2019年机器学习领域的重要理论之一——双下降现象进行了分析,得出了不少有趣的发现。

模型宽度与可复现性

在深度学习中,决策边界用于最小化分类误差。

简单来说,分类器通过决策边界将不同类别的数据点进行区分。

在这项研究中,作者从CIFAR-10训练集中随机选择了三幅图像,并在七种不同的架构上使用三次不同的随机初始化配置进行训练,绘制出其决策区域。

结果显示,左侧的三个模型和右侧的四个模型之间的相似性很低。

进一步观察发现,左侧的全连接网络、VIT和MLP MixeR之间的决策边界差异明显,而右侧的CNN模型则表现出相似性。

在CNN模型中,不同随机种子之间的重复性趋势显著,表明不同初始化的模型能够产生一致的结果。

研究作者设计了一种直观的度量方法来衡量各架构的可复现性得分,结果验证了他们的直观感受:

发现更宽的CNN模型在其决策区域具有更高的可复现性,例如WideRN30。

同时,采用残差连接的CNN模型的可复现性得分也高于没有该连接的模型。

此外,优化器的选择亦会影响复现性。

下表显示,SAM优化器产生的决策边界更具可重复性。

然而,对于MLP MixeR和VIT而言,使用SAM并不总能确保模型的最高测试精度。

一些研究者好奇,是否可以通过改善模型设计来改变这一现象。

对此,作者回应称,他们尝试调整VIT的学习率,但结果依然不如ResNet。

双下降现象

双下降是一个引人入胜的概念,描述了测试和训练误差与模型大小之间的关系。

人们普遍认为,参数太少的模型泛化能力差,而参数过多的模型同样表现不佳。

然而,这一现象并不是那么简单。具体而言,误差会随着模型增大而减少,随后因为过拟合而增大,但在模型大小或训练时间进一步增加时,误差又会再次减少。

作者进一步使用决策边界的方法可视化了ResNet-18的双下降现象。

他们通过改变宽度参数以增加模型容量,并训练了两组模型,其中一组使用无噪声标签的训练集,另一组则包含20%的噪声标签。

最终,在第二组模型中观察到了明显的双下降现象。

作者指出,线性模型预测的模型不稳定性同样适用于神经网络,但在神经网络中,这种不稳定性表现为决策区域的碎片化。

换句话说,双下降现象是由带有噪声标签的决策区域过度碎片化引起的。

当k接近或达到10时,由于模型拟合了大部分训练数据,决策区域被分割成许多小块,变得混乱并缺乏可重复性;此时,模型的分类能力也出现明显的不稳定性。

在模型宽度较窄或较宽时,决策区域的碎片较少,具有较高的可重复性。

为进一步验证这一结果,作者设计了一个碎片分数计算方法,再次确认了上述观察结果。

模型的可复现性得分如下:

同样可以看到,在参数不足和过度参数化的情况下,整个训练过程的可复现性较高,但在插值阈值处会出现故障。

有趣的是,即使在没有噪声标签的情况下,研究人员发现他们设计的量化方法也足够敏感,能够检测到可复现性的微小下降。

目前,相关代码已开源,欢迎尝试验证您的模型是否容易复现。

论文地址:

GITHub链接:

[[[IMG_1]]]

[[[IMG_2]]]

[[[IMG_3]]]