模型复现性与架构关系

在不同的初始化条件下，同一神经网络经过两次训练能否得到相同的结果？

一项在CVPR 2022上发布的研究通过可视化决策边界的方法对此进行了探讨。

结果显示，有些模型容易复现，而有些则非常困难。

例如，从研究中可以看出，VIT模型相比ResNet模型更难以复现，经过两次训练后，VIT的决策边界差异明显更大。

此外，研究还发现，模型的可复现性与模型本身的宽度有着密切的关系。

研究人员利用这种可视化方法，对2019年机器学习领域的重要理论之一——双下降现象进行了分析，得出了不少有趣的发现。

模型宽度与可复现性

在深度学习中，决策边界用于最小化分类误差。

简单来说，分类器通过决策边界将不同类别的数据点进行区分。

在这项研究中，作者从CIFAR-10训练集中随机选择了三幅图像，并在七种不同的架构上使用三次不同的随机初始化配置进行训练，绘制出其决策区域。

结果显示，左侧的三个模型和右侧的四个模型之间的相似性很低。

进一步观察发现，左侧的全连接网络、VIT和MLP MixeR之间的决策边界差异明显，而右侧的CNN模型则表现出相似性。

在CNN模型中，不同随机种子之间的重复性趋势显著，表明不同初始化的模型能够产生一致的结果。

研究作者设计了一种直观的度量方法来衡量各架构的可复现性得分，结果验证了他们的直观感受：

发现更宽的CNN模型在其决策区域具有更高的可复现性，例如WideRN30。

同时，采用残差连接的CNN模型的可复现性得分也高于没有该连接的模型。

此外，优化器的选择亦会影响复现性。

下表显示，SAM优化器产生的决策边界更具可重复性。

然而，对于MLP MixeR和VIT而言，使用SAM并不总能确保模型的最高测试精度。

一些研究者好奇，是否可以通过改善模型设计来改变这一现象。

对此，作者回应称，他们尝试调整VIT的学习率，但结果依然不如ResNet。

双下降现象

双下降是一个引人入胜的概念，描述了测试和训练误差与模型大小之间的关系。

人们普遍认为，参数太少的模型泛化能力差，而参数过多的模型同样表现不佳。

然而，这一现象并不是那么简单。具体而言，误差会随着模型增大而减少，随后因为过拟合而增大，但在模型大小或训练时间进一步增加时，误差又会再次减少。

作者进一步使用决策边界的方法可视化了ResNet-18的双下降现象。

他们通过改变宽度参数以增加模型容量，并训练了两组模型，其中一组使用无噪声标签的训练集，另一组则包含20%的噪声标签。

最终，在第二组模型中观察到了明显的双下降现象。

作者指出，线性模型预测的模型不稳定性同样适用于神经网络，但在神经网络中，这种不稳定性表现为决策区域的碎片化。

换句话说，双下降现象是由带有噪声标签的决策区域过度碎片化引起的。

当k接近或达到10时，由于模型拟合了大部分训练数据，决策区域被分割成许多小块，变得混乱并缺乏可重复性；此时，模型的分类能力也出现明显的不稳定性。

在模型宽度较窄或较宽时，决策区域的碎片较少，具有较高的可重复性。

为进一步验证这一结果，作者设计了一个碎片分数计算方法，再次确认了上述观察结果。

模型的可复现性得分如下：

同样可以看到，在参数不足和过度参数化的情况下，整个训练过程的可复现性较高，但在插值阈值处会出现故障。

有趣的是，即使在没有噪声标签的情况下，研究人员发现他们设计的量化方法也足够敏感，能够检测到可复现性的微小下降。

目前，相关代码已开源，欢迎尝试验证您的模型是否容易复现。

论文地址：

GITHub链接：

[[[IMG_1]]]

[[[IMG_2]]]

[[[IMG_3]]]

ad

近期文章

互联网资讯 / 人工智能 · 2024年1月3日

模型复现性与架构关系

模型宽度与可复现性

双下降现象

You may also like...

互联网资讯 / 人工智能 · 2024年1月3日

模型宽度与可复现性

双下降现象

You may also like...

新西兰将迎来首个数据中心区域，预计2024年前完工

美创科技推进数据安全体系化升级，守护教育数字化美好发展

芝加哥商品交易所集团与谷歌云签署为期10年云计算合同