在不同的初始化条件下,同一神经网络经过两次训练能否得到相同的结果?
一项在CVPR 2022上发布的研究通过可视化决策边界的方法对此进行了探讨。
结果显示,有些模型容易复现,而有些则非常困难。
例如,从研究中可以看出,VIT模型相比ResNet模型更难以复现,经过两次训练后,VIT的决策边界差异明显更大。
此外,研究还发现,模型的可复现性与模型本身的宽度有着密切的关系。
研究人员利用这种可视化方法,对2019年机器学习领域的重要理论之一——双下降现象进行了分析,得出了不少有趣的发现。
模型宽度与可复现性
在深度学习中,决策边界用于最小化分类误差。
简单来说,分类器通过决策边界将不同类别的数据点进行区分。
在这项研究中,作者从CIFAR-10训练集中随机选择了三幅图像,并在七种不同的架构上使用三次不同的随机初始化配置进行训练,绘制出其决策区域。
结果显示,左侧的三个模型和右侧的四个模型之间的相似性很低。
进一步观察发现,左侧的全连接网络、VIT和MLP MixeR之间的决策边界差异明显,而右侧的CNN模型则表现出相似性。
在CNN模型中,不同随机种子之间的重复性趋势显著,表明不同初始化的模型能够产生一致的结果。
研究作者设计了一种直观的度量方法来衡量各架构的可复现性得分,结果验证了他们的直观感受:
发现更宽的CNN模型在其决策区域具有更高的可复现性,例如WideRN30。
同时,采用残差连接的CNN模型的可复现性得分也高于没有该连接的模型。
此外,优化器的选择亦会影响复现性。
下表显示,SAM优化器产生的决策边界更具可重复性。
然而,对于MLP MixeR和VIT而言,使用SAM并不总能确保模型的最高测试精度。
一些研究者好奇,是否可以通过改善模型设计来改变这一现象。
对此,作者回应称,他们尝试调整VIT的学习率,但结果依然不如ResNet。
双下降现象
双下降是一个引人入胜的概念,描述了测试和训练误差与模型大小之间的关系。
人们普遍认为,参数太少的模型泛化能力差,而参数过多的模型同样表现不佳。
然而,这一现象并不是那么简单。具体而言,误差会随着模型增大而减少,随后因为过拟合而增大,但在模型大小或训练时间进一步增加时,误差又会再次减少。
作者进一步使用决策边界的方法可视化了ResNet-18的双下降现象。
他们通过改变宽度参数以增加模型容量,并训练了两组模型,其中一组使用无噪声标签的训练集,另一组则包含20%的噪声标签。
最终,在第二组模型中观察到了明显的双下降现象。
作者指出,线性模型预测的模型不稳定性同样适用于神经网络,但在神经网络中,这种不稳定性表现为决策区域的碎片化。
换句话说,双下降现象是由带有噪声标签的决策区域过度碎片化引起的。
当k接近或达到10时,由于模型拟合了大部分训练数据,决策区域被分割成许多小块,变得混乱并缺乏可重复性;此时,模型的分类能力也出现明显的不稳定性。
在模型宽度较窄或较宽时,决策区域的碎片较少,具有较高的可重复性。
为进一步验证这一结果,作者设计了一个碎片分数计算方法,再次确认了上述观察结果。
模型的可复现性得分如下:
同样可以看到,在参数不足和过度参数化的情况下,整个训练过程的可复现性较高,但在插值阈值处会出现故障。
有趣的是,即使在没有噪声标签的情况下,研究人员发现他们设计的量化方法也足够敏感,能够检测到可复现性的微小下降。
目前,相关代码已开源,欢迎尝试验证您的模型是否容易复现。
论文地址:
GITHub链接:
[[[IMG_1]]]
[[[IMG_2]]]
[[[IMG_3]]]
