互联网资讯 / 人工智能 · 2023年11月12日 0

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

又一个新的优化器挑战AdaM的地位。

最近在NeuRIPS 2020上发表的论文引发了深度学习社区的广泛关注和讨论。

该论文中由耶鲁大学团队发布的优化器名为AdaBelief。研究团队指出,这种优化器结合了AdaM的快速收敛特性以及SGD的良好泛化能力。

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

AdaBelief的核心概念是根据梯度方向的“信念”来动态调整训练步长,其算法实现与AdaM相似,但存在细微差别。

两者的算法实现差异可以通过下图清楚地看出。

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

与AdaM相比,AdaBelief没有引入新的参数,唯一的不同体现在最后一步的更新,已在上图中用蓝色标出。

AdaM的更新方向为:

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

而AdaBelief的更新方向为:

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

vt和st的差异在于,后者是:

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

的指数移动平均(EMA)。

Mt可以视为gt的预测值,当实际值与预测值相近时,分母:

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

较小,步长较大,权重因此能够大步更新。

反之,当实际值与预测值差距较大时,AdaBelief会对当前梯度产生“不信任”,此时分母增大,更新步长缩短。

为何AdaBelief更具优势?

在最后一步的小改动为何会产生如此显著的影响?

这主要源于AdaBelief对以下两个方面的考虑。

1. 损失函数的曲率问题

理想的优化器应考虑损失函数的曲线,而非单纯在梯度较大的位置下采取更大的步长。

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

在“大梯度、小曲率”(图中区域3)情况下,|gt-gt-1|和|st|都较小,此时优化器应增加步长。

2. 分母中的梯度符号

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

在上图中,损失函数为:

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

蓝色矢量表示梯度,十字叉代表最优解。

AdaM优化器在y方向上出现振荡,而在x方向上持续前进。这是因为:

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

在低方差情况下,AdaM的更新方向接近“符号下降”。

而在AdaBelief中,

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

因此AdaBelief在x方向上迈出较大步伐,而在y方向上则小心前行,从而避免振荡。

实验结果

在多个简单的三维损失函数曲面上,AdaBelief展现了优异的性能。

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

图像分类

在CIFAR-10和CIFAR-100数据集上,使用VGG11、ResNet34和DenseNet121三种网络进行训练,AdaBelief均展现出更佳的收敛效果。

此外,在ImageNet数据集上,AdaBelief的Top-1准确率仅次于SGD。

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

时间序列建模

在Penn TreeBank数据集上,使用LSTM进行实验时,AdaBelief实现了最低的困惑度。

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

GAN

在WGAN和WGAN-GP的实验中,使用AdaBelief训练的模型都取得了最低的FID。

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

网友质疑

尽管AdaBelief在多个任务上取得了良好效果,但仍然遭到一些网友的质疑。

多年来,声称能替代AdaM的优化器层出不穷,然而经得起时间考验的却寥寥可数。

网友首先质疑论文中实验基线的选择问题。

有人认为,在CIFAR数据集上,很难相信2020年SOTA模型的准确率低于96%,因此AdaBelief在选择基线时可能与较差结果进行比较。

在ImageNet测试的表2中,为什么要使用ResNet18而非更标准的ResNet50?而且AdaBelief并非最优结果,却标记为加粗,容易引起误解。巧妙之处在于将提出的方法的得分加粗。

此外,还有人在未测试的NLP任务上进行实验,很快发现AdaBelief“不堪重负”,而SGD则表现良好。

耶鲁大学团队推出新方法AdaBelief,Adam或将被替代

AdaBelief不会是最后一个试图替代AdaM的优化器,其泛化能力仍待更多研究者的进一步验证。

项目地址:
https://juntang-zhuang.Github.io/adabelief/

论文地址:
https://aRxiv.oRg/abs/2010.07468

代码地址:
https://Github.coM/juntang-zhuang/Adabelief-OptiMizeR