耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

又一个新的优化器挑战AdaM的地位。

最近在NeuRIPS 2020上发表的论文引发了深度学习社区的广泛关注和讨论。

该论文中由耶鲁大学团队发布的优化器名为AdaBelief。研究团队指出，这种优化器结合了AdaM的快速收敛特性以及SGD的良好泛化能力。

耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

AdaBelief的核心概念是根据梯度方向的“信念”来动态调整训练步长，其算法实现与AdaM相似，但存在细微差别。

两者的算法实现差异可以通过下图清楚地看出。

耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

与AdaM相比，AdaBelief没有引入新的参数，唯一的不同体现在最后一步的更新，已在上图中用蓝色标出。

AdaM的更新方向为：

耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

而AdaBelief的更新方向为：

耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

vt和st的差异在于，后者是：

耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

的指数移动平均（EMA）。

Mt可以视为gt的预测值，当实际值与预测值相近时，分母：

耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

较小，步长较大，权重因此能够大步更新。

反之，当实际值与预测值差距较大时，AdaBelief会对当前梯度产生“不信任”，此时分母增大，更新步长缩短。

为何AdaBelief更具优势？

在最后一步的小改动为何会产生如此显著的影响？

这主要源于AdaBelief对以下两个方面的考虑。

1. 损失函数的曲率问题

理想的优化器应考虑损失函数的曲线，而非单纯在梯度较大的位置下采取更大的步长。

耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

在“大梯度、小曲率”（图中区域3）情况下，|gt-gt-1|和|st|都较小，此时优化器应增加步长。

2. 分母中的梯度符号

耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

在上图中，损失函数为：

耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

蓝色矢量表示梯度，十字叉代表最优解。

AdaM优化器在y方向上出现振荡，而在x方向上持续前进。这是因为：

耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

在低方差情况下，AdaM的更新方向接近“符号下降”。

而在AdaBelief中，

耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

因此AdaBelief在x方向上迈出较大步伐，而在y方向上则小心前行，从而避免振荡。

实验结果

在多个简单的三维损失函数曲面上，AdaBelief展现了优异的性能。

耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

图像分类

在CIFAR-10和CIFAR-100数据集上，使用VGG11、ResNet34和DenseNet121三种网络进行训练，AdaBelief均展现出更佳的收敛效果。

此外，在ImageNet数据集上，AdaBelief的Top-1准确率仅次于SGD。

耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

时间序列建模

在Penn TreeBank数据集上，使用LSTM进行实验时，AdaBelief实现了最低的困惑度。

耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

GAN

在WGAN和WGAN-GP的实验中，使用AdaBelief训练的模型都取得了最低的FID。

耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

网友质疑

尽管AdaBelief在多个任务上取得了良好效果，但仍然遭到一些网友的质疑。

多年来，声称能替代AdaM的优化器层出不穷，然而经得起时间考验的却寥寥可数。

网友首先质疑论文中实验基线的选择问题。

有人认为，在CIFAR数据集上，很难相信2020年SOTA模型的准确率低于96%，因此AdaBelief在选择基线时可能与较差结果进行比较。

在ImageNet测试的表2中，为什么要使用ResNet18而非更标准的ResNet50？而且AdaBelief并非最优结果，却标记为加粗，容易引起误解。巧妙之处在于将提出的方法的得分加粗。

此外，还有人在未测试的NLP任务上进行实验，很快发现AdaBelief“不堪重负”，而SGD则表现良好。

耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

AdaBelief不会是最后一个试图替代AdaM的优化器，其泛化能力仍待更多研究者的进一步验证。

项目地址：
https://juntang-zhuang.Github.io/adabelief/

论文地址：
https://aRxiv.oRg/abs/2010.07468

代码地址：
https://Github.coM/juntang-zhuang/Adabelief-OptiMizeR

ad

近期文章

互联网资讯 / 人工智能 · 2023年11月12日 0

耶鲁大学团队推出新方法AdaBelief，Adam或将被替代

You may also like...

发表评论取消回复

互联网资讯 / 人工智能 · 2023年11月12日 0

You may also like...

新手入门IP：不需培训，用一部手机轻松实现三个一百！

春运机票怎么买最便宜？这两款APP让你轻松订到最低价的省钱攻略

推出汽车和移动出行领域的综合解决方案

发表评论 取消回复

发表评论取消回复