互联网资讯 / 人工智能 · 2023年11月22日 0

迁移学习在机器学习发展中的应用探讨

在机器学习领域,分类学习任务备受关注。为了确保所训练的分类模型具备高准确性和可靠性,通常需要满足两个基本假设:

一是训练样本与测试样本之间必须满足独立同分布的条件;

二是需要有足够的训练样本以建立一个优秀的分类模型。

然而,现实情况往往难以满足这两个条件。

许多机器学习技术的有效性依赖于训练数据与测试数据在特征空间的相似性或分布的一致性。随着时间的推移,若标签可用性减弱或标注样本不足,模型的效果就会受到很大影响。

因此,如何利用源领域中的少量有标签训练样本来构建一个鲁棒的模型,以便对具有不同数据分布的目标领域进行预测,成为了机器学习领域亟待解决的重要问题。

为此,迁移学习应运而生,并引起了广泛的关注与研究。

近年来,越来越多的研究者投身于迁移学习的研究中。每年在机器学习和数据挖掘的顶级会议上,关于迁移学习的论文层出不穷。

顾名思义,迁移学习是将一个领域中训练好的模型参数迁移到另一个领域,以便提升目标领域的学习效果。由于大部分数据之间存在相关性,迁移学习可以较为轻松地将已有知识转移给新模型,从而避免从头开始学习,这不仅提高了效率,还显著改善了样本不足情况下的分类识别结果。

在今年的NeuRIPS会议上,谷歌的研究团队发表了一篇题为《What is bEINg TransferRed in Transfer learning?》的论文,揭示了迁移学习的最新研究进展。

论文中,作者提供了新的工具和分析方法,从不同角度解析了不同模块的作用及影响成功迁移的因素,得出了一些有趣的结论,例如,预训练模型的迁移主要依赖于低层统计信息,而非高层特征。

具体而言,通过对迁移到块混洗图像的分析,他们发现低层数据统计的特征复用效果显著,并表明在使用预训练权重初始化训练时,模型在损失函数的“盆地”内表现出相似性,不同实例在特征空间中相似,并在参数空间中接近。

迁移学习的应用现状

前百度首席科学家吴恩达曾表示,迁移学习将成为继监督学习之后下一个机器学习商业成功的驱动力。

在2016年的NIPS会议上,吴恩达对未来AI技术的发展做出判断:目前,监督学习已达到较高的成熟度,接下来最有可能在未来五年内实现商业化的AI技术将是迁移学习。

DeepMind首席执行官DeMis HaSSaBIs也认为,迁移学习是最具前景的技术之一,未来可能引发通用人工智能的诞生。在如今深度学习的快速发展中,迁移学习的确显示了其潜力。

如今,距离这两位AI学者的“预测”已经过去了近五年,迁移学习的应用现状如何呢?

在计算机视觉领域,迁移学习已经取得了许多成功的应用,甚至在某些任务中,其表现超过了人类的准确度。

在自然语言处理(NLP)领域,迁移学习同样是众多研究突破的关键组成部分,特别是在跨域情感分析中展现了其潜力。

与此同时,迁移学习所面临的问题也逐渐显现。研究人员发现,在某些情况下,源域与目标域在视觉特征上仍存在显著差异,这使得研究人员很难理解成功迁移的原因,以及网络的哪些部分对此负责。在这篇论文中,研究团队专注于视觉领域的迁移学习。

论文中提及的两个主要数据集是:

CheXpeRt数据集,这是在2019年AAAI会议上,吴恩达的斯坦福团队发布的大型X射线数据集,考虑了不同疾病的胸部X射线医学影像。

domainNet数据集,该数据集在2019年ICCV会议上发布,是迄今为止最大的用于探究不同领域中迁移学习的无监督域适应(UDA)数据集。

四种网络的迁移学习

研究团队分析了四种不同情况下的网络:

1. 预训练网络(P, pRe-tRAIned Model);

2. 随机初始化的网络(RI, Random inITialization);

3. 在源域上进行预训练后在目标域上微调的网络(P-T, Model tRAIned/fine-tuned on taRget domain staRting fRoM pRe-tRAIned weights);

4. 随机初始化的网络在目标域进行普通训练的模型(RI-T, Model tRAIned on taRget domain fRoM Random inITialization)。

首先,团队通过数据重组研究了特征复用。他们将下游任务的图像划分为相同大小的块并随机排序,数据中的块混洗破坏了图像的视觉特征。该分析展示了特征复用的重要性,并证实不受像素混洗干扰的低级统计数据在成功迁移中起到关键作用。

随后,团队对经过训练的模型的详细行为进行了比较,调查了预训练模型与随机初始化模型之间的异同。实验结果表明,使用预训练权重训练的模型的两个实例在特征空间中更为相似。

此外,团队还研究了预训练权重和随机初始化权重训练的模型在损失情况上的表现,并观察到从预训练权重训练的两个模型实例之间没有性能下降,这表明预训练权重能够将优化引导至损失函数的盆地。

接下来,我们将结合文章中的实验和结果,深入探讨其方法论,并讨论“What is bEINg TransferRed?”。

什么被迁移了?

人类视觉系统由层次化特征构成,视觉皮层中的神经元对边缘等低级特征做出反应,而上层神经元则对复杂的语义输入进行响应。迁移学习的优势通常被认为源于预先训练的特征层的重用。当下游任务因样本数量不足或多样性不足而无法学习良好的特征表示时,这种优势尤为明显。

因此,迁移学习被普遍认为是通过特征复用为样本稀缺的数据提供良好的特征先验。

然而,这种直觉并未能解释为何在迁移学习的许多成功应用中,目标领域与源领域在视觉特征上存在显著差异。

为了更清晰地描述特征复用的作用,作者利用图1展示了包含自然图像的源域及与自然图像视觉相似度低的目标域。

图2显示,Real doMAIn的性能提升最为显著,因为该域包含与imageNet共享相似视觉特征的自然图像。这支持了团队成员的假设——特征复用在迁移学习中扮演重要角色。另一方面,在数据差异显著的情况下,仍然可以观察到迁移学习所带来的明显性能提升。

除了最终性能外,所有情况下,P-T的优化收敛速度都显著快于RI-T。这也暗示着,预训练权重在迁移学习中的优势并非仅仅来自特征复用。

为了进一步验证这一假设,团队对特征空间中两个网络的相似性进行了研究。

通过中心核对齐(CKA, CenteRed KeRnel AlignMent)这一指标发现,P-T的两个实例在不同层之间非常相似,P-T与P之间的相似性亦然。但P-T与RI-T实例或两个RI-T实例之间的相似性非常低。

换句话说,基于预训练的模型之间的特征相似度很高,而RI-T与其他模型的相似度较低,即使是两个相同初始化的RI-T。这清晰表明预训练模型之间通常重复利用相同的特征,强调了特征复用的重要性。

失误与特征相似性

这一部分主要通过探讨不同模型的共同错误与非共同错误来揭示预训练的作用。

为了解不同模型之间的差异,作者比较了两个P-T、一个P-T加一个RI-T和两个RI-T之间的错误率,发现P-T与RI-T模型之间存在许多非共同错误,而两个P-T的非共同错误则较少。这种情况在CheXpeRt和domainNet目标域中均是如此。

在domainNet上,可视化每个模型的错误后发现,P-T不正确且RI-T正确的数据样本主要为模棱两可的例子;而P-T正确且RI-T错误的数据样本则包括许多简单样本。

这支持了这样一个假设:P-T在简单样本上的成功率较高,而在模糊且难以判断的样本上表现较差(而此时RI-T往往表现更好),这表明P-T具备较强的先验知识,因而难以适应目标域。

为了增强对上述观点的验证,团队又对特征空间中两个网络的相似性进行了研究。

通过初始化来自预训练优化路径上不同检查点的预训练权重,比较迁移学习的效果。图7展示了从不同预训练检查点微调时的最终性能和优化速度。

总体来看,预训练的好处随着检查点指数的增加而增加。可以得出结论:

在预训练中,学习率下降的第30和60个epoch观察到了显著的性能提升。然而,从检查点29、30、31(以及类似的59、60、61)初始化不会显示出明显不同的影响。另一方面,特别是对于Real和clIPaRt的最终性能,当从训练前性能一直保持稳定的检查点(如29和59)开始时,可以观察到显著的改进。这表明,预训练性能并不总是作为预训练权重对迁移学习有效性的忠实指标。

quickdRaw在预训练中发现最终性能的收益较小,并在检查点10迅速达到平稳状态,而Real和clIPaRt直到检查点60前后才不断显示出显著的性能提升。另一方面,随着检查点索引的增加,所有三个任务的优化速度都有明显改善。

优化速度在检查点10时开始趋于平稳,而对于Real和clIPaRt,最终结果则不断提升。这表明,在训练前的早期检查点处于收敛模型的盆地之外,在训练期间某个时刻进入盆地。这也解释了为何在某些检查点之后性能会停滞不前。

[[[IMG_1]]]

[[[IMG_2]]]

[[[IMG_3]]]

[[[IMG_4]]]

[[[IMG_5]]]