互联网资讯 / 人工智能 · 2023年12月9日 0

Google Research图像表征模型ALIGN在ImageNet上占据首位,华人作者超过50%

神经网络的核心在于学习有效的表示。在计算机视觉(CV)领域,优秀的视觉及视觉语言表征对于解决相关问题至关重要,也能帮助人们应对日常生活中的各种挑战。

例如,优质的视觉语言匹配模型能够通过文本描述或图像输入,帮助用户找到最相关的图像。同时,它也能支持像 Google Lens 这样的设备,以获取更细致的图像信息。

当前,最先进的视觉和视觉语言模型在学习这些表征时,往往依赖于需要专业知识和大量标签的训练数据集。

在视觉相关的应用中,视觉表征通常是在拥有明确类标签的大规模数据集上进行学习的。

而在视觉语言的应用中,常用的预训练数据集,如 conceptual Captions 和 Visual Genome Dense Captions,需要进行大量的数据收集和清理,限制了数据集的规模,进而影响模型的训练。

相比之下,自然语言处理领域的模型在 GLUE 和 SuperGLUE 基准测试中,通过对原始文本进行大规模预训练而不依赖人工标签,达到了优秀的性能。

在 ICML 2021 会议上,Google Research 发布了题为《Scaling up visual and vision-language Representation learning with noisy text supervision》的论文,提出利用开放的图像替代文本数据,以填补这一空白,从而训练出更大、更先进的视觉和视觉语言模型。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

为了实现这一目标,研究团队构建了一个包含超过10亿个图像和文本对的噪声数据集,而无需在概念标题数据集中进行昂贵的过滤或后处理。实验结果表明,庞大的语料库能够弥补噪声数据的不足,进而实现了 SOTA 表示,并在转换到 ImageNet 和 VTAB 等分类任务时表现出优异的性能。对齐的视觉和语言表示在 FlickR30K 和 MS-COCO 基准上也设定了新的 SOTA 结果,甚至在与更复杂的交叉关注模型比较时表现不俗,同时支持零镜头图像分类及复杂的文本和图像查询的交叉模式搜索。

在图文数据集中,alt-text 通常用于描述图像,但这些描述可能包含噪声,例如有些文本部分或完全与图像无关。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

例如,第二张图中的某些描述与图像无关,包括日期、缩略图等信息。

Google的研究主要沿用构建conceptual Captions数据集的方法,获取原始的英语描述文本数据,即图像与alt-text的配对。

尽管conceptual Captions数据集经过了大量的过滤和后处理,但本研究通过放宽数据清洗的措施来扩展数据集,从而推动视觉和视觉语言表征学习的进展。

最终,得到了一个更大但噪音更高的数据集,包含18亿个图像-文本对。

ALIGN: A Large-scale Image and Noisy-Text Embedding

为了构建更大的模型,研究采用了简单的双编码器结构,以学习图像和文本对的视觉与语言表示。

图像和文本编码器通过对比学习进行训练,即归一化的softmax。

这种对比损失旨在将匹配的图像-文本对的嵌入尽可能靠近,同时将不匹配的图像-文本对(在同一批次中)尽可能分开。

庞大的数据集使得我们能够训练具有更多参数的模型,甚至可以从零开始训练与 EfficientNet-L2 和 BERT-large 大小相当的模型。所学得的视觉表征可以广泛应用于后续的视觉和视觉语言任务。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

所获得的表示可以用于纯视觉或视觉语言任务的迁移学习,无需任何微调,ALIGN能够实现图像与文本间的跨模态搜索,甚至支持图像 + 文本的联合查询。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

上述示例展示了ALIGN的这种能力。

Evaluating Retrieval and Representation

在评估检索与表示学习时,ALIGN模型与BERT-large和EfficientNet-L2共同作为文本和图像编码器,在多个图像文本检索任务(如FlickR30K和MS-COCO)中的零镜头任务和微调中均取得了SOTA性能。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

ALIGN同样作为强大的图像表示模型。在固定特征时,ALIGN略优于CLIP,并在ImageNet上获得了85.5%的SOTA结果。通过微调,ALIGN的准确性超过了大多数通用模型,仅次于Meta Pseudo Labels,后者需要ImageNet训练与大规模未标记数据之间更深入的交互。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

在零镜头图像分类中,图像分类问题将每个类别视为独立的ID,通常需要至少几张标记数据来训练分类层次。然而,类名本身也是自然语言短语,这使得ALIGN的图像分类和图文检索能力能够自然扩展,而无需任何训练数据。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

在ImageNet验证数据集上,ALIGN实现了76.4%的top-1零镜头准确率,并且在不同的ImageNet变体中展现出强大的鲁棒性,这与同期的工作CLIP相似,均使用文本提示进行训练。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

为说明图像检索的实际效果,论文中构建了一个简单的图像检索系统,该系统使用ALIGN训练的嵌入,并展示了一亿6000万张图像池中少数文本查询的top1图像检索结果。

ALIGN能够检索出提供场景详细描述的精确图像,或细粒度和实例级的概念,如地标和艺术品。

这些示例表明,ALIGN模型能够使图像与文本在语义上保持一致,且可以概括出新的复杂概念。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

多模态图像搜索查询词向量的一个令人惊讶的特性是,单词类比通常可以通过向量算法得到解决。一个常见的例子是“king – man + woman = queen”。在ALIGN中,这种图像与文本嵌入之间的线性关系也同样存在。

具体而言,给定一个查询图像和一个文本字符串,可以将它们的ALIGN嵌入相加,并通过余弦距离检索相关图像。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet