Google Research图像表征模型ALIGN在ImageNet上占据首位，华人作者超过50%

神经网络的核心在于学习有效的表示。在计算机视觉（CV）领域，优秀的视觉及视觉语言表征对于解决相关问题至关重要，也能帮助人们应对日常生活中的各种挑战。

例如，优质的视觉语言匹配模型能够通过文本描述或图像输入，帮助用户找到最相关的图像。同时，它也能支持像 Google Lens 这样的设备，以获取更细致的图像信息。

当前，最先进的视觉和视觉语言模型在学习这些表征时，往往依赖于需要专业知识和大量标签的训练数据集。

在视觉相关的应用中，视觉表征通常是在拥有明确类标签的大规模数据集上进行学习的。

而在视觉语言的应用中，常用的预训练数据集，如 conceptual Captions 和 Visual Genome Dense Captions，需要进行大量的数据收集和清理，限制了数据集的规模，进而影响模型的训练。

相比之下，自然语言处理领域的模型在 GLUE 和 SuperGLUE 基准测试中，通过对原始文本进行大规模预训练而不依赖人工标签，达到了优秀的性能。

在 ICML 2021 会议上，Google Research 发布了题为《Scaling up visual and vision-language Representation learning with noisy text supervision》的论文，提出利用开放的图像替代文本数据，以填补这一空白，从而训练出更大、更先进的视觉和视觉语言模型。

过半作者是华人！Google Research图像表征模型ALIGN霸榜ImageNet

为了实现这一目标，研究团队构建了一个包含超过10亿个图像和文本对的噪声数据集，而无需在概念标题数据集中进行昂贵的过滤或后处理。实验结果表明，庞大的语料库能够弥补噪声数据的不足，进而实现了 SOTA 表示，并在转换到 ImageNet 和 VTAB 等分类任务时表现出优异的性能。对齐的视觉和语言表示在 FlickR30K 和 MS-COCO 基准上也设定了新的 SOTA 结果，甚至在与更复杂的交叉关注模型比较时表现不俗，同时支持零镜头图像分类及复杂的文本和图像查询的交叉模式搜索。

在图文数据集中，alt-text 通常用于描述图像，但这些描述可能包含噪声，例如有些文本部分或完全与图像无关。

过半作者是华人！Google Research图像表征模型ALIGN霸榜ImageNet

例如，第二张图中的某些描述与图像无关，包括日期、缩略图等信息。

Google的研究主要沿用构建conceptual Captions数据集的方法，获取原始的英语描述文本数据，即图像与alt-text的配对。

尽管conceptual Captions数据集经过了大量的过滤和后处理，但本研究通过放宽数据清洗的措施来扩展数据集，从而推动视觉和视觉语言表征学习的进展。

最终，得到了一个更大但噪音更高的数据集，包含18亿个图像-文本对。

ALIGN: A Large-scale Image and Noisy-Text Embedding

为了构建更大的模型，研究采用了简单的双编码器结构，以学习图像和文本对的视觉与语言表示。

图像和文本编码器通过对比学习进行训练，即归一化的softmax。

这种对比损失旨在将匹配的图像-文本对的嵌入尽可能靠近，同时将不匹配的图像-文本对（在同一批次中）尽可能分开。

庞大的数据集使得我们能够训练具有更多参数的模型，甚至可以从零开始训练与 EfficientNet-L2 和 BERT-large 大小相当的模型。所学得的视觉表征可以广泛应用于后续的视觉和视觉语言任务。

过半作者是华人！Google Research图像表征模型ALIGN霸榜ImageNet

所获得的表示可以用于纯视觉或视觉语言任务的迁移学习，无需任何微调，ALIGN能够实现图像与文本间的跨模态搜索，甚至支持图像 + 文本的联合查询。

过半作者是华人！Google Research图像表征模型ALIGN霸榜ImageNet

上述示例展示了ALIGN的这种能力。

Evaluating Retrieval and Representation

在评估检索与表示学习时，ALIGN模型与BERT-large和EfficientNet-L2共同作为文本和图像编码器，在多个图像文本检索任务（如FlickR30K和MS-COCO）中的零镜头任务和微调中均取得了SOTA性能。

过半作者是华人！Google Research图像表征模型ALIGN霸榜ImageNet

ALIGN同样作为强大的图像表示模型。在固定特征时，ALIGN略优于CLIP，并在ImageNet上获得了85.5%的SOTA结果。通过微调，ALIGN的准确性超过了大多数通用模型，仅次于Meta Pseudo Labels，后者需要ImageNet训练与大规模未标记数据之间更深入的交互。

过半作者是华人！Google Research图像表征模型ALIGN霸榜ImageNet

在零镜头图像分类中，图像分类问题将每个类别视为独立的ID，通常需要至少几张标记数据来训练分类层次。然而，类名本身也是自然语言短语，这使得ALIGN的图像分类和图文检索能力能够自然扩展，而无需任何训练数据。

过半作者是华人！Google Research图像表征模型ALIGN霸榜ImageNet

在ImageNet验证数据集上，ALIGN实现了76.4%的top-1零镜头准确率，并且在不同的ImageNet变体中展现出强大的鲁棒性，这与同期的工作CLIP相似，均使用文本提示进行训练。

过半作者是华人！Google Research图像表征模型ALIGN霸榜ImageNet

为说明图像检索的实际效果，论文中构建了一个简单的图像检索系统，该系统使用ALIGN训练的嵌入，并展示了一亿6000万张图像池中少数文本查询的top1图像检索结果。

ALIGN能够检索出提供场景详细描述的精确图像，或细粒度和实例级的概念，如地标和艺术品。

这些示例表明，ALIGN模型能够使图像与文本在语义上保持一致，且可以概括出新的复杂概念。

过半作者是华人！Google Research图像表征模型ALIGN霸榜ImageNet

多模态图像搜索查询词向量的一个令人惊讶的特性是，单词类比通常可以通过向量算法得到解决。一个常见的例子是“king – man + woman = queen”。在ALIGN中，这种图像与文本嵌入之间的线性关系也同样存在。

具体而言，给定一个查询图像和一个文本字符串，可以将它们的ALIGN嵌入相加，并通过余弦距离检索相关图像。

过半作者是华人！Google Research图像表征模型ALIGN霸榜ImageNet

ad

近期文章

互联网资讯 / 人工智能 · 2023年12月9日 0

Google Research图像表征模型ALIGN在ImageNet上占据首位，华人作者超过50%

You may also like...

发表评论取消回复

互联网资讯 / 人工智能 · 2023年12月9日 0

You may also like...

头戴式显示器专利：佩戴者可进行联机游戏

高性能计算时代，实现“低排放”的方法是什么？

流量管理芯片专利公布

发表评论 取消回复

发表评论取消回复