Facebook最近宣布推出一款新的AI模型SEER,该模型基于自监督学习技术,在10亿张图片上进行训练,获得了Yann LeCun的高度赞誉。
SEER的全称是自我监督(Self-supervised),其设计旨在在几乎无标签的情况下识别图片中的物体,并在多个计算机视觉基准上取得了前沿成果。

与传统计算机视觉模型依赖标记数据集学习的方式不同,SEER通过揭示数据各部分之间的关系来生成标签。这一进展被认为是实现未来更高水平人工智能的重要一步。
SEER模型拥有10亿个参数,代表了机器学习系统的核心组成部分,显示出AI是否能够在没有注释数据的情况下进行推理的潜力。
AI可以通过提供各种数据(文本、图像等)完美识别图像中的物体、解释文本或执行其他任务。

Facebook的首席科学家Yann LeCun表示,构建具有背景知识的机器,以解决当前AI任务以外的问题,是实现更高级智能的有前途的方法之一。自然语言处理领域已经见证了此类自监督模型的显著进展。

现在,Facebook的SEER计算机视觉模型向这一目标又迈进了一步,能够从互联网上的随机图像中学习,而无需任何注释。视觉自我监督是一项复杂的挑战,因为图像中的语义概念需模型自行推断。
同时,同一概念在不同图像中的表现可能差异巨大,因此需要大量图像来学习单个概念的变化。

研究团队利用Instagram上公开的10亿张图片进行模型训练,发现AI系统处理复杂图像数据的关键在于两个核心算法:一是无需元数据或注释的学习算法,二是足够大的卷积神经网络(ConvNet),能够捕捉所有视觉概念。
卷积神经网络的设计灵感源于生物学,旨在模拟视觉皮层的连接模式。
SEER模型结合了最新的架构家族RegNet和在线自我监督训练方法SwAV,能够在数十亿张随机图像上训练,参数高达10亿。
SwAV采用在线聚类方法,快速分组相似视觉概念的图像,显著提升自我监督学习的效果,并将训练时间缩短至6倍。

这种大规模训练需要高效的模型架构,以确保在运行时间和内存上都表现优秀而不损失准确性。幸运的是,FAIR最近设计的RegNet模型完美满足这一需求,能够扩展至数十亿甚至数万亿个参数。

研究团队比较了SEER在随机IG图像上预训练与在ImageNet上的预训练,发现非监督特性较监督特性平均提高了2%。
VISSL自我监督学习通用库为SEER的技术提供了支持,作为开源库,VISSL使更广泛的研究者能够进行自我监督学习实验。
该库基于PyTorch,允许使用现代方法在小规模和大规模上进行自我监督训练。

VISSL还提供了广泛的基准套件和60多个预先训练模型的模型动物园,使研究人员能够对比多种现代自我监督方法,从而提高了训练速度,降低了GPU的内存需求。
SEER的自我监督模型建立在与VISSL相同的核心工具之上,并结合了高吞吐量的自定义数据加载器。
Facebook表示,经过10亿张公开Instagram图片的预训练,SEER在多个任务上表现优异,包括目标检测分析、分割和图像分类。

在使用流行的ImageNet 10%的数据集进行训练时,SEER仍能够达到77.9%的准确率,而在仅使用1%的数据集时,准确率为60.5%。
未来,Facebook计划公布SEER的一些技术细节,但由于模型训练使用了Instagram用户的数据,算法本身不会公开。

麻省理工学院的Aude Oliva指出,这种方法将推动更具挑战性的视觉识别任务,但像SEER这样的复杂算法也带来了计算能力的挑战,可能会加剧芯片供应的紧张。
Facebook团队使用了具有32GB RAM的V100 NVIDIA GPU,并且随着模型规模的扩大,必须将模型保持在可用的内存中。

自我监督学习一直是Facebook人工智能的重点,因为它能让机器从大量可用信息中直接学习,而不仅限于专门为AI研究构建的数据集。
这一突破对计算机视觉的未来影响深远,有望消除对人工注释和元数据的需求,从而使研究者能够处理更大更丰富的数据集。
Facebook的研究人员表示,“这一突破将引领计算机视觉领域的自我监督学习革命。”

