互联网资讯 / 人工智能 · 2024年1月4日

少量数据解决视觉任务的开源模型

少量数据解决视觉任务的开源模型

GIThub链接:https://Github.coM/opengvlab

在AI领域,开发多个高度定制的模型常常需要大量的数据采集与标注,这不仅耗费时间,且成本高昂。

这种情况在日常生活中也能找到相似之处,比如搬家时不断购置新家具,既浪费金钱又低效。

因此,开发一款通用的深度学习模型显得尤为重要,尤其是在语言和视觉这两个广泛应用的领域。

通用语言模型(GLM)如BERT、T5和GPT-3等已取得显著进展,而通用视觉模型(GVM)的研究则相对滞后。

传统的GVM研究多依赖单一的监督信号,虽在特定场景下表现良好,但在多样化的任务中却难以胜任。例如,在自动驾驶中,汽车需要同时处理路况、红绿灯、行人等多重信息,这对视觉模型提出了更高要求。

因此,构建一个通用视觉模型,降低研发门槛,尤其是学术界的成本,显得尤为重要。

去年11月,上海人工智能实验室联合商汤科技等机构发布了通用视觉技术体系“书生”(INTERN),旨在解决AI视觉领域中的任务通用性、场景泛化和数据效率等问题。

近期,上海人工智能实验室与商汤科技推出了通用视觉开源平台OpenGVLab,提供高效的预训练模型和大规模公开数据集,面向学术界与产业界开放。

“书生”技术体系由七大模块构成,包括三个基础设施模块和四个训练阶段。

基础设施模块包括通用视觉数据系统(GV-D)、通用视觉网络结构(GV-A)和通用视觉评测基准(GV-B);训练阶段则包括上游基础模型训练(AMateuR)、上游专家模型训练(ExpeRt)、上游通才模型训练(GeneRalist)以及下游应用训练(DownstReaM-adaptation)。

少量数据解决视觉任务的开源模型

书生(INTERN)结构图

通用视觉数据系统是一个超大规模的精标数据集,拥有100亿个样本,包括多模态数据的分类、检测和分割标注等。

此外,该数据集还包含11.9万个标签,涵盖自然界的各个领域及计算机视觉研究中的几乎所有标签,并扩展了大量细粒度标签。

接下来是通用视觉模型结构,由CNN和Transformer的统一搜索空间构建。虽然卷积神经网络(CNN)在视觉任务中表现稳定,但近年来,Vision Transformer(VIT)在大规模数据集上展现出更大的潜力。

为了平衡效率与有效性,“书生”结合了CNN和Transformer的优点,形成了一种兼具更好泛化能力与更高模型容量的MetaNet结构。

少量数据解决视觉任务的开源模型

统一搜索的MetaNet架构:Conv和TRans分别表示卷积和Transformer。

MetaNet通过强化学习的PPO算法提出了统一搜索架构,并结合了新的上下文感知下采样模块来替代传统的下采样模块。

因此,模型在浅层依然使用卷积提取特征,而在深层则结合Transformer模块以提取全局信息。

同时,“书生”还基于MetaNet-B15蒸馏出多种模型结构,共24种不同的模型权重,现已全部开源。

少量数据解决视觉任务的开源模型

MetaNet 模型与其他模型结构比较,结果如下:

少量数据解决视觉任务的开源模型

在图像分类性能上,MetaNet系列模型在精度与计算效率上均表现优越。

少量数据解决视觉任务的开源模型

在COCO数据集的目标检测任务中,MN-B4的精度已超过Swin-T,而在语义分割任务中,MN-B4的MIoU指标也显著高于其他模型。

这些实验结果表明,MetaNet系列模型在模型精度与计算量上都达到了新的SOTA!

最后,通用视觉评测基准GV-B如同一个“擂台”,收集了26个下游任务数据集,涵盖分类、检测、分割和深度估计等视觉任务。

该基准引入了百分比样本设置,能够保留原始数据集的长尾分布特性,减轻对样本选择的敏感性。

少量数据解决视觉任务的开源模型

结合上述数据集与任务类型,评测对比中选取了一些具有代表性的模型,包括RseNeT、CLIP等,以确保公平性。

有了超大精标数据集、模型结构及评测基准,书生系统将通过持续学习,实现灵活高效的模型部署。

书生的形象象征着一个通过不断学习成长的人,代表着通用视觉领域的不断进步。

通过系统的训练,书生将从生手逐步成长为各类任务的专家。