少量数据解决视觉任务的开源模型

GIThub链接：https://Github.coM/opengvlab

在AI领域，开发多个高度定制的模型常常需要大量的数据采集与标注，这不仅耗费时间，且成本高昂。

这种情况在日常生活中也能找到相似之处，比如搬家时不断购置新家具，既浪费金钱又低效。

因此，开发一款通用的深度学习模型显得尤为重要，尤其是在语言和视觉这两个广泛应用的领域。

通用语言模型（GLM）如BERT、T5和GPT-3等已取得显著进展，而通用视觉模型（GVM）的研究则相对滞后。

传统的GVM研究多依赖单一的监督信号，虽在特定场景下表现良好，但在多样化的任务中却难以胜任。例如，在自动驾驶中，汽车需要同时处理路况、红绿灯、行人等多重信息，这对视觉模型提出了更高要求。

因此，构建一个通用视觉模型，降低研发门槛，尤其是学术界的成本，显得尤为重要。

去年11月，上海人工智能实验室联合商汤科技等机构发布了通用视觉技术体系“书生”（INTERN），旨在解决AI视觉领域中的任务通用性、场景泛化和数据效率等问题。

近期，上海人工智能实验室与商汤科技推出了通用视觉开源平台OpenGVLab，提供高效的预训练模型和大规模公开数据集，面向学术界与产业界开放。

“书生”技术体系由七大模块构成，包括三个基础设施模块和四个训练阶段。

基础设施模块包括通用视觉数据系统（GV-D）、通用视觉网络结构（GV-A）和通用视觉评测基准（GV-B）；训练阶段则包括上游基础模型训练（AMateuR）、上游专家模型训练（ExpeRt）、上游通才模型训练（GeneRalist）以及下游应用训练（DownstReaM-adaptation）。

少量数据解决视觉任务的开源模型

书生（INTERN）结构图

通用视觉数据系统是一个超大规模的精标数据集，拥有100亿个样本，包括多模态数据的分类、检测和分割标注等。

此外，该数据集还包含11.9万个标签，涵盖自然界的各个领域及计算机视觉研究中的几乎所有标签，并扩展了大量细粒度标签。

接下来是通用视觉模型结构，由CNN和Transformer的统一搜索空间构建。虽然卷积神经网络（CNN）在视觉任务中表现稳定，但近年来，Vision Transformer（VIT）在大规模数据集上展现出更大的潜力。

为了平衡效率与有效性，“书生”结合了CNN和Transformer的优点，形成了一种兼具更好泛化能力与更高模型容量的MetaNet结构。

少量数据解决视觉任务的开源模型

统一搜索的MetaNet架构：Conv和TRans分别表示卷积和Transformer。

MetaNet通过强化学习的PPO算法提出了统一搜索架构，并结合了新的上下文感知下采样模块来替代传统的下采样模块。

因此，模型在浅层依然使用卷积提取特征，而在深层则结合Transformer模块以提取全局信息。

同时，“书生”还基于MetaNet-B15蒸馏出多种模型结构，共24种不同的模型权重，现已全部开源。

少量数据解决视觉任务的开源模型

MetaNet 模型与其他模型结构比较，结果如下：

少量数据解决视觉任务的开源模型

在图像分类性能上，MetaNet系列模型在精度与计算效率上均表现优越。

少量数据解决视觉任务的开源模型

在COCO数据集的目标检测任务中，MN-B4的精度已超过Swin-T，而在语义分割任务中，MN-B4的MIoU指标也显著高于其他模型。

这些实验结果表明，MetaNet系列模型在模型精度与计算量上都达到了新的SOTA！

最后，通用视觉评测基准GV-B如同一个“擂台”，收集了26个下游任务数据集，涵盖分类、检测、分割和深度估计等视觉任务。

该基准引入了百分比样本设置，能够保留原始数据集的长尾分布特性，减轻对样本选择的敏感性。

少量数据解决视觉任务的开源模型

结合上述数据集与任务类型，评测对比中选取了一些具有代表性的模型，包括RseNeT、CLIP等，以确保公平性。

有了超大精标数据集、模型结构及评测基准，书生系统将通过持续学习，实现灵活高效的模型部署。

书生的形象象征着一个通过不断学习成长的人，代表着通用视觉领域的不断进步。

通过系统的训练，书生将从生手逐步成长为各类任务的专家。

互联网资讯 / 人工智能 · 2024年1月4日