两款小型神经网络模型在训练速度与精度上的提升
随着神经网络规模和数据量的增长,提升训练效率成为深度学习领域的关键议题之一。
虽然某些大模型在小样本任务中表现突出,但需要大量资源和时间来训练,导致重新训练和改进成本高昂。
若能够设计出更小更快、同时保持或提升准确性的网络,该方向将带来显著的效率收益。
在这方面,研究团队提出了两类通过神经架构与容量与泛化性原则设计的方法,用于图像识别任务,核心思路是提高训练阶段的效率并优化整体性能。

其中第一类是基于以前架构改进而来的网络,旨在在相对较小的数据集上实现更快的训练速度,核心关注点包括对训练瓶颈的系统性分析与针对性改进。
EFFicientNet V2 的设计沿用了早期架构的思路,为提升训练速度而进行优化,并对训练过程中的瓶颈进行了系统性梳理,取得了若干关键发现:
1、用极大尺寸图像进行训练会显著增加内存占用,从而降低训练速度;
2、广泛采用的深度卷积在特定硬件上效率并不理想,导致资源利用率不高;
3、常用的统一放缩策略并非最佳化方案。
为应对这些问题,研究团队提出了以训练感知为导向的架构搜索方法,在优化目标中加入训练速度,并以在不同阶段进行非均匀缩放的策略来提升效率,相关代码也已开源。

第一作者为 Mingxing Tan。
该训练感知架构搜索在前代平台感知方法的基础上演化而来,与仅关注推理速度的思路不同,训练感知 NAS 同时优化了精度、模型规模与训练速度。
该模型还扩展了搜索空间,以包含对加速器友好的操作,例如通过删除冗余操作来简化搜索空间的 FUSedMBConv。
最终得到的网络在多项指标上超过了此前的同类模型,具备更高的准确性、更快的推理速度,同时模型体积缩小约 6.8 倍。
为进一步缩短训练时间,研究人员还提出了一种增强的渐进学习策略,在训练过程中逐步调整图像分辨率与正则化强度。
该改进的核心思路是按图像大小自适应调节正则化强度,例如调整 dropout 概率或数据增强强度。较小图像往往需要较弱的正则化以避免容量不足,较大图像则需要更强的正则化来防止过拟合。

在 ImageNet 及若干迁移学习数据集(如 CIFAR-10/100、Flowers 与 Cars)上评估该系列模型。在 ImageNet 上,该方案在训练速度、模型规模和准确率之间实现了有力的综合提升,速度提升约 5–11 倍,模型规模缩小 6.8 倍,且准确率未下降。

第二类是将卷积与自注意力结构结合的混合模型,目标是在大规模数据集上实现更高的准确性,例如在 ImageNet 类别集与大型数据集上的表现。

尽管第一类模型仍以卷积网络为主,但对视觉 Transformer 的研究表明,在极大规模数据集上的注意力机制往往带来更强的性能提升,因此研究者把探索范围扩展到卷积以外的架构,以期找到更快更准的视觉模型。
研究团队系统性地探索了把卷积与自注意力结合的方法,以实现更好的泛化性与容量。观察指出,卷积的归纳偏差通常带来更好的泛化,而自注意力在全局建模方面具备更强的表达能力,二者结合可以提升网络的综合能力。
通过将卷积与自注意力结合,所得到的混合模型在泛化性与容量方面具有更好的平衡与表现。

深度卷积与自注意力可以通过相对注意力机制自然统一,垂直堆叠卷积层与注意力层使得每个阶段的容量与计算需求得到同时考量,从而提升泛化性、容量和效率。
在 CoAtNet 架构中,输入图像大小为 HxW 时,第一阶段 (S0) 使用卷积将尺寸降至 H/2 x W/2,后续阶段尺寸继续缩减。Ln 表示层数,前两阶段 (S1、S2) 以深度卷积的 MBConv 构建块为主,后两阶段 (S3、S4) 以具有相对自注意力的 Transformer 块为主,并采用类似 Funnel Transformer 的阶段间池化。最后通过分类头输出类别概率。

在多个数据集上,CoAtNet 的表现通常优于标准 VIT 及其变体,对小规模数据集也能保持相当的性能,数据量增加时收益更加明显。

在大规模 JFT 数据集上的评估显示,CoAtNet 的训练速度比早期 VIT 快约 4 倍,同时在 ImageNet 上达到新的 top-1 精度约 90.88%,显示出强劲的性能提升。

综合来看,新提出的模型在速度提升与精度方面实现显著改进,且在大规模数据集上的表现也更具竞争力。