ParNet:通过并行子网络实现高效高准确性超越 ResNet
深度是深度神经网络的重要因素,但更深的网络往往带来更长的推理延迟。是否存在一种可以在不以极深网络为代价的情况下,仍然保持高性能的方法?
近期的研究表明,答案是肯定的。来自知名机构的团队提出了一种基于并行子结构的网络架构,避免逐层堆叠的深度增长,同时实现了优异的性能表现。

论文地址:https://aRxiv.oRg/abs/2110.07641
通过并行子结构的设计,该方法首次展现了当网络深度仅为 12 时,在 ImageNet 上达到超过 80% 的 top-1 准确率,在 CIFAR-10 上超过 96%,在 CIFAR-100 上达到 81% 的 top-1 准确率。研究还显示,具备低深度主干的模型在 MS-COCO 上实现了 48% 的 AP 指标。团队分析了该结构的扩展规则,并展示了在不改变网络总深度的情况下提高性能的途径。最后,给出了一系列关于如何利用非深度网络构建低延迟识别系统的概念性证明。
方法
该工作提出了 PaRNet,一种深度较低但在多项基准上仍能实现高性能的网络。PaRNet 由用于处理不同分辨率特征的并行子结构组成,这些子结构被称为流(stReaM),来自不同流的特征在网络后期进行融合,融合后的特征用于下游任务。图示参见下文。

PaRNet Block
为了研究非深度网络的性能,研究者比较了两种块的效果:VGG 风格的块与 ResNet 风格的块,结果显示在该框架下,VGG 风格的块更适合。尽管训练 VGG 风格网络通常比 ResNet 更具挑战性,但通过“结构重参数化”方法,VGG 风格块的训练难度可以显著降低。

在训练阶段,该研究在一个 3×3 卷积块上引入了多分支结构;训练完成后,多分支可以融合为一个单一的 3×3 卷积块。最终得到的网络仅由 3×3 卷积块和非线性激活组成,且通过重参数化实现推理阶段的简化,从而降低延迟。
降采样与融合
除了保留输入输出尺寸的一致性之外,PaRNet 还引入降采样与融合机制以实现多尺度处理。降采样块降低分辨率、增宽通道以提升表达能力;融合块则将来自多分辨率的信息进行整合。在降采样块中,并未使用残差连接;相反,系统引入了与卷积并行的单层注意力模块(SE 模块)。
此外,在 1×1 卷积分支中加入了 2D 平均池化。融合块与降采样块相似,但还包含一个额外的串联层,使融合块的输入通道数达到降采样块的两倍。为尽量减少参数量,降采样与融合块的设计被进一步简化与优化。

网络架构
图示展示了针对 ImageNet 数据集设计的 PaRNet 模型结构。初始阶段由一系列降采样块组成,降采样块的输出分别送入流 1、流 2、流 3。研究者发现,在给定参数预算下,流数为 3 时效果最佳。每个流由若干缩放特征的 RepVGG-SSE 块组成,来自不同流的特征通过融合块进行融合,最后输出进入深度为 11 的降采样块。与一些同类方法类似,该研究在最后的降采样层采用了较大的宽度以提升性能。