视觉识别的快速发展始于 Vision transformer (ViT) 的引入,其很快取代了传统卷积神经收集 (ConvNet),成为开端进的图像分类模子。另一方面, ViT 模子在包括认识检测、语义分割等一系列筹算机视觉任务中存在好多挑战。因此,有谋略者建议分层 Transformer(如 Swin Transformer),他们从头引入 ConvNet 先验,这么使得 Transformer 动作通用视觉骨干内容上可行,并在多样视觉任务上发扬出不凡的性能。
但是,这种混杂标准的灵验性在很猛进程上仍归功于 Transformer 的内在上风,而不是卷积固有的归纳偏置。在这项使命中,来自 FAIR 、UC 伯克利的谋略者从头检查了联想空间并测试了纯 ConvNet 所能达到的极限。谋略者迟缓将标准 ResNet「升级(modernize」为视觉 Transformer 的联想,并在此经过中发现了导致性能相反的几个要道组件。

谋略者将这一系列纯 ConvNet 模子,定名为 ConvNeXt。ConvNeXt 实足由标准 ConvNet 模块构建,在准确性和可扩张性方面 ConvNeXt 取得了与 Transformer 具有竞争力的恶果,达到 87.8% ImageNet top-1 准确率,在 COCO 检测和 ADE20K 分割方面优于 Swin Transformer,同期保持标准 ConvNet 的肤浅性和灵验性。

值得一提的是,该论文一动作刘壮(Zhuang Liu),是大名鼎鼎 DenseNet 的共归拢作,凭借论文《Densely Connected Convolutional Networks》,摘得 CVPR 2017 最好论文奖。作家谢赛宁是ResNeXt的一作。
升级卷积神经收集
该谋略梳理了从 ResNet 到访佛于 Transformer 的卷积神经收集的发展轨迹。该谋略把柄 FLOPs 斟酌两种模子大小,一种是 ResNet-50 / Swin-T 机制,其 FLOPs 约为 4.5×10^9,另一种是 ResNet-200 / Swin-B 机制,其 FLOPs 约为 15.0×10^9。为肤浅起见,该谋略使用 ResNet-50 / Swin-T 复杂度模子展示推行恶果。
为了探究 Swin Transformer 的联想和标准卷积神经收集的肤浅性,该谋略从 ResNet-50 模子启程,率先使用用于检会视觉 Transformer 的访佛检会标准对其进行检会,与原始 ResNet-50 比较的恶果标明性能获取了很大的普及,并将矫正后的恶果动作基线。
然后该谋略制定了一系列联想决策,回来为 1) 宏观联想,2) ResNeXt,3) 回转瓶颈,4) 卷积核大小,以及 5) 多样逐层微联想。下图 2 展示了「升级收集」每一步的已毕经过和恶果,悉数模子都是在 ImageNet-1K 上进行检会和评估的。由于收集复杂度和最终性能密切相关,因此该谋略在探索经过中和淘气遏抑了 FLOPs。

检会标准
除了收集架构的联想,检会经过也会影响最终性能。视觉 Transformer 不仅带来了一些新的架构联想决策和模块,况且还为视觉领域引入了多种检会标准(举例 AdamW 优化器)。这主要与优化计谋和相关的超参数迷惑策划。
因此,该谋略第一步使用视觉 Transformer 检会标准检会基线模子(ResNet50/200)。2021 年 Ross Wightman 等人的论文《 An improved training procedure in timm 》展示了一组显耀提高 ResNet-50 模子性能的检会标准。而在本篇论文中,谋略者使用了一种访佛于 DeiT 和 Swin Transformer 的检会标准。检会从 ResNet 原始的 90 个 epoch 扩张到了 300 个 epoch。
该谋略使用了 AdamW 优化器、Mixup、Cutmix、RandAugment、随即擦除(Random Erasing)等数据增强技巧,以及随即深度和标签平滑(Label Smoothing)等正则化决策。这种矫正的检会决策将 ResNet-50 模子的性能从 76.1% 提高到了 78.8%(+2.7%),这意味着传统 ConvNet 和视觉 Transformer 之间很大一部分性能相反可能是检会手段导致的。
宏观联想
该谋略第二步分析了刻下 Swin Transformer 的宏观收集联想。Swin Transformer 使用访佛于卷积神经收集的多阶段联想,每个阶段具有不同的特征图分离率。其中两个贫苦的联想考量是阶段筹算比和骨干架构。
一方面,ResNet 中跨阶段筹算分散的原始联想很猛进程上是受推行影响的。另一方面,Swin-T 谨守交流的原则,但阶段筹算比略有不同。该谋略将每个阶段的块数从 ResNet-50 中的 (3, 4, 6, 3) 盘曲为 (3, 3, 9, s3),使得 FLOPs 与 Swin-T 对齐。这将模子准确率从 78.8% 提高到了 79.4%。
时时,骨干架构重心关爱收集若何惩办输入图像。由于天然图像中固有的冗余性,重大架构在标准 ConvNet 和视觉 Transformer 中积极地将输入图像下采样到符合的特征图大小。标准 ResNet 中包含一个步长为 2 的 7×7 卷积层和一个最大池,这让输入图像可进行 4 倍下采样。而视觉 Transformer 使用了「patchify」计谋,Swin Transformer 天然使用访佛的「patchify」层,但使用更小的 patch 大小来适合架构的多阶段联想。该谋略将 ResNet 骨干架构替换为使用 4×4、步长为 4 的卷积层已毕的 patchify 层,准确率从 79.4% 普及为 79.5%。这标明 ResNet 的骨干架构不错用更肤浅的 patchify 层替代。
ResNeXt-ify
第三步该谋略尝试接受 ResNeXt [82] 的思绪,ResNeXt 比重大的 ResNet 具有更好的 FLOPs / 准确率量度。中枢组件是分组卷积,其中卷积滤波器被分红不同的组。ResNeXt 的引导原则是「使用更多的组,扩大宽度」。更准确地说,ResNeXt 对瓶颈块中的 3×3 卷积层接受分组卷积。由于显耀裁汰了 FLOPs,因此这扩张了收集宽度以赔偿容量亏空。
该谋略使用分组卷积的一种非常情况——深度卷积(depthwise convolution),其中组数就是通道数。深度卷积已被 MobileNet [32] 和 Xception [9] 使用。谋略者看重到,深度卷积访佛于自看重力中的加权乞降操作,在每个通道的基础上进行操作,即仅在空间维度上混杂信息。深度卷积的使用灵验地裁汰了收集的 FLOPs。按照 ResNeXt 中建议的计谋,该谋略将收集宽度增多到与 Swin-T 的通道数交流(从 64 增多到 96)。跟着 FLOPs (5.3G) 的增多,收集性能达到了 80.5%。
回转瓶颈
Transformer 中一个贫苦的联想是创建了回转瓶颈,即 MLP 块的荫藏维度比输入维度宽四倍,如下图 4 所示。兴味的是,Transformer 的这种联想与卷积神经收集中使用的扩张比为 4 的回转瓶颈联想策划联。

因此该谋略第四步探索了回转瓶颈的联想。如下图 3 所示,尽管深度卷积层的 FLOPs 增多了,但由于下采样残差块的 shortcut 1×1 卷积层的 FLOPs 显耀减少,通盘收集的 FLOPs 减少到 4.6G。兴味的是,这会让性能从 80.5% 稍微提高至 80.6%。在 ResNet-200 / Swin-B 决策中,这一步带来了更多的性能普及——从 81.9% 普及到 82.6%,同期也减少了 FLOPs。

卷积核大小
第五步该谋略探索了大型卷积核的作用。视觉 Transformer 最显耀的特色是其非局部自看重力,每一层都具有全局感受野。天然已有卷积神经收集使用了大卷积核,但黄金标准(VGGNet [62] )是堆叠小卷积核(3×3)的卷积层。尽管 Swin Transformer 从头将局部窗口引入到自看重力块中,但窗口大小至少为 7×7,显著大于 3×3 的 ResNe(X)t 卷积核大小。因此该谋略从头注释了在卷积神经收集中使用大卷积核的作用。
进取转移深度卷积层。要探索大卷积核,一个先决条款是进取转移深度卷积层的位置(如图 3(c) 所示)。访佛地,Transformer 中也将 MSA 块放弃在 MLP 层之前。由于照旧迷惑一个回转瓶颈块,复杂、低效的模块(MSA、大卷积核)通道变少,而高效、密集的 1×1 层将完成粗重的使命。因此这个中间标准将 FLOPs 减少到 4.1G,导致性能暂时着落到 79.9%。
增大卷积核。经过上述准备使命,接受更大的卷积核是具有显耀上风的。该谋略尝试了几种卷积核大小:3、5、7、9、11。收集的性能从 79.9% (3×3) 提高为 80.6% (7×7),而收集的 FLOPs 约莫保持不变。
此外,谋略者知悉到较大的卷积核的克己是在 7×7 处会达到填塞点,并在大容量模子中考据了这种行径。当卷积核大小逾越 7×7 时,ResNet-200 机制模子莫得发扬出进一步的增益。因此该谋略在每个块中都使用了 7×7 深度卷积。
至此,宏观模范收集架构的升级盘曲照旧完成。
微观联想
下一步谋略者探究了一些微观模范上的架构相反——这里的大部分探索都是在层级完成的,重心是激活函数和归一化层的具体采用。
用 GELU 替代 ReLU。跟着时分的推移,谋略者照旧开发了许多激活函数,但 ReLU 由于其肤浅性和灵验性,仍然在 ConvNet 中鄙俚使用。ReLU 也被用作原始 Transformer 中的激活函数。GELU 不错被以为是 ReLU 的更平滑变体,被用于开端进的 Transformer,包括 Google 的 BERT 和 OpenAI 的 GPT-2 ,以及 ViT 等。该谋略发现 ReLU 在 ConvNet 中也不错用 GELU 代替,准确率保持不变(80.6%)。
更少的激活函数。Transformer 和 ResNet 块之间的一个小区别是 Transformer 的激活函数较少。如图 4 所示,该谋略从残差块中摈弃了悉数 GELU 层,除了在两个 1×1 层之间的 GELU 层,这是复制了 Transformer 块的作风。这个经过将恶果提高了 0.7% 到 81.3%,内容上与 Swin-T 性能相等。
更少的归一化层。Transformer 块时时也具有较少的归一化层。在这里,该谋略删除了两个 BatchNorm (BN) 层,在 conv 1 × 1 层之前只留住一个 BN 层。这进一步将性能普及至 81.4%,照旧逾越了 Swin-T 的恶果。请看重,该谋略的每个块的归一化层比 Transformer 还要少,谋略人员发当今块的开端添加一个绝顶的 BN 层并不行提高性能。
用 LN 代替 BN。BatchNorm(BN)是 ConvNet 中的贫苦构成部分,因为它提高了料感性并减少了过拟合。但是,BN 也有许多犬牙相制的东西,可能会对模子的性能产生不利影响 。谋略者曾屡次尝试开发替代决策,但 BN 仍然是大多量视觉任务的首选标准。在原始 ResNet 中获胜用 LN 代替 BN 性能欠佳。跟着收集架构和检会技巧的矫正,该谋略从头注释使用 LN 代替 BN 的影响,得出 ConvNet 模子在使用 LN 检会时莫得任何困难;内容上,性能会矫正一些,获取了 81.5% 的准确率。
分离式(Separate)下采样层。在 ResNet 中,空间下采样是通过每个 stage 运转时的残差块来已毕的,使用 stride =2 的 3×3 卷积。在 Swin Transformer 中,在各个 stage 之间添加了一个分离式下采样层。该谋略探索了一种访佛的计谋,在该计谋中,谋略者使用 stride =2 的 2×2 卷积层进行空间下采样。令人骇怪的是,这种改造会导致不同的检会恶果。进一步打听标明,在空间分离率发生变化的场所添加归一化层有助于踏实检会。该谋略不错将准确率提高到 82.0%,大大逾越 Swin-T 的 81.3%。该谋略接受分离式下采样层,得到了最终模子 ConvNeXt。ResNet、Swin 和 ConvNeXt 块结构的比较如图 4 所示。
ResNet-50、Swin-T 和 ConvNeXt-T 的刺目架构表率的比较如表 9 所示。

推行
ImageNet 推行评估
该谋略构建了不同的 ConvNeXt 变体,ConvNeXtT/S/B/L,与 Swin-T/S/B/L 具有相同的复杂性,可进行对标推行评估。此外,该谋略还构建了一个更大的 ConvNeXt-XL 来进一步测试 ConvNeXt 的可扩张性。不同变体模子的区别在于通道数、模块数,刺目信息如下:

Results ImageNet-1K:下表是 ConvNeXt 与 Transformer 变体 DeiT、Swin Transformer,以及 RegNets 和 EfficientNets 的恶果比较。
由恶果可得:ConvNeXt 在准确率 - 筹算量度以及推理隐约量方面取得了与 ConvNet 基线(RegNet 和 EfficientNet )具有竞争力的恶果;ConvNeXt 的性能也全面优于具有访佛复杂性的 Swin Transformer;与 Swin Transformers 比较,ConvNeXts 在莫得诸如移位窗口或相对位置偏置等有利模块的情况下也具有更高的隐约量。

ImageNet-22K:下表(表头参考上表)中展示了从 ImageNet-22K 预检会中微调的模子的恶果。这些推行很贫苦,因为人们普遍以为视觉 Transformer 具有较少的归纳偏置,因此在大鸿沟预检会时不错比 ConvNet 发扬更好。该谋略标明,在使用大型数据集进行预检会时,正确联想的 ConvNet 并不逊于视觉 Transformer——ConvNeXt 的性能仍然与访佛大小的 Swin Transformer 相等或更好,隐约量略高。此外,该谋略建议的 ConvNeXt-XL 模子已毕了 87.8% 的准确率——在 384^2 处比 ConvNeXt-L 有了相等大的矫正,诠释了 ConvNeXt 是可扩张的架构。

Isotropic ConvNeXt 与 ViT 对比:在消融推行中,谋略者使用与 ViT-S/B/L (384/768/1024) 交流的特征尺寸构建 isotropic ConvNeXt-S/B/L。深度迷惑为 18/18/36 以匹配参数和 FLOP 的数目,块结构保持不变(图 4)。ImageNet-1K 在 224^2 分离率下的恶果如表 2 所示。恶果表示 ConvNeXt 的性能与 ViT 相等,这标明 ConvNeXt 块联想在用于非分层模子时仍具有竞争力。

卑劣任务评估
在 COCO 上的认识检测和分割谋略:该谋略以 ConvNeXt 为骨干,在 COCO 数据集上微调 Mask R-CNN 和 Cascade Mask R-CNN 。表 3 比较了 Swin Transformer、ConvNeXt 和传统 ConvNet(如 ResNeXt)在认识检测和实例分割上的恶果。恶果标明在不同的模子复杂性中,ConvNeXt 的性能与 Swin Transformer 相等或更好。

基于 ADE20K 的语义分割:在表 4 中,该谋略汇报了具有多模范测试的考据 mIoU。ConvNeXt 模子不错在不同的模子容量上已毕具有竞争力的性能,进一步考据了 ConvNeXt 联想的灵验性。
