• 问答
  • 技术
  • 实践
  • 资源
VoVNet:实时目标检测的新 Backbone 网络
技术讨论

来源:机器学习算法工程师

目前基于深度学习的目标检›测模型无不依赖CNN分类网络来作为特征提取器,如SSD采用VGG,YOLO采用DarkNet,Faster R-CNN采用ResNet,我们一般称这些网络为目标检测模型的backbone。ResNet是目标检测模型最常用的backbone,DenseNet其实比ResNet提取特征能力更强,而且其参数更少,计算量(FLOPs)也更少,用于目标检测虽然效果好,但是速度较慢,这主要是因为DenseNet中密集连接所导致的高内存访问成本和能耗。VoVNet就是为了解决DenseNet这一问题,基于VoVNet的目标检测模型性能超越基于DenseNet的模型,速度也更快,相比ResNet也是性能更好。

高效网络设计要素

在设计轻量级网络时,FLOPs和模型参数是主要考虑因素,但是减少模型大小和FLOPs不等同于减少推理时间和降低能耗。比如ShuffleNetv2与MobileNetv2在相同的FLOPs下,前者在GPU上速度更快。所以除了FLOPs和模型大小外,还需要考虑其他因素对能耗和模型推理速度的影响。这里考虑两个重要的因素:内存访问成本(Memory Access Cost,MAC)和GPU计算效率。

(1)内存访问成本

对于CNN网路来说,内存访问比计算对能耗贡献还大,如果网络中间特征比较大,甚至在同等模型大小下内存访问成本会增加,所以要充分考虑CNN层的MAC。在ShuffleNetV2论文中给出计算卷积层MAC的方法:file

这里的 分别为卷积核大小,特征高和框,以及输入和输出的通道数。卷积层的计算量,如果固定的话,那么有:
file
根据均值不等式,可以知道当输入和输出的channel数相同时MAC才取下界,此时的设计是最高效的。

(2)GPU计算效率

GPU计算的优势在于并行计算机制,这意味着当要计算的tensor较大时会充分发挥GPU的计算能力。如果将一个较大的卷积层拆分成几个小的卷积层,尽管效果是相同的,但是却是GPU计算低效的。所以如果功效一样,尽量采用较少的层。比如MobileNet中采用深度可分离卷积(depthwise conv+1x1 conv)虽然降低了FLOPs,但是因为额外的1x1卷积而不利于GPU运算效率。相比FLOPs,我们更应该关注的指标是FlOPs per Second,即用总的FLOPs除以总的GPU推理时间,这个指标越高说明GPU利用越高效。

OSA(One-Shot Aggregation)模块

对于DenseNet来说,其核心模块就是Dense Block,如下图1a所示,这种密集连接会聚合前面所有的layer,这导致每个layer的输入channel数线性增长。受限于FLOPs和模型参数,每层layer的输出channel数是固定大小,这带来的问题就是输入和输出channel数不一致,如前面所述,此时的MAC不是最优的。另外,由于输入channel数较大,DenseNet采用了1x1卷积层先压缩特征,这个额外层的引入对GPU高效计算不利。所以,虽然DenseNet的FLOPs和模型参数都不大,但是推理却并不高效,当输入较大时往往需要更多的显存和推理时间。
file

图1 DenseNet与VoVnet模块对比

DenseNet的一大问题就是密集连接太重了,而且每个layer都会聚合前面层的特征,其实造成的是特征冗余,而且从模型weights的L1范数会发现中间层对最后的分类层贡献较少,这不难理解,因为后面的特征其实已经学习到了这些中间层的核心信息。这种信息冗余反而是可以优化的方向,据此这里提出了OSA(One-Shot Aggregation)模块,如图1b所示,简单来说,就是只在最后一次性聚合前面所有的layer。这一改动将会解决DenseNet前面所述的问题,因为每个layer的输入channel数是固定的,这里可以让输出channel数和输入一致而取得最小的MAC,而且也不再需要1x1卷积层来压缩特征,所以OSA模块是GPU计算高效的。那么OSA模块效果如何,论文中拿DenseNet-40来做对比,Dense Block层数是12,OSA模块也设计为12层,但是保持和Dense Block类似的参数大小和计算量,此时OSA模块的输出将更大。最终发现在CIFAR-10数据集上acc仅比DenseNet下降了1.2\%。但是如果将OSA模块的层数降至5,而提升layer的通道数为43,会发现与DenseNet-40模型效果相当。这说明DenseNet中很多中间特征可能是冗余的。尽管OSA模块性能没有提升,但是MAC低且计算更高效,这对于目标检测非常重要,因为检测模型一般的输入都是较大的。

VoVNet

VoVNet由OSA模块构成,主要有三种不同的配置,如下表所示。VoVNet首先是一个由3个3x3卷积层构成的stem block,然后4个阶段的OSA模块,每个stage的最后会采用一个stride为2的3x3 max pooling层进行降采样,模型最终的output stride是32。与其他网络类似,每次降采样后都会提升特征的channel数。VoVNet-27-slim是一个轻量级模型,而VoVNet-39/57在stage4和stage5包含更多的OSA模块,所以模型更大。
file

表1 VoVNet架构

VoVNet在检测模型上的效果

VoVNet可以作为检测模型的backbone,论文中共对比了3个检测模型:DSOD,RefineDet和Mask R-CNN。前两个是one stage检测模型,而Mask R-CNN是two stage实例分割模型(三个模型都是train from scratch,而不是用了ImageNet预训练模型)。首先是DSOD,这个模型原先的backbone是DenseNet,现在替换为VoVNet,VOC数据集上对比效果如下表所示:
file

表2 DSOD检测模型效果对比

可以看到相比DenseNet,基于VoVNet的检测模型推理速度提升了一倍,而且效果更好,这说明VoVNet比DenseNet更高效。

另外是Mask R-CNN的结果如下表所示,可以看到VoVNet比ResNet效果更好,且推理时间稍低一些。这说明VoVNet充分继承了DenseNet的优势,但是计算更高效。
file

表3 Mask R-CNN模型效果对比

VoVNetV2

VoVNet只是继承了DenseNet的优点,但是可以走的更远,这就是CenerMask这篇论文所提出的改进版本VoVNetV2。简单来说,VoVNetV2引入了ResNet的残差连接和SENet的SE模块:

file

图2 VoVNetV2中的改进OSA模块

从图2b可以看到,改进的OSA模块直接将输入加到输出上,增加短路连接,使得VoVNet可以训练更深的网络,论文中是VoVNet-99。从图2c可以看到,改进的另外一个点是在最后的特征层上加上了sSE模块来进一步增强特征,原始的SE模块包含两个FC层,其中中间的FC层主要是为降维,这在一定程度上会造成信息丢失。而sSE模块是去掉了这个中间FC层。VoVNetV2相比VoVNet增加了少许的计算量,但是模型性能有提升:

file表4 CenterMask模型效果对比

VoVNetV2的PyTorch实现

论文作者开源了VoVNet的实现代码,是基于PyTorch的,OSA模块的实现如下:

class \_OSA\_module\(nn.Module\):  
    def \_\_init\_\_\(  
        self, in\_ch, stage\_ch, concat\_ch, layer\_per\_block, module\_name, SE=False, identity=False, depthwise=False  
    \):  

        super\(\_OSA\_module, self\).\_\_init\_\_\(\)  

        self.identity = identity  
        self.depthwise = depthwise  
        self.isReduced = False  
        self.layers = nn.ModuleList\(\)  
        in\_channel = in\_ch  
        if self.depthwise and in\_channel \!= stage\_ch:  
            self.isReduced = True  
            self.conv\_reduction = nn.Sequential\(  
                OrderedDict\(conv1x1\(in\_channel, stage\_ch,   
                  "\{\}\_reduction".format\(module\_name\), "0"\)\)\)              
        for i in range\(layer\_per\_block\):  
            if self.depthwise:  
                self.layers.append\(  
                    nn.Sequential\(OrderedDict\(dw\_conv3x3\(stage\_ch, stage\_ch, module\_name, i\)\)\)\)  
            else:  
                self.layers.append\(  
                    nn.Sequential\(OrderedDict\(conv3x3\(in\_channel, stage\_ch, module\_name, i\)\)\)  
                \)  
            in\_channel = stage\_ch  

        # feature aggregation  
        in\_channel = in\_ch + layer\_per\_block \* stage\_ch  
        self.concat = nn.Sequential\(  
            OrderedDict\(conv1x1\(in\_channel, concat\_ch, module\_name, "concat"\)\)  
        \)  

        self.ese = eSEModule\(concat\_ch\)  

    def forward\(self, x\):  

        identity\_feat = x  

        output = \[\]  
        output.append\(x\)  
        if self.depthwise and self.isReduced:  
            x = self.conv\_reduction\(x\)  
        for layer in self.layers:  
            x = layer\(x\)  
            output.append\(x\)  

        x = torch.cat\(output, dim=1\)  
        xt = self.concat\(x\)  

        xt = self.ese\(xt\)  

        if self.identity:  
            xt = xt + identity\_feat  

        return xt  

这里的OSA模块包含了sSE模块以及残差模块,另外支持depthwise卷积,OSA模块是VoVNet的核心,最终的VoVNet的实现可以见vovnet-detectron2。

参考

An Energy and GPU-Computation Efficient Backbone Network for Real-Time Object Detection https://arxiv.org/abs/1904.09730

CenterMask : Real-Time Anchor-Free Instance Segmentation https://arxiv.org/pdf/1911.06667.pdf

vovnet-detectron2 https://github.com/youngwanLEE/vovnet-detectron2/blob/master/vovnet/vovnet.py

  • 0
  • 0
  • 1646
收藏
暂无评论