EfficientDet:COCO 51.0 mAP!谷歌大脑提出目标检测新标杆

技术讨论 小白学CV ⋅ 于 2周前 ⋅ 980 阅读

最近谷歌大脑团队发布了论文 EfficientDet: Scalable and Efficient Object Detection ,通过改进 FPN 中多尺度特征融合的结构和借鉴 EfficientNet 模型缩放方法,提出了一种模型可缩放且高效的目标检测算法 EfficientDet。

其高精度版本 EfficientDet-D7 仅有 52M 的参数量和326B FLOPS ,在COCO数据集上实现了目前已公布论文中的最高精度 :51.0 mAP!相比于之前的最好算法,它的参数量小 4 倍,FLOPS小9.3倍,而精度却更高(+ 0.3 % mAP)!

该文作者信息:

file

全部作者均来自谷歌大脑团队。

下图中陡峭的红色曲线即来自EfficientDet的 7 个模型:

file

从小模型低计算量模型到高精度SOTA模型,EfficientDet 搜索出来的 8 个模型一路吊打所有之前的知名算法!


主要改进点

该文一大创新点是改进了FPN中的多尺度特征融合方式,提出了加权双向特征金字塔网络BiFPN。

FPN 引入了一种自顶向下的路径,融合P3~P7的多尺度特征,下图为该文提出的BiFPN与几种FPN 改进的比较:

file

(b)PANet引入了自底向上的融合路径,(c)NAS-FPN则使用神经架构搜索得到不规则的特征网络拓扑结构,(d)为作者提出的另一种改进,全连接FPN,(e)为作者提出的一种简化FPN,(f)为作者最终在 EfficientDet 使用的BiFPN。

值得指出的是,作者认为FPN中各尺度的特征重要性是不同的,故在BiFPN特征融合的连接中需要加权,而权值是在训练中学习得到的。
(仔细想想其实这是很自然的,不同尺度特征肯定对目标检测贡献大小不同。)

EfficientDet 网络结构是这样的:

file

作者引入了 EfficientNet 中模型缩放的思想,考虑Input size、backbone Network、BiFPN侧向级联层数、Box/class 层深度作为搜索空间,通过统一的系数缩放(具体方法见原论文),得到了以下不同计算量和参数量的8个模型:

file

目前这些模型还未公布,不过作者称将开源。


实验结果

作者使用得到的 8 个模型配置,在COCO上训练并测试的结果如下:

file

AA代表AutoAugmentation。

EfficientDet 在与精度相当的算法相比较时,参数量小 4 到 8 倍,FLOPS小 9.7 到 28 倍,GPU下加速 1.4 到 3.2 倍,CPU下加速 3.4 到 8.1 倍。

而且 EfficientDet-D7 取得了COCO数据集上的精度新高。

与SOTA方法比较,模型Size明显更小:

file

GPU计算延迟比较结果(GPU 为 Titan-V):

file

CPU计算延迟比较结果(单线程的 Xeon CPU):

file

总之,通过改进FPN多尺度融合方法和模型缩放,该文的结果非常吸引人,是最近目标检测领域的新标杆,作者称代码将开源。

论文地址:

https://arxiv.org/pdf/1911.09070.pdf

下载地址:
https://pan.baidu.com/s/1Zg0DRtRkJzqxW4ls1k1Ntg
提取码:提示:此内容登录后可查看

比较有意思的是,EfficientNet 与 EfficientDet 已经出来了,EfficientSeg、EfficientMask、EfficientPose、EfficientTrack ..... 是不是已经在路上了?


作者:CV君
来源:我爱计算机视觉@微信公众号


推荐阅读:
目标检测中的不平衡问题综述
DetNAS:首个搜索目标检测 Backbone 的方法
深度学习目标检测指南:如何过滤不感兴趣的分类及添加新分类?

file
△ 关注极市平台
获得最新CV干货

大白

回复数量: 0
暂无回复~
您需要登陆以后才能留下评论!