目标检测别再刷榜了,让流感知来展示真正的技术!ECCV 2020 最佳论文提名

技术讨论 Neptune_ ⋅ 于 5个月前 ⋅ 395 阅读

作者丨赛文
来源丨AI科技评论

file
今天解读的论文的是不久前获得ECCV 2020 最佳论文提名奖的《Towards Streaming Perception》。
在这篇论文中,来自CMU和UIUC的研究者针对实时在线感知问题,分析了现有算法对延迟优化的忽略,提出了一种流感知的概念,并将算法准确率和延迟结合在一起提出了一种新的评估标准,作者认为这才符合实时在线感知的实际应用场景。

file

论文链接:https://arxiv.org/abs/2005.10420
代码链接:https://github.com/mtli/sAP

1 动机

自动驾驶以及虚拟现实等应用都需要低延迟的算法来支撑,为了保证安全和提供给用户足够的视觉沉浸感,算法的延迟标准应该和人类对场景改变的反应时间保持一致,通常是200毫秒。近来的计算机视觉算法也开始考虑延迟(Latency)对算法性能的影响,但也仅仅是在离线环境下考虑如何提高算法的准确率(Accuracy),并在二者之间寻找一个平衡点。
以这种评估方法优化得到的算法还无法应用在实时在线的感知场景中,因为当算法完成对某一帧图像的处理时,比如200ms后,周围的环境就已经发生了变化。如下面的视频所示,算法在得到第一帧中车辆的分割结果后,车辆就已经运动到另一个位置了,那此时所得到的分割结果的意义就很小了。

file

本文提出了一种方法可以将延迟和准确率结合起来应用在实时的算法评估中,作者称之为“流准确率”,并在此度量的基础上,提出了流感知的元基准,可以将任何单帧任务转换为流感知任务。

2 元基准

元基准可以系统地将任何图像理解任务转换为流式图像理解任务。流感知评估的目标不再是单个函数,而是评估一段连续时间内的程序操作:首先将一段时间内的图像帧集合输入到模型中,模型会将每个输入帧的估计值附上时间戳存储到缓冲区,该缓冲区代表了当前世界的最新状态(例如,场景中目标物体的bounding box列表)。

file

元基准需要遵循的一个约束是,流式感知需要随时了解世界的状态,当一个新的图像帧到达时,流式算法必须报告世界的状态,即便算法还没有完成对上一帧的处理,该约束迫使算法在计算时必须考虑丢弃一些冗余的图像帧。

1、预测值与Ground Truth

file

file

file

2、流式感知处理实时算法

本文提出的流感知处理实时算法与传统方法有着较大的差异,传统方法限制算法在下一帧到来之前就要完成对前一帧的处理,这就需要算法在传感器(摄像头)的采集帧率内运行,例如30FPS,作者认为这种方式有很大的局限性,不应该在任何情况下都认为30FPS等同于实时运行。反而可以将传感器的采集帧率看作是一个可调整的参数,同时结合算力和应用场景对下游任务进行优化。
流感知绕过了这个限制,在算法报告每一帧的状态时,无需完成上一帧的运算。在对算法进行评估时,也要实现“即时”评估,即在时刻就要查询的状态,乍一看这样并不合理,因为任何一个高效的算法都需要时间来执行运算,它只能使用时间之前的数据。作者认为这才是实时算法应该考虑的实际评估环境。
对人类而言,想要即时的对世界做出反应,离不开大脑对世界状态的预测,例如棒球运动员在面对飞向他的球时,也不是在球到他手中的那一刻才进行反应,而是需要大脑提前对棒球的位置进行预测,所以流式感知在处理实时任务时也要考虑加入预测的算法。

3 实验

根据上面定义的流式感知元基准以及评估函数,作者重点选择了目标检测作为视频理解任务进行了实验,并在相同条件下与离线感知进行了对比。

1、数据集准备

作者选择了Argoverse1.1[1]数据集,该数据集是自动驾驶领域中常用的数据集,包含了许多传感器数据,作者重点选取了其中的RGB图像数据,对其做了额外的密集标注构成了Argoverse-HD(High-frame-rate-Detection ),新数据集中每个场景的视频的帧率为30FPS,同时标注密度与该帧率保持一致。

2、流式感知与离线感知对比

这里分别使用了几个SOTA的目标检测器进行了实验,其中Hybrid Task Cascade(HTC)[2]作为baseline模型,RetinaNet[3]作为一个快速检测器,并在Mask R-CNN[4]上进行了优化。

file

下面视频展示了HTC检测器离线感知的效果,对应到上面表格中的第1行,AP值是38.0,检测效果近乎完美,但是需要清楚的是,离线感知评估时,是将整个视频输入到检测器中,检测器对每一帧的预测都可以利用全局的信息,这种方式在实时的应用中是无法实现的。

file

作者同样使用HTC检测器,以相同的帧率进行了流式感知测试,对应到上面表格中的第2行,效果如下:

file

很明显,不加任何额外处理的流式感知方式,检测性能会直线下降,AP值只有6.2。作者认为现有的网络仅仅针对吞吐量进行优化,而很少考虑延迟,社区可能一味的追求较高的离线分数,而忽略了真正影响算法落地的延迟因素。例如,图像预处理(缩放和归一化等操作)通常是在CPU上完成的,然后调度到GPU中进行推理,这中间就会带来很高的延迟。
为了提高流式感知的检测性能,作者提出了几种方法,第一种是通过绘制检测器的延迟-准确率帕累托曲线,然后权衡二者来寻找到一个最优点,如下图所示,这也是目前最为直接的方法。

file

这种方法的检测效果如下,AP为12.0,对应到上面表格中的第6行

file

可以看到效果已有不少的提升,但是仍然无法与离线感知相比,这也反映出目前急需对实时流式算法的研究。
作者还提出使用动态调度的方法,即帮助算法丢弃一些无用冗余的帧,来提高检测精度。在算法处理完前一帧之后,需要对下一帧进行一个简单的判断,判断该帧是否需要丢弃,判断方法如下:

file

上一帧结束时间为,算法处理单帧的运行时间为,首先定义尾部函数来计算给定时刻的算法处理结束时间,表示下一帧的算法处理结束时间,表示上一帧的算法处理结束时间,然后使用艾弗森括号(Iverson bracket)判断两个尾部时间的关系进而决定当前帧是否需要丢弃。
在数学中,以Kenneth E. Iverson命名的“艾佛森括号”,是一种用方括号记号,如果方括号内的条件满足则为1,不满足则为0.
如下图所示,先使用艾弗森括号比较两个尾部时间和,可以判断出第2帧为冗余帧,算法直接空闲等待一会(Sit idle and wait!),直接处理第3帧。这种动态调度的方式可以将流感知的检测精度提升到13.0,与上面表格第7行对应。

file

4 结论

本文引入了一个元基准,可以将现有的图像或者视频理解任务转换为流式感知任务,以便应用到自动驾驶等实时性的任务中,同时结合准确率和延迟提出了一个整体的流感知评估函数,并对现有的一些SOTA检测算法进行了实验,发现了实时在线感知与离线感知的差距,虽然作者也提出了一些改进的方法,但仍存在很大的提升空间,作者希望通过该工作来启发更多高效的流感知方法。

引用文献

[1] Chang, Ming-Fang, et al. "Argoverse: 3d tracking and forecasting with rich maps." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.
[2] Chen, Kai, et al. "Hybrid task cascade for instance segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2019.
[3] Lin, Tsung-Yi, et al. "Focal loss for dense object detection." Proceedings of the IEEE international conference on computer vision. 2017.
[4] He, Kaiming, et al. "Mask r-cnn." Proceedings of the IEEE international conference on computer vision. 2017.

微信公众号:极市平台(ID: extrememart )
每天推送最新CV干货~

成为第一个点赞的人吧 :bowtie:
回复数量: 0
暂无回复~
您需要登陆以后才能留下评论!