往哪儿跑?!ACM MM 冠军方案火眼金睛识别消失再现的监测目标

比赛 hello_uncle ⋅ 于 2周前 ⋅ 481 阅读

10月21日-25日,全球多媒体领域的顶级会议ACM MM 2019在法国尼斯举行,深兰的冠军方案不但取得了较好的比赛效果,在真实的应用场景中多目标跟踪识别的技术也有用武之地。这种方法可以得到一个物体在视频中相对完整的轨迹,可用于协助跟踪嫌疑人;对于“冒名顶替”的问题也有针对性的避免,比如在打卡之后请人顶替自己的工作,视频监测目标时就会因为不匹配而进行提示。


冠军方案简析

01 关于ACM MM

ACM是世界上最大的计算机领域专业性学术组织,其评选的图灵奖(A.M. Turing Award)被公认为世界计算机领域的诺贝尔奖。而ACM MM则被认为是多媒体技术领域奥运级别的顶级盛会,每年通过组织大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等影响多媒体行业的前沿命题竞赛,引领全球新媒体的发展方向。

02 关于Relation Understanding in Videos

(视频中的关系理解)

该竞赛包含了视频目标检测、动作检测和视觉关系检测三个赛题,以大规模用户生成的视频数据集,来评估方案检测方法的平均精度指标。VidOR(video object relation)数据集包含来自yfcc100m集合的10000个视频(98.6小时)以及大量用于理解关系的细粒度注释。且在视频中注释了80个类别的运动轨迹。总共注释了大约有50000个对象和380000个关系实例。

file

03 关于Video Object Detection (tracking)

(视频目标检测)

在多目标检测的基础上,该赛题最大的难点就是要求目标消失一段时间后再出现需要识别为同一track_ID,且此数据集噪声大,像素、图片质量低,势必要求在检测阶段一定有较好的结果才能顺利地跟踪task。

模型 Pipeline

对于检测部分,因为需要做目标重识别,所以检测结果至关重要,团队根据经验的累积,将最强的检测模型用于这个数据集。

这个Detector模型结构如下:

file

Backbone ResneXt + DCN(Deformable Convolution),ResneXt在ImageNet上取得了不错成果的同时,并没有增加过多的计算量,再加上DCN之后,获取了更好的感受野。

检测模型使用了Cascade R-CNN,此模型通过级联优化Box,获得了更好的定位性能,并且能降低特征不对齐所造成的影响。

团队在这个基础上添加了Guided Anchoring,此模块包含两个分支:一个用于定位,一个用于形状预测。对于一张输入图片I,首先得到Feature Map Fi,在Fi的头部,位置预测分支产生一个概率Map代表目标物可能存在的位置,而形状预测分支则产生与位置无关的形状预测。

然后,结合两个分支的输出结果,通过比较预测的值所超过一定阈值,来得到一些可能的位置,并根据这些可能位置预测最有可能的形状来生成一系列Anchors。根据以上检测模型得到相对不错的检测结果,随后在此基础之上继续做多目标跟踪的任务。

MOT Pipeline

file

针对题目中目标消失一段时间后再出现需要识别为同一track_ID,通过Re-identification对物体进行重识别。团队将检测到的物体进行ID特征提取,在之后匹配的过程中,如果匹配度大于某个阈值,就认为是同一物体。

通过这种方法,目标消失一段时间后再出现需要识别为同一track_ID的难题得到了初步的解决,之后再通过匈牙利算法进行SORT排序,得到最终的结果。


来源:Deepblue深兰科技@微信公众号


推荐阅读:
大连理工大学在 CVPR18 大规模精细粒度物种识别竞赛中获得冠军
ICCV 2019 野生东北虎再识别挑战赛双赛道冠军方案(含开源代码)
年轻人的第一块金牌:我是如何成为 Kaggle 全网第一的

file
△ 关注极市平台
获得最新CV干货

大叔

回复数量: 0
暂无回复~
您需要登陆以后才能留下评论!