• 问答
  • 技术
  • 实践
  • 资源
基于 YOLO 的新型 RGB-D 融合方法和综合训练数据对人类进行准确的检测和 3D 定位 | ICRA 2020
论文速递
来源: 泡泡机器人SLAM

标题:Accurate detection and 3D localization of humans using a novel YOLO-based RGB-D fusion approach and synthetic training data 作者:Timm Linder, Kilian Y, Pfeiffer, Narunas V askevicius, Robert Schirmer1, Kai O. Arras
来源:ICRA 2020编译:姚瀚晨审核:wyc_


摘要

大家好,今天为大家带来的文章是—— 基于YOLO的新型RGB-D融合方法和综合训练数据对人类进行准确的检测和3D定位。Accurate detection and 3D localization of humans using a novel YOLO-based RGB-D fusion approach and synthetic training data.

  • 挑战——存在遮挡的情况下在3D空间中稳固地定位对象仍然是一个尚未解决的问题;

  • 本文的重点——实时检测RGB-D数据中的人类3D重心。


本文创新点:

  1. 提出了一种基于图像的检测方法,该方法将YOLOv3架构扩展为具有3D质心损失和中级特征融合,以利用这两种方式的互补信息;

  2. 采用了一种迁移学习(transfer learning scheme)方案;

  3. 进一步提出了一种几何上更准确的深度感知增强方法,用于训练RGB-D数据,这有助于提高3D定位精度。


贡献

  1. 部分遮挡下进行精确的3D定位是一个尚未解决的问题,这是一个重要研究方向,例如用于机器人技术中的人体检测;

  2. 我们是第一个为快速YOLOv3单级检测器提出RGB-D融合策略的公司,并提出了一种利用现有大规模2D数据集的伴随转移学习策略;

  3. 重心区域随机化(heavy domain randomization),我们能够从合成渲染的多人RGB-D数据集中学习3D人类质心的端到端回归;

  4. 发现标准的2D裁剪/扩展增强(2D crop/expansion augmentations)不适用于深度数据,并提出了一种几何上更准确的变体,它可以解决焦距的最终变化

  5. 真实世界的RGB-D数据集中,我们的方法在3D人检测中优于现有的基线方法,而不需要额外的手工注释的3D ground truth进行训练。


方法介绍

传统的检测方案有三个缺点

  1. 局部稀疏的点云的3D目标定位上失效——我们的方法可以利用互补的RGB数据,因为它不依赖于点云表示;

  2. 多目标重叠时候,只能检测到一个目标。这种情况在我们的室内环境中很常见,行人经常部分地相互遮挡;

  3. 基于RGB-D的二维检测(RGB-based 2D detector)装置在光线条件困难的情况下失效——由于我们的中层融合策略(mid-level fusion strategy),我们的方法可以利用互补的深度数据

file

图1:我们的方法(绿色)定位三维人体质心比基线(红色)的方法更加鲁棒

表I 比较了传统RGB-D相机在行人检测上的工作:

file

表I:量化分析RGB-D相机和3D行人检测中的相关工作

3D检测行人目标的挑战:

  • 大多数工作都集中在刚性物体上;

  • 行人在形状和外观上差异很大,因此在检测方面特别具有挑战性。


方法

方法总结:

  1. 用合成的RGB-D数据集学习3D行人的检测和定位;

  2. 提出一种在RGB-D数据中训练3D检测器的深度感知(depth-aware)和尺度维护( scale-preserving)方案;

  3. 展示了我们对YOLOv3检测器的修改:混合了RGB和深度信息,回归3D质心的端到端的方式。

    file

file

图2:四幅图显示了3D地面真相联合位置在我们的合成RGB-D和我们的真实世界RGB-D数据集上。后者来源于离线三维人体姿态估计,如果需要,只用于对真实世界数据进行微调。 

file

图3:概述了我们提出的方法,它扩展了YOLOv3检测器与中层RGBD特征融合,深度感知增强和三维质心回归。我们表明,后者可以从合成的RGB-D图像中学习。

(1)对深度值进行缩放:其中,(x,y,z)是RBG-D相机中的一个3D点,z/s是缩放的深度值,(u,v)是输入的像素。
file

(2)是对行人中心(cu,cv,cz)的预测:其中,(cx,cy,cz)是1x1神经网络的输出值,(bu,bv)是高为bh,宽为bw像素的左上角。
file

主要结果

表格II是参照实验的结果:我们的合成的验证集(2个额外的场景,5k帧不同的像素)与精确的地面真相。我们使用了一半的合成训练集(7.5k帧)进行训练。在合成训练集的情况下,特别是在较小距离阈值下的三维定位得到了改善。结合RGBD融合可以显著提高三维检测精度,并微弱地提高二维检测精度。
file

file
表III:在我们的真实世界测试集的60秒序列上的三维中心的精确召回曲线。实线对应的评价半径为0.5m,虚线为0.25m。十字架处在F1的高峰点。对于我们的方法,S代表合成的训练数据,R表示真实的训练数据。

file
图4:从RGB-D数据集的一个场景中获得了在F1峰值处的定性3D检测结果。颜色来自表III;灰色是地面真值

file

图5:两个距离更长,更杂乱场景的结果

论文下载地址:https://www.researchgate.net/publication/344982526_Accurate_detection_and_3D_localization_of_humans_using_a_novel_YOLO-based_RGB-D_fusion_approach_and_synthetic_training_data


推荐阅读:

汇总 | 基于激光雷达的 3D 目标检测开源项目&数据集

  • 0
  • 0
  • 595
收藏
暂无评论
黑人
大咖

中山大学 ·

  • 25

    关注
  • 63

    获赞
  • 16

    精选文章
近期动态
  • 医学图像 图像分类
文章专栏
  • 黑人的专栏
作者文章
更多
  • 热门的目标检测开源方案盘点 (附论文 + 代码下载)
    820
  • YOLOv4 详细分析 | 细数当前最佳检测框架小细节(附论文及源码下载)
    726
  • 完全解析 RNN, Seq2Seq, Attention 注意力机制
    545
  • 关于车道线检测方法的论文汇总解读
    501
  • 基于视觉惯性里程计的无监督深度补全方法
    292