PVNet: 基于注意力嵌入式的点云与多视角图像融合感知网络

知识库 xiaoxiaohui ⋅ 于 2个月前 ⋅ 177 阅读
文章来源:廖子知乎

一、简介

"PVNet: A Joint Convolutional Network of Point Cloud and Multi-View for 3D Shape Recognition" (ACM Multimedia 2018),利用目前最先进的点云多视角图像特征学习网络,并提出基于嵌入注意力机制的融合方案,实现了高精度的三维物体识别

PVNet是第一个将多视角图像和点云信息进行有效融合的网络,在ModelNet40上取得了非常不错的表现:
file


二、核心思路总结

分别通过DGCNNMVCNN对点云、多视角图像进行特征抽象,并利用embedding network将图像对应的全局特征投影到点云特征的子空间内,得到embedded view feature,将其与点云特征融合并生成soft attention mask(描述了三维空间中不同局部结构的注意力度)。最后,以残差连接的方式将mask应用到点云特征上,增强空间中有区分度的特征并舍弃无用特征,和embedded view feature进一步融合后得到最终物体的感知得分数。PVNet整个pipeline如下图。
file



三、要点分析

1. 为什么要多信息融合

目前三维感知领域主要分为两支,一支是基于多视角图像,另一支是基于点云。

  • 基于多视角图像。比如MVCNN和VMVCNN等,主要是对三维物体不同视角的图像分别进行特征提取,然后根据整合的全局特征进行物体的分类识别。虽然这种方式能够得到高级全局特征和细节信息,但是多视角图像由于缺少深度信息并不能很好地诠释三维空间几何特征,而且受到图像数量以及相机角度的影响,物体的一些局部结构信息没有被抓取到,因此会导致全局信息的感知缺失
  • 基于点云。点云最大的优势就是在于能够保持三维空间几何信息,因此直接从点云中学习,网络能够抽象出更符合三维空间约束的特征,比如PointNet, PointNet++, DGCNN等。但是,这些网络主要是关注如何更好地学习空间中局部全局的几何特征,至于这些局部特征哪些是对物体感知起到关键作用的,哪些是无关紧要的,以及不同局部特征之间存在的关联,目前学术界还没有很好地探索。即attention mechanism在点云中的应用,这应该会是点云的下一个研究趋势。

综上,如果能将多视角图像与点云进行特征融合,一是能够充分利用图像的高级全局特征以及点云的空间几何信息,二是可以通过高级全局特征去“指导”网络对点云中不同局部结构关注的注意力度,以更好地提取空间中的显著特征。

在图二中可以看到,经过两次attention fusion后,网络的注意力集中在点云中的某些特定区域,比如飞机的机翼、书架的侧壁、酒瓶的瓶口、椅子的椅背以及台灯的底座,这些特定区域具备较好的区分性,更易于网络进行三维物体感知。
file


2. 输入与特征提取并行支网

在PVNet中,输入为12幅不同视角的图像以及有1024个点的点云,见下图,然后分别送入不同的网络中提取特征。
file

  • 点云对应的分支网络为DGCNN,如图一,先通过Spatial Transform去计算3 x 3的仿射变换矩阵,并乘上原始点云以保持点云对几何旋转不变性,然后是两个EdgeConv对点云局部特征进行逐层抽象,得到大小为N x 64的特征(N为点的数目)。因为对DGCNN几乎没有任何结构修改,就不再赘述其结构,具体的细节可以看看原文。
  • 多视角图像对应的分支网络为MVCNN,如图一,首先通过CNN得到每一个视角的特征(共计M x 4096,M为视角数),然后通过view pooling获取所有视角整合后的全局特征(1 x 4096),最后,利用emdedding network将该全局特征投影到点云特征的子空间内,得到emdedded view feature(1 x 1024)。在PVNet的实际操作中,emdedding network为一层全连接层(The embedding network is simplified as a FC layer with satisfactory performance on projecting global features)。


    3. 注意力嵌入式融合

该模块结构见下图。首先经过DGCNN提取的点云特征再经过一层EdgeConv进行抽象,得到特征P(N x 64),随后,根据点云中点的数目N,按列复制N次embedded view feature,得到特征V(N x 1024),接着将P和V连接到一起构成N x 1088大小的特征PV,经过MLP层并通过归一化函数(sigmoid),将输出范围归一到区间[0, 1]内,表示网络对区域的注意力度,值越大注意力越高,即soft attention mask(N x 64)。最后,将mask对应相乘到原始点云特征P上,再以残差连接的方式与之相加,并得到最终的融合输出特征O(N x 64)。
file

在图一中可以看到PVNet先后用了两次attention fusion block,第一次主要是提取中级几何特征,第二次主要是提取高级几何特征


四、一些思考

1. 多视角图像中的信息冗余

虽然每一个视角包含物体不同角度的内容,但是相邻两幅或多幅图像之间一定是存在重叠区域的,即存在信息冗余。如何选取最少的图像诠释物体最全面的空间信息,个人认为会比较有意义。

而且,不同角度的内容对物体的识别也是起到了不同的作用,比如键盘的俯视图明显要比正视图和侧视图重要。在PVNet中,是multi-view guided point cloud attention,个人认为point cloud也可以指导multi-view,进行多视角的注意力嵌入式感知,毕竟点云包含更全面的空间几何信息且不存在冗余。

2. 注意力嵌入式融合感知在自动驾驶中的应用

因为无人车无法获取多视角图像,因此PVNet不能直接应用到该场景中。但是,能否通过某些生成模型,比如BrigeGAN,根据前视图生成不同视角的图像,如此便可以使用PVNet。

其次,针对某些特定的运作场景,车辆行驶的路线是固定的,比如工业区、港口等(相关团队比如主线科技),除了车载相机外,还可以通过不同地方的监控摄像头来获取多视角图像,以实现“地空联合感知”

另一方面,注意力机制还没有在该领域得到较好的应用,目前主流的技术都只是对RGB图像和点云特征进行全局融合,而在很多不存在物体的地方进行融合则是一种徒劳。如果能对车辆、行人等物体进行注意力感知,会大大提高整个系统的运行效率。

五、灵句解释

1. However, the relationships among different local structure features are still left unexplored in existing methods that employ point cloud data only, which limits the representation ability of point cloud for 3D shapes.

# 目前基于点云进行物体识别方式的缺陷

2. It is necessary to employ high-level global features from the multi-view data to mine the relative correlations between different local features from the point cloud data.

# 上述缺陷的解决方案

3. Directly applying attention mask to convention path could corrupt the original features because of the repeated dot production. So, similar to[30], we employ the residual connection to better utilize the attention masks.

# 对soft attention mask使用残差连接方式的原因

4. We first freeze the parameters of multi-view branch and only update our point cloud branch and attention embedding fusion structure for some epochs, and then all the parameters are updated together for some epochs. The reason behind this strategy is that CNNs in multi-view branch have been well pre-trained and point cloud networks are relatively weak in the beginning, which makes our strategy more suitable for the fusion.

# PVNet在训练中的一个策略,因为MVCNN是经过pre-trained而DGCNN没有,因此在前端周期中只训练后者,以达到平衡两支网学习能力的效果

5. We find the masks in each channel focus on different geometric features, which are important structures for 3D shape recognition. It means that our masks can learn to assign relative low weights for the unimportant point features for recognition and high weights for more discriminative features. And thus, the masks role like feature selectors to enhance good features and discard useless features like noise,which help to refine features and bring the performance improvement.

# soft attention mask的视觉分析及其作用

成为第一个点赞的人吧 :bowtie:
回复数量: 0
暂无回复~
您需要登陆以后才能留下评论!