• 问答
  • 技术
  • 实践
  • 资源
CVPR2021 论文大盘点:全景分割论文汇总(共 16 篇)

从 CVPR2021 公布结果开始,极市就一直对最新的 CVPR2021 进行分类汇总,共分为33个大类,包含检测、分割、估计、跟踪、医学影像、文本、人脸、图像视频检索、图像处理、三维视觉等多个方向。所有关于CVPR的论文整理都汇总在了我们的Github项目中,该项目目前已收获7500 Star。

Github项目地址(点击阅读原文即可跳转):

https://github.com/extreme-assistant/CVPR2021-Paper-Code-Interpretation

此前,我们对XXX进行了盘点,在本文中,我们将对CVPR2021接收论文中的16篇全景分割论文进行盘点和梳理接下来也会继续进行其他领域的 CVPR2021 论文盘点。如有遗漏或错误,欢迎大家在评论区补充指正。

注:在 极市平台 回复关键词“CVPR21分割”,即可获得以下论文打包下载。

论文一

Fully Convolutional Networks for Panoptic Segmentation(Oral)

标题:用于全景分割的全卷积网络

论文:https://arxiv.org/abs/2012.00720

代码:https://github.com/Jia-Research-Lab/PanopticFCN

本文提出了一个概念简单、强大且有效的全景分割框架,称为全景FCN。 本文方法旨在统一的全卷积管道中表示和预测前景目标和背景目标。特别的,全景FCN将每个实例编码到一个特定的内核中,并直接通过卷积生成预测。如下图所示,这种方法可以在在统一的工作流中分别满足实例感知以及语义一致性。全景FCN的核心思想是:在全卷积的管道中使用生成的内核均匀地表示和预测。在没有定位或实例分离的额外框的情况下,本文所提出的方法在具有单尺度输入的 COCO、Cityscapes 和 Mapillary Vistas 数据集上以高效率优于以前的基于框和无框模型。

全景FCN与过往研究的不同主要体现在两个方面:(1)在可数目标生成方面,全景FCN输出密集预测,然后利用NMS去除重叠,设计框架生成实例感知内核并直接生成每个特定实例;(2)与传统的基于FCN的不可数目标预测方法相比,即以逐像素的方式选择最可能的类别,全景FCN将全局上下文聚合到语义一致的内核中,并以整体实例的方式呈现现有语义类的结果。

论文二

Cross-View Regularization for Domain Adaptive Panoptic Segmentation(Oral)

标题:用于域自适应全景分割的跨视图正则化

论文:https://arxiv.org/abs/2103.02584

本文将注意力集中于无监督域自适应全景分割任务。设计了一个域自适应全景分割网络,该网络利用风格一致性和任务正则化来实现最佳域自适应全景分割。风格一致性利用不同风格的同一图像的几何不变性,让自监督来引导网络学习领域不变特征。任务正则化利用了实例分割和语义分割的互补性质,并将其作为实现更好的跨域特征对齐的约束。在多个域自适应全景分割任务进行的大量实验表明,与最先进的技术相比,本文所提出的网络实现了超SOTA的分割性能。

本文贡献可以概括为三个方面:

  1. 设计了一个跨视图正则化网络,有效地解决了域自适应全景分割的问题,这是解决域自适应全景分割任务的第一项工作
  2. 设计了一种新颖的任务正则化器,它利用语义分割和实例分割的互补性来实现最佳域自适应全景分割。此外,还设计了一个风格正则化器,它将不同风格的同一图像的几何一致性作为监督,以更好地跨域对齐特征;
  3. 在多域自适应全景分割任务上进行的广泛实验表明,与最先进的技术相比,本文方法实现了卓越的分割性能。

论文三

Improving Panoptic Segmentation at All Scales

标题:改进所有尺度的全景分割

论文:http://arxiv.org/abs/2012.07717

全景分割网络利用多批全尺寸图像进行训练,随着任务的日益复杂和网络主干容量的不断增大,尽管在训练过程中采用了节约内存的策略,全图像训练还是会被GPU可用内存所限制。已有的解决方案主要从减少训练批次大小、缩小高分辨率训练图像,或者使用低容量的backbone切入。但这些解决方法导致了一些问题:(1) 小batch可能导致梯度出现较大的方差,降低批归一化的有效性,因而降低模型的性能 ;(2)图像分辨率的降低会导致长尾分布中精细结构的丢失;(3)近期工作表明,与容量较低的backbone相比,具有复杂策略的更大backbone可以提高全景分割的效果。

在本文中,作者引入两个新改进来克服这些问题:

  1. 一种基于crop的训练策略。利用crop感知损失函数(CABB)来解决裁剪大型物体的问题;
  2. 实例尺度统一( ISUS) 采样作为数据增强策略,以解决训练数据中对象尺度的不平衡问题。

实验结果表明,本文提出的 crop-aware 损失函数对 Mapillary Vistas、Indian Driving 或 Cityscapes 数据集中的高分辨率图像特别有效,并在这些数据集上实现了SOTA性能。在 MVD 数据集上,PQ和mAP 分别比之前的SOTA结果高出4.5%和5.2%。

论文四

MaX-DeepLab: End-to-End Panoptic Segmentation with Mask Transformers

标题:MaX-DeepLab:使用掩模转换器进行端到端全景分割

论文:https://arxiv.org/abs/2012.00759

代码:https://github.com/google-research/deeplab2

本文所提出的MaX-DeepLab是第一个用于全景分割的端到端模型。该方法简化了当前严重依赖代理子任务和手工设计组件的pipeline,例如框检测、非最大抑制、stuff和thing合并等。而MaX-DeepLab直接使用mask transformer预测类别标记的mask,并通过二分匹配以全景质量启发损失进行训练。mask transformer采用双路径架构,除了CNN路径外,还引入了全局内存路径,能与任何CNN层直接交换信息。因此,MaX-DeepLab 在COCO数据集的无框模式中有着了7.1%的显著PQ增益,首次缩小了基于框和无框方法之间的差距。MaX-DeepLab的一个小变体在具有相似参数和M-Adds的情况下比DETR提高了3.0% PQ。此外,MaX-DeepLab在没有增加测试时间的情况下,在COCO测试集上实现了 51.3% PQ。

MaX-DeepLab的贡献可以概括为以下四个方面:

  1. MaX-DeepLab 是第一个用于全景分割的端到端模型,无需手动编码的先验(如对象中心或框)即可直接推断掩码和类别。
  2. 提出了一个训练目标,它通过预测掩码和真实掩码之间的PQ式二分匹配来优化PQ式损失函数。
  3. 本文的双路径转换器使 CNN 能够在任何层读取和写入全局存储器,提供了一种将转换器与 CNN 结合的新方法。
    • MaX-DeepLab 缩小了基于框和无框方法之间的差距,并在 COCO 上设置了新的最新技术,即使不使用测试时间增加。

论文五

LPSNet: A lightweight solution for fast panoptic segmentation

标题:LPSNet:快速全景分割的轻量级解决方案
论文:https://openaccess.thecvf.com/content/CVPR2021/papers/Hong_LPSNet_A_Lightweight_Solution_for_Fast_Panoptic_Segmentation_CVPR_2021_paper.pdf

现有全景分割方法大多利用两阶段检测网络来获得实例分割结果,并使用全卷积网络来进行语义分割预测。而处理这两个网络的输出之间的冲突需要后处理或附加模块,这使得这类方法效率低、内存消耗大、实现复杂。为了简化pipeline并降低计算/内存成本,本文提出了一种单阶段轻量级全景分割网络 (LPSNet) 方法,它不涉及proposal、anchor和mask,而是在增强特征金字塔产生的特征图上预测每个像素的边界框和语义类别,并设计一个无参数的头部,将每个像素的边界框和语义预测合并到全景分割输出中。LPSNet 不仅在计算和内存方面非常高效,而且在全景分割方面也很准确。

本文的贡献主要有:

  1. 不同于现有的方法,LPSNet能单阶段生成全景分割。由于不涉及anchor、proposal 或mask head,因此在计算、内存和超参数使用方面是高效的,同时更加易于训练,并适用于不同的场景。
  2. 将 全景分割任务分解为具有无参数全景分割头的目标检测和语义分割。全景分割头将检测框、对象中心偏移预测和语义分割作为输入来获得全景结果,LPSNet全景头可移植到具有检测和语义分割分支的其他网络。
  3. 在大多数像如FCOS这类的单阶段检测方法中,重叠或可变形的物体通常会导致严重的假阳性。LPSNet则利用mask信息来确定像素是否为正以及是否为中心,从而提供更准确的学习目标并提高性能。

论文六

ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic Segmentation

标题:ViP-DeepLab:通过深度感知视频全景分割学习视觉感知
论文:https://openaccess.thecvf.com/content/CVPR2021/papers/Qiao_VIP-DeepLab_Learning_Visual_Perception_With_Depth-Aware_Video_Panoptic_Segmentation_CVPR_2021_paper.pdf
代码:https://github.com/joe-siyuan-qiao/ViP-DeepLab

本文提出了 ViP-DeepLab,一个试图解决逆投影问题的统一模型。逆投影是视觉领域长期存在且非常具有挑战性一项难题,作者将 ViP-DeepLab建模为从透视图像序列中恢复点云,同时为每个点提供实例级语义解释。为解决这一问题,需要视觉模型预测每个 3D 点的空间位置、语义类别和时间一致的实例标签。 ViP-DeepLab 通过联合执行单目深度估计和视频全景分割,即深度感知视频全景分割来实现这一操作。同时,本文提出了一个新的评估指标以及两个派生数据集。 在单个子任务上,ViP-DeepLab 取得了最先进的结果,在 Cityscapes-VPS 上比之前的方法高出 5.1% VPQ,在 KITTI 单目深度估计基准上排名第一,在 KITTI MOTS 行人上排名第一。

论文七

Part-aware Panoptic Segmentation

标题:部分感知全景分割
论文:https://arxiv.org/abs/2106.06351
代码:https://github.com/tue-mps/panoptic_parts)

这项工作对新场景理解任务:部分感知全景分割(PPS)进行了介绍,旨在从多个抽象层次上理解场景,并统一场景解析和部分解析的任务。 作者在Cityscapes 和 Pascal VOC两个常用数据集上提供了一致的注释。 此外,还提出了一个单一指标用于评估 PPS,称为部分感知全景质量 (PartPQ)。作者通过合并现有的全景分割和部分分割的最先进方法的结果来设置多个基线,最后通过实验评估了在这个单一任务中不同抽象级别的重要性。

论文八

Learning to Associate Every Segment for Video Panoptic Segmentation

标题:学习关联视频全景分割的每个片段
论文:https://arxiv.org/abs/2106.09453

时间对应,即跨帧链接像素或对象是视频模型的基本监控信号。 在这个工作中,为了对动态场景的全景理解,作者进一步将此概念扩展到每个分割段。 具体而言,作者通过设计两个新颖的学习目标来实现共同学习粗段级匹配和精细像素级匹配。为了验证这一做法,本文采用了深度孪生模型,并训练模型以学习两个不同级别(即片段和像素)以及目标任务的时间对应关系。 在推理时,模型独立处理每一帧,无需任何额外的计算和后处理。 最终实现的每帧推理模型可以在 Cityscapes-VPS 和 VIPER 数据集上获得SOTA结果。同时,该模型的运行时间比过去的SOTA方法减少三倍。

本文主要贡献分为以下三点:

  1. 设计了两个具有高效学习框架的新颖目标函数,将时间对应学习推广到视频中的每个片段,并能共同学习粗段级匹配和精细像素级匹配;
  2. 为实现最大化同一片段上相距较远的帧表征之间的互信息,提出了一种新的有监督的对比学习方法来学习视频中的时间对应关系;
  3. 在基准测试方面取得了最新的进展,清楚地证明了方法的有效性,并提供了广泛的消融研究实验分析。

论文九

Exemplar-Based Open-Set Panoptic Segmentation Network

标题:基于范例的开放集全景分割网络
论文:https://openaccess.thecvf.com/content/CVPR2021/papers/Hwang_Exemplar-Based_Open-Set_Panoptic_Segmentation_Network_CVPR_2021_paper.pdf
项目:https://cv.snu.ac.kr/research/EOPSN)

本文将全景分割扩展到开放世界,并引入了开放集全景分割 (OPS) 任务。 OPS不仅需要对已知类进行全景分割,还需要对未知类进行全景分割。在研究了OPS的实际挑战后,作者在现有数据集 COCO 之上构建了一个新基准。 此外,受范例理论启发,本文提出了一种新型基于范例的开放集全景分割网络:EOPSN。通过聚类作为伪真值, EOPSN能够基于范例对新类别进行识别。 通过与该类相关联的现有样本进行新样本挖掘,每个类的大小将会增加。

论文十

Panoptic Segmentation Forecasting

标题:全景分割预测
论文:https://arxiv.org/abs/2104.03962
代码:https://github.com/nianticlabs/panoptic-forecasting

本文的目标是根据一组最近的观察预测不久的将来。而这种预测能力对于自主驾驶的成功来说是不可或缺的,因为自主驾驶不仅需要被动地分析观察,还必须实时对其做出反应。重要的是,准确的预测取决于所选的场景分解。本文作者认为可以通过将动态场景分解为独立的“things”和背景“stuff”来实现精准的预测。背景stuff主要因相机运动而移动,而前景things由于相机和单个物体的运动而移动。在这种分解之后,文章引入了全景分割预测。全景分割预测开辟了一个中间地带,可以预测实例轨迹或预测未来图像帧的外观。为了解决这个任务,本文研究者开发了一个双组件模型:一个组件通过预测里程计来学习背景stuff的动态,另一个组件则预测检测到的things的动态。作者为这项新任务建立了一个排行榜,并验证了一个优于可用基线的SOTA模型。

论文十一

Hierarchical Lovász Embeddings for Proposal-free Panoptic Segmentation

标题:用于无提案全景分割的分层 Lova ́sz 嵌入
论文:https://arxiv.org/abs/2106.04555)

全景分割将两个独立的任务结合在一起:实例分割和语义分割。尽管它们是相关的,但统一起来却面临着一个明显的悖论:如何同时学习特定于实例和特定于类别的表示。因此,最先进的全景分割方法使用复杂模型,每个任务都有不同的流。相比之下,本文提出了分层Lova ́sz嵌入,即同时编码实例级和类别级判别信息的每像素特征向量。为统一语义和实例层次结构的低维嵌入空间,使用分层 Lova ́sz 铰链损失来学习结构化,而无需单独的网络分支或对象提案。除了以无提案的方式精确建模实例之外,分层 Lova ́sz 嵌入通过使用简单的最近类平均分类器泛化到类别,包括实例分割方法不适用的非实例“stuff”类。与 Cityscapes、COCO 和 Mapillary Vistas 上现有的无提案全景分割方法相比,本文所提出的简洁模型实现了SOTA结果。此外,该模型还展示了视频帧之间的时间稳定性。

论文十二

Toward Joint Thing-and-Stuff Mining for Weakly Supervised Panoptic Segmentation

标题:面向弱监督全景分割的联合类别挖掘
论文:https://openaccess.thecvf.com/content/CVPR2021/papers/Shen_Toward_Joint_Thing-and-Stuff_Mining_for_Weakly_Supervised_Panoptic_Segmentation_CVPR_2021_paper.pdf

在全景分割研究中,仅使用图像级标签学习弱监督全景分割 (WSPS) 仍未被探索。本文为 WSPS 提出了一种有效的联合事物挖掘(JTSM)框架。为此,作者设计了一种新颖的兴趣池化掩码(MoIPool)来提取任意形状分割的固定大小像素精确特征图。 MoIPool 使全景挖掘分支能够利用多实例学习 (MIL) 以统一的方式识别things和stuff分割。通过自训练进一步细化具有并行实例和语义分割分支的分割掩码,将全景挖掘中挖掘的掩码与自下而上的对象证据作为伪真值标签进行协作,以提高空间一致性和轮廓定位。实验结果证明了 JTSM 对 PASCAL VOC 和 MS COCO 的有效性,同时还在弱监督对象检测和实例分割方面取得了有竞争力的结果。

论文十三

LiDAR-based Panoptic Segmentation via Dynamic Shifting Network

标题:通过动态移动网络进行基于 LiDAR 的全景分割
论文:https://arxiv.org/abs/2011.11964
代码:https://github.com/hongfz16/DS-Net

随着自动驾驶的快速发展,为其传感系统配备更全面的 3D 感知变得至关重要。然而现有的工作侧重于从 LiDAR 传感器解析物体(例如汽车和行人)或场景(例如树木和建筑物)。这项工作解决了基于 LiDAR 的全景分割任务,该任务旨在以统一的方式解析对象和场景。本文提出了动态移动网络:DS-Net,它作为点云领域中有效的全景分割框架。

DS-Net 有三点优异特性:

  1. 强大的backbone设计。采用了专为 LiDAR 点云设计的柱面卷积。提取的特征由以由下至上聚类方式操作的语义分支和实例分支共享。
  2. 复杂点分布的动态移位。作者观察到,常用的聚类算法(如 BFS 或 DBSCAN)无法处理具有非均匀点云分布和不同实例大小的复杂自动驾驶场景。因此,本文提出了一个高效的可学习聚类模块,动态移位,它可以针对不同的实例即时调整核函数。
  3. 共识驱动的融合。共识驱动的融合用于处理语义和实例预测之间的分歧。

论文十四

Panoptic-PolarNet: Proposal-free LiDAR Point Cloud Panoptic Segmentation

标题:无提案的LiDAR点云全景分割
论文:https://arxiv.org/pdf/2103.14962.pdf

在 LiDAR 点云的新兴领域中,全景分割的有效解决方案仍然是一个开放性研究问题,并且尚未得到充分探索。本文提出了一种快速且稳健的 LiDAR 点云全景分割框架:Panoptic-PolarNet。通过使用极点鸟瞰图 (BEV) 表示在单个推理网络中学习语义分割和与类别无关的实例聚类,本文方法能够规避城市街道场景中实例之间的遮挡问题。为了提高网络的可学习性,作者还提出了一种适应的实例增强技术和一种新颖的对抗性点云修剪方法。Panoptic-PolarNet 在公共 SemanticKITTI 全景分割排行榜中取得了 54.1% 的 PQ,并且在 nuScenes 的验证集上取得了领先的性能。

论文十五

4D Panoptic LiDAR Segmentation

标题:4D全景LiDAR分割
论文:https://arxiv.org/abs/2102.12472

时间语义场景理解对于在动态环境中运行的自动驾驶汽车或机器人至关重要。本文提出了 4D 全景 LiDAR 分割,用于将语义类和时间一致的实例 ID 分配给一系列 3D 点。文章提出了一种方法和以点为中心的评估指标。所提方法为每个点确定一个语义类,同时将对象实例建模为 4D 时空域中的概率分布。 作者并行处理了多个点云并解决了点到实例的关联,有效地减轻了对显式时间数据关联的需求。 受多目标跟踪基准测试的最新进展的启发,作者采用了一种新的评估指标,将任务的语义和点到实例关联方面进行了分离。

  • 0
  • 0
  • 174
收藏
暂无评论
sophie
大咖

科技园的搬砖汪

  • 20,393

    关注
  • 342

    获赞
  • 54

    精选文章
近期动态
  • 从事AI视觉算法开发多年,主攻目标检测、图像分割方向
文章专栏
  • 优质论文推荐