CVPR 2020 Oral 汇总:论文 / 代码 / 解读(更新中)

在2月24日,CVPR 2020 公布接收论文结果公布,从 6656 篇有效投稿中录取了 1470 篇论文,录取率约为 22%。3月13日,CVPR Oral结果公布了。有大佬已经分享了自己的工作,本文整理了已中Oral的论文,持续更新,分享给大家阅读。



10.PolarMask: 一阶段实例分割新思路[1,2]

论文地址:PolarMask: Single Shot Instance Segmentation with Polar Representation

代码:https://github.com/xieenze/PolarMask

来自作者本人的详细解读:

Johnny ez:(CVPR20'Oral) PolarMask: 一阶段实例分割新思路

PolarMask基于FCOS,把实例分割统一到了FCN的框架下。FCOS本质上是一种FCN的dense prediction的检测框架,可以在性能上不输anchor based的目标检测方法,让行业看到了anchor free方法的潜力。本工作最大的贡献在于:把更复杂的实例分割问题,转化成在网络设计和计算量复杂度上和物体检测一样复杂的任务,把对实例分割的建模变得简单和高效。

两种实例分割的建模方式:

file

实验结果:

file



9.Scene Graph Generation开源框架[3,4]

论文链接:Unbiased Scene Graph Generation from Biased Training

论文代码:https://github.com/KaihuaTang/Scene-Graph-Benchmark.pytorch

来自作者本人的详细解读:

CVPR2020 | 最新最完善的场景图生成 (SGG)开源框架,集成目前最全metrics,已开源

本文提出了一种基于因果推理的新颖SGG框架。选择2019年热门框架facebookresearch/maskrcnn-benchmark作为基础,在其基础上搭建了Scene-Graph-Benchmark.pytorch。该代码不仅兼容了maskrcnn-benchmark所支持的所有detector模型,且得益于facebookresearch优秀的代码功底,更大大增加了SGG部分的可读性和可操作性。

Recall:

file



8. Learning to Shade Hand-drawn Sketches[5]

论文地址:Learning to Shade Hand-drawn Sketches

代码:https://github.com/qyzdao/ShadeSketch

本文提供了一种全自动方法,可以从成对的线描草图和照明方向生成详细而准确的艺术阴影。还提供了一个新的数据集,其中包含了用照明方向标记的成对的线描和阴影的一千个示例。值得一提的是,生成的阴影可以快速传达草绘场景的基础3D结构。因此,本文的方法产生的阴影是可以直接使用的。本文生成的阴影尊重手绘线和基础3D空间,并包含复杂且准确的细节,例如自阴影效果。此外,生成的阴影还包含艺术效果,例如边缘照明或背光产生的光晕,这也是传统3D渲染方法可以实现的。

file

生成的阴影手绘草图



7. SAM: The Sensitivity of Attribution Methods to Hyperparameters[6]

论文地址:https://s.anhnguyen.me/sam\_cvpr2020.pdf

代码:https://github.com/anguyen8/sam

本文中对现有归因方法的敏感性进行了透彻的实证研究,发现了一个趋势:许多方法对它们共同的超参数的变化高度敏感,例如即使更改随机种子也会产生不同的解释!有趣的是,这种敏感性没有反映在文献中通常报道的数据集的average explanation accuracy scores 中。

file



6.High Frequency Component Helps Explain the Generalization of Convolutional Neural Networks

论文地址:High Frequency Component Helps Explain the Generalization of Convolutional Neural Networks

本文研究了图像数据的频谱与卷积神经网络(CNN)的泛化之间的关系。我们首先注意到CNN捕获图像高频分量的能力。这些高频分量几乎是人类无法察觉的。因此,观察结果导致了与CNN泛化相关的多种假设,包括对对抗性示例的潜在解释,对CNN鲁棒性和准确性之间的权衡的讨论,以及在理解训练启发式方法方面的一些证据。

file

5.Reinforced Feature Points: Optimizing Feature Detection and Description for a High-Level Task

论文地址:Reinforced Feature Points: Optimizing Feature Detection and Description for a High-Level Task

本文解决了计算机视觉的核心问题之一:用于图像匹配的2D特征点的检测和描述。长期以来,像SIFT这样的算法在准确性和效率上都是无与伦比的。近年来,出现了使用神经网络来实现检测和描述学习型特征检测器,但用于训练这些网络low-level matching scores的改进并不一定会在高级视觉任务中有着更好的性能。本文提出了一种新的训练方法,该方法将特征检测器嵌入完整的视觉管道中,并以端到端的方式训练可学习的参数。并利用这一方法解决了一对图像之间的姿态估计任务。该训练方法几乎没有学习任务的限制,并且适用于预测key point heat maps以及descriptors for key point locations。



4.AdderNet: Do We Really Need Multiplications in Deep Learning?

论文地址:AdderNet: Do We Really Need Multiplications in Deep Learning?

代码:https://github.com/huawei-noah/AdderNet

没有乘法的神经网络,你敢想象吗?去年年底,来自北京大学、华为诺亚方舟实验室、鹏城实验室的研究人员将这一想法付诸实践,他们提出了一种只用加法的神经网络AdderNet(加法器网络)。一作是华为诺亚方舟实习生,正在北大读博三。

在加法器网络的新定义下,AdderNet的特征可视化以及特征向量的空间分布也和CNN有很大的不同。

file

在CIFAR-10的图像分类任务中,AdderNet相比当初Bengio等人提出的加法神经网络BNN性能有大幅提升,并且已经接近了传统CNN的结果。在ImageNet的图像分类任务中,AdderNets可以达到74.9%的top-1正确率和91.7%的top-5正确率,与CNN接近。



3.BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition

论文地址:https://www.weixiushen.com/publication/cvpr20\_BBN.pdf

代码:Megvii-Nanjing/BBN

旷视 魏秀参 团队的paper,主要关注视觉识别任务中普遍存在的长尾问题

详细的可以看作者本人的解读: https://www.zhihu.com/question/379109637/answer/1080076071



2.Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching

论文地址:Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching

代码:alibaba/cascade-stereo

主要解决问题:目前基于Deep learning的方法构建的3D Cost Volume需要3D卷积来做cost aggregation消耗显存非常大,为了节省内存一般最终输出的depth/disparity map限制为输入的1/4。

详细的可以看作者本人的解读: https://www.zhihu.com/question/379109637/answer/1083127862



1.RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

论文地址:RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

代码:QingyongHu/RandLA-Net

提出了一种针对大规模三维点云场景的轻量级、高效点云语义分割算法RandLA-Net。通过对现有的采样策略进行全面综合的分析,我们采用简单高效的随机采样来显著地减少计算量以及内存消耗,并且引入了局部特征聚合模块持续地增大每个点有效的感受野,保留大多数有效的信息。在Semantic3D,S3DIS以及SemanticKITTI等多个数据集上都取得了不错的效果,而且相比于现有的处理大规模点云的算法SPG在速度上有近200倍的提升。

详细的可以看作者本人的解读:

Qingyong Hu:[CVPR 2020 Oral] RandLA-Net:大场景三维点云语义分割新框架(已开源)



file
△关注极市平台,获取最新CV干货

参考文献
[1] https://zhuanlan.zhihu.com/p/84890413
[2] PolarMask: Single Shot Instance Segmentation with Polar Representation
[3] https://zhuanlan.zhihu.com/p/109657521
[4] Unbiased Scene Graph Generation from Biased Training
[5] Learning to Shade Hand-drawn Sketches
[6] https://s.anhnguyen.me/sam\_cvpr2020.pdf
[7] High Frequency Component Helps Explain the Generalization of Convolutional Neural Networks
[8] Reinforced Feature Points: Optimizing Feature Detection and Description for a High-Level Task
[9] AdderNet: Do We Really Need Multiplications in Deep Learning?
[10] https://www.zhihu.com/question/379109637/answer/1080076071
[11] https://www.zhihu.com/question/379109637/answer/1083127862
[11] Qingyong Hu:[CVPR 2020 Oral] RandLA-Net:大场景三维点云语义分割新框架(已开源)

微信公众号: 极市平台(ID: extrememart )
每天推送最新CV干货