CVPR2021 论文解读汇总(更新中)

CVPR2021同系列整理:


【22】真内卷!Involution:构建新一代视觉识别网络
本文提出了Involution卷积,可构建用于构建新型的神经网络架构!本文所提方法在分类、检测和分割等CV垂直任务上涨点明显,代码刚刚开源!
paper | code


【21】何恺明团队提出SimSiam:探索简单的孪生表示学习(CVPR2021 Oral)
本文是FAIR的陈鑫磊&何恺明大神在无监督学习领域又一力作,提出了一种非常简单的表达学习机制用于避免表达学习中的“崩溃”问题,从理论与实验角度证实了所提方法的有效性;与此同时,还侧面证实了对比学习方法成功的关键性因素:孪生网络。
paper


【20】模型缩放新范式!FAIR的Ross等人提出FastScaling
本文是FAIR的Piotr Dollar与Ross Girshick等人(PS:Kaiming呢?)在模型缩放方面的一次系统性探索。首先,对现有的模型缩放(单一维度缩放、复合维度缩放等)进行了分析,不仅分析了不同维度缩放与FLOPs、Parameters以及Activations之间的关系,同时分析了它们与实际推理速度之间的关系。然后,在前述分析的基础上了提出了本文的快速缩放策略并在EfficientNet、RegNetY、RegNetZ等模型上进行了验证。相比EfficientNet中的复合缩放,本文所提缩放策略取得了更快的推理速度。
paper


【19】Spatial在左,Temporal在右!如何缓解视频动作理解中的隐式偏见之殇?
作者提出一种通过self-supervised learning来缓解implicit bias的新思路。受到semi-supervised learning中关于denoise和consistency regularization的启发[3],我们的思路是合成一些background当作噪声,想办法让网络能弱化对background的依赖。
paper | code | project


【18】AttentiveNAS:通过注意力采样改善神经架构搜索
本文是 Facebook 发表在CVPR 2021的NAS论文。在 OFA 和 BigNAS 在训练超网络的采样技巧上,进一步提出了基于帕累托感知的采样策略,提高了超网训练的效率,并取得了 SOTA 的结果。
paper | code


【17】聊一聊使用NLP语言模型解决场景文本识别中问题的思路以及一些思考(CVPR2021 Oral)
在这一工作中,作者围绕如何进行有效地建模语言这个问题展开了一些探索及讨论,总体上的思想就是从NLP字符级别拼写矫正的语言建模角度来思考场景文字识别问题,尤其是针对图像质量退化的这种场景文字识别。这里得再解释下,我们的语言建模主要是character级别的语言建模,而非NLP中更常用的word级别或者token级别的语言建模(尽管算法大部分情况下是通用的)。这也是为什么我们的论文中在描述语言的时候尽量得在使用linguistic而非semantic这个词,因为更准确来说我们是在模拟语言规则方面的特性,而非更高层的语义层。不过我相信,今后也会有不少方法可以实现更高语义层的结合,尤其是在篇章级长文本识别的时候,考虑词的语义是有意义的。
paper | code


【16】多尺度Patch-NetVLAD,大幅度提高VPR性能
本方法结合局部与全局特征的优势并利用NetVLAD残差得到patch-level的特征,该特征能够有效应对环境以及视角变化对VPR带来的影响,获得了“ ECCV2020 Facebook Mapillary Visual Place Recognition Challenge ”的冠军。
paper | code


【15】目标检测一卷到底之后,终于有人为它挖了个新坑
虽然目标检测技术目前已经发展得较为成熟,但如果要真正能实现让计算机像人眼一样进行识别,有项功能一直尚未达成——那就是像人一样能识别现实世界中的所有物体,并且能够逐渐学习认知新的未知物体。本文解决了两个挑战:一是在没有明确监督的情况下,将尚未引入的目标识别为“未知”,二是让网络进行N+1式增量学习。
paper | code


【14】我给大家表演一个无中生有|北航商汤耶鲁
为解决数据分布和样本同质化使量化模型精度下降这一问题,来自北航、耶鲁大学、商汤研究院的研究团队,共同开发了多样化的样本生成(DSG)方法。
paper


【13】无监督预训练检测器(CVPR2021 Oral)
无监督预训练模型无论是在nlp(BERT,GPT,XLNet)还是在cv(MoCo,SimCLR,BYOL)上都取得了突破性的进展。而对于无监督(自监督)预训练而言,最重要的就是设计一个合理的pretext,典型的像BERT的masked language model,MoCo的instance discrimination。他们都通过一定的方式,从样本中无监督的构造了一个"label",从而对模型进行预训练,提高下游任务的表现。那么,对于DETR而言,既然CNN可以是无监督预训练的,那么transformer能不能也无监督预训练一下?
paper | code


【12】GFLV2:目标检测良心技术,无Cost涨点!
本文是检测领域首次引入用边界框的不确定性的统计量来高效地指导定位质量估计,从而基本无cost(包括在训练和测试阶段)地提升one-stage的检测器性能,涨幅在1~2个点AP。
paper | code


【11】DCL:旋转目标检测新方法
Densely Coded Labels (DCL)是 Circular Smooth Label (CSL)的优化版本。DCL主要从两方面进行了优化:过于厚重的预测层以及对类正方形目标检测的不友好。
paper | code


【10】层次风格解耦:人脸多属性篡改终于可控了(CVPR2021 Oral)
从CycleGAN提出后,图像翻译面临的最大的两个问题就是扩展性(同时处理多种篡改)和多样性(生成不同的结果),然而,一直没有一个很好的方法,可以兼顾扩展性和多样性的同时,又能使得这种篡改满足预期。例如,对于人脸属性篡改任务,我们想要给人脸加上刘海,可是却改变了发色或是背景,再例如,我们想要给人脸加上眼睛,结果竟然性别和年龄也改变了。HiSD就是为了解决这些问题,并且还同时支持从噪声中生成或者从图像中提取这样的风格。
paper | code


【9】Transformer再下一城!low-level多个任务榜首被占领,北大华为等联合提出预训练模型IPT
对low-level计算机视觉任务(比如降噪、超分、去雨)进行了研究并提出了一种新的预训练模型:IPT(image processing transformer)。为最大挖掘transformer的能力,作者采用知名的ImageNet制作了大量的退化图像数据对,然后采用这些训练数据对对所提IPT(它具有多头、多尾以适配多种退化降质模型)模型进行训练。此外,作者还引入了对比学习以更好的适配不同的图像处理任务。经过微调后,预训练模型可以有效的应用不到的任务中。仅仅需要一个预训练模型,IPT即可在多个low-level基准上取得优于SOTA方案的性能。
paper


【8】真正的无极放大!30x插值效果惊艳,英伟达等开源LIIF:巧妙的图像超分新思路
一种新颖的连续图像表达方案。它在离散2D图像与连续2D图像之间构建了一种巧妙的连接。受益于所提方法的“连续表达”,它能够对图像进行分辨率调整,做到了真正意义上的“无极放大”,甚至可以进行30x的放大处理。
paper | code | video | project


【7】AdCo基于对抗的对比学习
自监督学习领域,基于contrastive learning(对比学习)的思路已经在下游分类检测和任务中取得了明显的优势。其中如何充分利用负样本提高学习效率和学习效果一直是一个值得探索的方向,本文第一次全新提出了用对抗的思路end-to-end来直接学习负样本,在ImageNet和下游任务均达到SOTA。AdCo仅仅用8196个负样本(八分之一的MoCo v2的负样本量),就能达到与之相同的精度。同时,这些可直接训练的负样本在和BYOL中Prediction MLP参数量相同的情况下依然能够取得相似的效果。这说明了在自监督学习时代,通过将负样本可学习化,对比学习仍然具有学习效率高、训练稳定和精度高等一系列优势。
paper | code


【6】超分性能不降低,计算量降低50%:加速图像超分的ClassSR
本文是在low-level领域关于超分网络加速的一次探索。它创新性的将分类与超分进行了融合,根据不同子块的复原难度自适应选择合适的超分分支以降低整体计算复杂度:复原难度低的平坦区域选择复杂度低的超分分支,复原难度高的纹理区域选择复杂度高的超分分支。在不降低超分性能的情况下,该方法可以最高可以节省50%的计算量。
paper


【5】 MotionRNN:针对复杂时空运动的通用视频预测模型
视频预测方法被广泛应用于降水预报(Precipitation Nowcasting)、交通流预测(Traffic Flow Prediction)、机器人视觉规划(Visual Planning)等众多任务中。然而现实世界的运动极其复杂,且往往处于不断变化中,比如人体运动中的变向、变速、肢体运动,雷达回波中的云团产生、消散、位移、形变等等。这种复杂的时空变化使得准确预测未来的运动极具挑战性。
针对复杂时空运动,我们关注到现实世界的运动在时空上可以分解为整体运动趋势(motion trend)与瞬时变化(transient variation),并基于此提出了名为MotionRNN的模型,对运动趋势与瞬时变化进行统一建模。同时,作为一个通用的视频预测模型,MotionRNN具有很好的灵活性,可以结合众多的基于RNN的时空预测模型,稳定提升它们应对复杂时空运动的能力。
paper


【4】Statistical Texture Learning
从底层细节纹理分析与增强优化视觉学习问题,并在分割任务上得到了验证,直观、合理且有效涨点。我们从传统图像分析领域获得灵感,构建了这样一套Statistical Texture Learning框架,有效的在CNN架构中学习底层纹理(分析+增强),从而获得了非常有效的性能涨点。
paper


【3】二次元妹子五官画风都能改,周博磊团队用无监督方法控制GAN(CVPR2021 Oral)
现在,GAN不仅能画出二次元妹子,还能精准调节五官、表情、姿势和绘画风格。而且在调控某个因素的时候,其他条件能尽量保持不变。SeFa适用于PGGAN、StyleGAN、BigGAN和StyleGAN2等常见GAN模型,不仅对二次元妹子有效,甚至还能调控猫咪上下左右不同方向。
paper | code | Colab


【2】Inception convolution
我们最近被CVPR2021接受的工作,主要使用一些优化手段来找到新的卷积模式,目标是能够找到一个部署友好简单的卷积来帮助下游各个任务更好的提升baseline。
paper | code


【1】RepVGG:极简架构,SOTA性能,让VGG式模型再次伟大(CVPR-2021)
我们最近的工作RepVGG,用结构重参数化(structural re-parameterization)实现VGG式单路极简架构,一路3x3卷到底,在速度和性能上达到SOTA水平,在ImageNet上超过80%正确率。已经被CVPR-2021接收。不用NAS,不用attention,不用各种新颖的激活函数,甚至不用分支结构,只用3x3卷积和ReLU,也能达到SOTA性能。
paper | 开源预训练模型和代码(PyTorch版) | MegEngine版

微信公众号: 极市平台(ID: extrememart )
每天推送最新CV干货