CVPR 2018 论文解读集锦(190326 更新)

之前我们整理过视觉顶级会议CVPR2017的论文解读ICCV 2017 论文解读集锦,CVPR 2018正在举办中,目前已经公布了所有收录论文名单和最佳论文,为了能够让大家更深刻了解CVPR的论文,我们进行了一些CVPR 2018论文解读的整理,后续还会持续更新。

【CVPR 2018 论文集】“Computer Vision Foundation open access” ​


55、CVPR2018 | Decoupled Networks
本文提出了一个好的问题,并且给出了一个靠谱的解决方案,甚至更加具有一般性。大量的实验验证了自己在实践上也是非常有效的。甚至故事讲得也非常的棒,并且算法思路清晰惊艳。这篇文章的工作就是在重新定义操作子,自己造轮子。


54.CVPR2018|3D-RCNN:通过渲染和比较实现实例级三维物体重建
本文提出了一个用于实例级三维场景理解的快速逆图形框架。通过训练深度卷积网络,学习将图像区域映射到图像中所有对象实例的完整三维形状和位姿。


53.CVPR 2018|分割算法——可以分割一切目标(附各种分割总结)

本文是对何恺明CVPR 2018的目标分割工作解读,同时作者基于时间顺序及相关paper总结了语义分割的结构演变历程。

52、CVPR2018 oral|香港中文大学胡枭玮:用于阴影检测的 DSC 特征

CVPR2018oral文章,来自香港中文大学的胡枭玮采用了提取 DSC 特征的方式,有效解决了计算机视觉物体检测与跟踪中的阴影遮挡问题。

51、CVPR 2018 | Repulsion loss:专注于遮挡情况下的行人检测

本文由同济大学和北京大学合作发表于CVPR2018,聚焦于loss层面,为遮挡情况下的行人检测问题提供了一种行之有效的解决方案。

50、DensePose开源了,2D变3D人体姿势实时识别 | Facebook@CVPR 2018

Facebook发布的人体姿势实时识别系统DensePose开源,可以把2D图像,转换成3D人体模型。

49、CVPR 2018|Cascade R-CNN:向高精度目标检测器迈进

本文是CVPR2018通用目标检测的一篇Oral,在Faster R-CNN框架下,通过级联多个分类器,逐步提高目标定位的精度,向高精度的目标检测器迈出了坚实的一步。

48、CV 届的金鸡百花奖:盘点我心中的 CVPR 2018 创意 TOP10

伴随着深度学习在计算机视觉领域的突飞猛进,我们仍在探索所有的可能性。许多论文将提出全新的深度网络在视觉上的应用。本文作者将向大家展示其认为是CVPR 2018中最酷最具创意的10篇论文。

47、CVPR 2018 |“寻找”极小人脸

本文是CVPR2018人脸检测的一篇Oral,结合GAN的思想提升了极小人脸的检测性能,是GAN入侵目标检测领域的又一篇力作。

46、【论文整理】CVPR2018 人体姿态相关

作者整理了一份CVPR2018中人体姿态相关的论文列表,并简述了论文的思路和方法,方便大家有选择性地阅读和收藏~

45、CVPR 2018 | 炫酷的卡通画目标检测

本文由东京大学发表在CVPR2018,论文采用了图像层面的域适应策略和弱监督伪标签策略,探索了如何将已有的检测器迁移到卡通画中进行目标检测。

44.、CVPR 2018 | 无监督语义分割之全卷积域适应网络
本文由中科大和微软亚洲研究院合作完成,论文提出了两种域适应策略,探索了如何使用合成图像提升真实图像的语义分割性能。

43、CVPR 2018 Best Paper Taskonomy 作者解读

斯坦福本科生/准博士生沈博魁,CVPR2018最佳论文Taskonomy的共同二作。鉴于poster session时发现很多人对Taskonomy的理解有偏差,作者亲自写了一篇Taskonomy的中文解读,希望能对大家有帮助。

42、CVPR2018最佳论文演讲:研究任务之间的联系才是做迁移学习的正确姿势

今年 CVPR 2018 最佳论文《Taskonomy: Disentangling Task Transfer Learning》(任务学:任务迁移学习的解耦)研究了一个非常新颖的课题,那就是研究视觉任务之间的关系,根据得出的关系可以帮助在不同任务之间做迁移学习。相比于我们看惯了的在为各种任务刷分的研究,这篇论文可谓是一股计算机视觉领域的春风。

41、【CVPR 2018最佳论文出炉】斯坦福等名校折桂,何恺明获年轻研究员奖

CVPR 2018最佳论文花落斯坦福和伯克利大师论文,最佳学生论文奖授予了CMU。何恺明获得了PAMI年轻研究员奖。


40、CVPR 2018 | ETH Zurich提出利用对抗策略,解决目标检测的域适配问题

本文是 ETH Zurich 发表于 CVPR 2018 的工作,论文提出了采用当前火热的对抗策略,解决目标检测任务中使用不同数据集训练的域适配问题。

39、CVPR 2018 | 阿里巴巴&浙大Poster论文:基于直推式无偏嵌入的零样本学习

大多数现有的零样本学习(Zero-Shot Learning,ZSL)方法都存在强偏问题,因此在广义 ZSL 设置中部署后性能很差。本文提出了一个简单有效的方法——准完全监督学习(QFSL)来解决此问题。

38、CVPR 2018 | 牛津大学&Emotech首次严谨评估语义分割模型对对抗攻击的鲁棒性

牛津大学&Emotech 实验室合作的一篇论文,首次严谨评估了语义分割模型对对抗攻击的鲁棒性。

37、CVPR 2018 | 非监督任意姿势人体图像合成

在CVPR2018有很多优秀的文章,这篇文章目的在于以非监督的方式利用一张人体图像合成任意姿势的同一个人的新图片。

36、CVPR 2018 | 视频分析的非局部(non-local) 神经网络模块,CMU与Facebook AI研究室视频分类识别新贡献

很大程度上,目前的芯片工艺和技术,决定了人类只能依靠神经网络这样的方案(高于传统机器学习一个计算级别)。而非局部(non-local) 模块把非局部感受野的信息提取操作做成一个神经网络模块,方便了端到端的视频分析。

35、CVPR 2018 | ETH Zurich提出新型网络「ROAD-Net」,解决语义分割域适配问题

本文是 ETH Zurich 发表于 CVPR 2018 的工作,论文提出了两个网络策略,用于处理语义分割任务中使用合成数据训练的域适配问题。

34、CVPR2018|DiracNets:无需跳层连接,训练更深神经网络,结构参数化与Dirac参数化的ResNet

论文讲述了虚拟化技术牺牲硬件开销和性能,换来软件功能的灵活性;深度模型也类似,如果把网络结构参数化,得到的模型更灵活易控,但是计算效率并不高。

33、CVPR 2018 | 残差密集网络:利用所有分层特征的图像超分辨率网络

美国东北大学最近在图像超分辨领域提出了一种残差密集网络,来从原图生成高分辨率图像。该网络结合残差网络与密集连接网络的特性充分利用原始 LR 图像的所有分层特征,因而能重构出高质量的图像。

32、2018|DA-GAN技术:计算机帮你创造奇妙“新物种”

微软亚研院被CVPR2018接收的论文提出的DA-GAN技术,能够通过文字描述生成新形象,形成了全新的艺术创造模式。


31、CVPR 2018 论文概述:有损压缩视频的多帧质量增强方法

CVPR 2018论文《Multi Frame Quality Enhancement for Compressed Video》提出针对有损压缩视频的多帧质量增强方法,显著提升了视频质量增强的性能。

30、CVPR 2018 | 使用CNN生成图像先验,实现更广泛场景的盲图像去模糊

现有的最优方法在文本、人脸以及低光照图像上的盲图像去模糊效果并不佳,主要受限于图像先验的手工设计属性。本文研究者将图像先验表示为二值分类器,训练 CNN 来分类模糊和清晰图像。实验表明,该图像先验比目前最先进的人工设计先验更具区分性,可实现更广泛场景的盲图像去模糊。

29、CVPR2018:基于时空模型无监督迁移学习的行人重识别

本文为你解读CVPR2018 TFusion,解决的目标是跨数据集的Person Rei,属于无监督学习,方法是多模态数据融合 + 迁移学习。实验效果上,超越了所有无监督Person reid方法,逼近有监督方法,在部分数据集上甚至超越有监督方法

28、独立循环神经网络(IndRNN):打造更长更深的RNN

电子科技大学和澳大利亚伍伦贡大学的研究者合作发表论文,介绍了他们创造的独立循环神经网络(IndRNN),这种新型RNN能有效解决网络收敛时的梯度爆炸和消失问题,并能够处理更长的序列。

27、CVPR 2018 | 腾讯AI Lab、MIT等机构提出TVNet:可端到端学习视频的运动表征

来自腾讯 AI Lab、MIT、清华、斯坦福大学的研究者完成并入选 CVPR 2018 Spotlight 论文的一项研究提出了一种能从数据中学习出类光流特征并且能进行端到端训练的神经网络:TVNet

26、CVPR 2018 | Spotlight论文:变分U-Net,可按条件独立变换目标的外观和形状

来自德国海德堡大学的研究者提出了条件 U-Net,将变分自编码器输出的外观条件化。实验证明,这个模型能够完成条件图像生成和转换。在多个数据集上进行的定性和定量实验表明,该方法比目前最先进的方法都有所提升。

以下论文解读来源于paperweekly

25、Unsupervised Person Image Synthesis in Arbitrary Poses

CVPR 2018 Spotlight 论文,ReID + GAN 换 pose。本文用了较多的篇幅讲 loss function,pose 的提取用的是 OpenPose 这个库。 其 loss 分为三部分: Image Adversarial Loss、 Pose Loss、Identity Loss。

论文链接

https://iri,upc.edu/people/aagudo/Papers/CVPR2018/apumarola_etal_cvpr18_2.pdf


24、Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

CVPR 2018 RE-ID Spotlight 一篇,这篇文章主要 contribution 有以下两点:

提出了一个新的更大的数据集,更为细致:考虑到了视角,光照等更为细致的因素,具体参数可以直接看文章;多个数据集间的差异,即 domain-gap,通过 GAN 来生成和模仿。

论文链接

https://arxiv.org/pdf/1711.08565.pdf

代码链接

https://github.com/JoinWei-PKU/PTGAN

数据集链接

http://www.pkuvmc.com/publications/msmt17.html

23、Disentangled Person Image Generation

在 NIPS 2017 上,该团队已经为我们贡献了 Pose Guided Person Image Generation 这篇非常棒的文章,在 CVPR 2018 中,他们推出的更新的这篇文章不仅仅解决了换 pose 问题,还实现了”随心所欲“的换装换 pose,入选今年的 Spotlight。

论文链接

https://arxiv.org/pdf/1712.02621.pdf


22、Practical Block-wise Neural Network Architecture Generation

CVPR 2018 Oral 一篇,本文主要提出了通过封装模块(block-wise)的方法,运用增强学习设计生成网络架构的方法。


论文链接

https://arxiv.org/pdf/1708.05552.pdf


21、Deep Layer Aggregation

CVPR 2018 Oral,topic:网络设计模块化。如名所示,提出了 aggregation 的具体思路,并在层融合上提出了具体方式。


论文链接

https://arxiv.org/pdf/1707.06484.pdf

20、Learning Face Age Progression: A Pyramid Architecture of GANs

CVPR 2018 Oral,文中提出了特征提取器用于提出特定特征,原因是作者认为相同年龄段的不同人脸有着相同的的纹理等特定信息,而这个提取器就是提取出这些特征。此外,该分类器是经过 age 分类任务预训练好了的。

论文链接

https://arxiv.org/pdf/1711.10352v1

19、Convolutional Neural Networks with Alternately Updated Clique

北大团队提出的新的 block 设计,achieves the performance of the state of the art with less parameters.。由于 block 内任意两层互连,故实现了 top-bottom refinement,也就实现了 attention 机制。文中还提到了部分 technique。


论文链接

https://arxiv.org/abs.1802.10419

代码链接

https://github.com/iboing/CliqueNet


18、Unsupervised Discovery of Object Landmarks as Structural Representations

CVPR 2018 Oral, 今年 CVPR Landmark 和 Attention 这两个词出现的频率很高。现在看到的是第二版,对该文进行了更深入的研究后完成。

论文链接

https://arxiv.org/pdf/1804.04412.pdf


17、An Analysis of Scale Invariance in Object Detection - SNIP

CVPR 2018 Oral,文章主要解决网络处理不同 scale 图片的网络策略。


论文链接

https://arxiv.org/pdf/1711.08189.pdf

16、Wasserstein Introspective Neural Networks

文章主要做的事情就是提出了基于 Wasserstein 的 INN,该组已经在 ICCV,NIPS 等多次提出并改进该模型,该模型主要做的就是将 GAN 中的 G 和 D 结合起来。

论文链接

https://arxiv.org/pdf/1711.08875

代码链接

https://github.com/kjunelee/WINN


15、Im2Flow: Motion Hallucination from Static Images for Action Recognition

CVPR 2018 Oral,用 u-net 训练一个模型:输入是一个静态的帧,输出的预测的五帧光流信息,模型在 YouTube 数据集上训练。

论文链接

https://arxiv.org/pdf/1712.04109.pdf


14、What have we learned from deep representations for action recognition?

CVPR 2018 Zisserman 的新论文,这篇文章就是 two-stream 模型中间层的可视化方法,换句话说,就是探寻 two-stream 模型学到了怎样的时空信息。

论文链接

https://arxiv.org/pdf/1801.01415.pdf


13、Squeeze-and-Excitation Networks

考虑通道加权,用全局池化后训练的全连层作为权重,相当于在 channels 上加了一个 attention 机制,给不同的 channel 不同的权重。


论文链接

https://arxiv.org/pdf/1709.01507.pdf

代码链接

https://github.com/hujie-frank/SENet

12、Actor and Action Video Segmentation from a Sentence

CVPR 2018 Oral,本文定义了一个新的任务:给出一个句子,根据该句子分割视频中的 actor 及其 action。


论文链接

https://arxiv.org/pdf/1803.07485.pdf


11、Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

CVPR 2018 Oral,主题是 attention+VQA,本文的主要思路是用 faster-rcnn 提取出 proposal,然后用其做 image captioning 或者 VQA,该方法取得了 2017 VQA Challenge 的第一名。

论文链接

https://arxiv.org/pdf/1707.07998

代码链接

https://github.com/peteanderson80/bottom-up-attent...


10、Embodied Question Answering

这篇文章主要定义了一个新的 task 并给出了一个数据集。将一个 agent 随机丢进一个房间,向他提出一个问题,这个 agent 需要自己导航并回答问题。

论文链接

https://arxiv.org/pdf/1711.11543

9、Taskonomy: Disentangling Task Transfer Learning

本文定义了一个新的任务,针对在视觉内的迁移学习,并提出了一个蛮大的数据库, 定义的任务是这样的:vision task 类目很多,只针对某个问题来解决的话,会需要很大的标注的数据集,但我们不难想到的是,一个视觉任务的解决应该能够一定程度的解决另一个视觉任务,毕竟一个成熟模型的构建意味着对该 image 的一定的理解,而这部分的理解的一部分或许对另一个 task 有助益,例,物体 relation 的理解对深度信息的学习毫无疑问是有着助益的。


论文链接

https://arxiv.org/pdf/1804.08328.pdf

代码链接

https://github.com/StanfordVL/taskonomy

8、Detail-Preserving Pooling in Deep Networks

CVPR 2018 Oral,顾名思义,提出了保留 detail 的池化方法。 max/avg pooling 一个只选取最大而忽略与周围像素的关联性,一个重视关联性却又直接抹平,并且在实际梯度计算中也有一些 drawback,所以该文提出了这个新方法,一句话概括,就是在池化过程中学了一个动态的 weight。

论文链接

https://arxiv.org/pdf/1804.04076.pdf

代码链接

https://github.com/visinf/dpp

7、High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

CVPR 2018 Oral,本文解决了 GAN 生成高分辨率突破的问题,分辨率达到了 2048*1024,方法精细,值得深入来看。

论文链接

https://arxiv.org/pdf/1711,11585.pdf

代码链接

https://github.com/NVIDIA/pix2pixHD

6、Feature Space Transfer for Data Augmentation

CVPR 2018 ORAL,用GAN生成新数据。


论文链接

https://arxiv.org/pdf/1801.04356.pdf


5、StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

这里的 domain 是指针对数据集中的 attribute,根据 attribute 来划分的,比如相对于发色而言,金发是一个 domain,黑发是一个 domain ,作者在本文提出了一个可以解决 multiple domain translation 的 translator。

论文链接

https://arxiv.org/pdf/1711.09020.pdf

代码链接

https://github.com/yunjey/StarGAN

4、Discriminative Learning of Latent Features for Zero-Shot Recognition

CVPR 2018 Oral,Zero-Shot Learning 就是寻求将学习到的特征映射到另一个空间中,从而 map 到 seen 及 unseen 的属性或者 label 上。这篇文章的主要亮点在于学习了已定义label的同时,学习了latent attribute(隐含属性)。

论文链接

https://arxiv.org/pdf/1803.06731.pdf


3、Relation Networks for Object Detection

CVPR 2018 Oral,本文设计了一个考虑 relation 的 module,来增强 object detection 的性能。


论文链接

https://arxiv.org/pdf/1711.11575.pdf


2、Semi-parametric Image Synthesis

CVPR 2018 Oral,来自 CUHK,这里设计的模型以 semantic layout 输入,输出真实的相片般的图片。


论文链接

https://vladlen.info/papers/SIMS.pdf


1、Synthesizing Images of Humans in Unseen Poses
CVPR 2018 Oral,Pose 合成。

论文链接

https://arxiv.org/pdf/1804.07739.pdf