10 分钟看完:悉尼科技大学入选 CVPR 2019 的 8 篇论文,都研究什么?

全球计算机视觉顶级会议 IEEE CVPR 2019 (Computer Vision and Pattern Recognition,即 IEEE 国际计算机视觉与模式识别会议) 即将于六月在美国长滩召开,本届大会总共录取来自全球论文 1300 篇。CVPR 作为计算机视觉领域级别最高的研究会议,其录取论文代表了计算机视觉领域在 2019 年最新和最高的科技水平以及未来发展潮流。CVPR 官网显示,今年有超过 5160 篇的大会论文投稿,录取了 1300 篇论文,比去年增长了 32.7%(2018 年论文录取 979 篇)。


悉尼科技大学杨易教授组共有 8 篇论文被本届 CVPR 大会接收,其中包括口头报告论文 3 篇(Oral录取率为 288/5160 = 5.58%)。 部分录取论文和百度,英伟达,谷歌等公司合作,在以下领域实现进展: 行人重识别/生成,迁移学习,网络结构搜索,图像生成, 网络压缩。

  • Joint Discriminative and Generative Learning for Person Re-identification (Oral)
    Paper Link: https://arxiv.org/abs/1904.07223
    Zhedong Zheng, Xiaodong Yang, Zhiding Yu, Liang Zheng, Yi Yang, Jan Kautz

(视频备份链接: B站:https://www.bilibili.com/video/av51439240/ 腾讯:https://v.qq.com/x/page/t0867x53ady.html)

行人重识别的难点在于不同摄像头下人的类内变化(包括摄像头的视角/光照/人的姿态等)。本文没有使用任何部件匹配的损失,而是仅仅让模型去“看”更多的训练图像来提升行人重识别的效果。而这些训练图像都是由GAN生成的。相比于ICCV2017时第一篇使用GAN来生成行人图像的文章[1],本文不仅在生成图像质量上有了大的提升,同时也将行人重识别的模型与生成模型做了有机的结合。从行人重识别模型提取好的行人特征可以作为GAN的input vector,而GAN生成图像可以用来finetune行人重识别模型。

[1] Zheng, Zhedong, Liang Zheng, and Yi Yang. "Unlabeled samples generated by gan improve the person re-identification baseline in vitro." In ICCV 2017.


Code: https://github.com/RoyalVane/CLAN

Yawei Luo, Liang Zheng , Tao Guan , Junqing Yu, Yi Yang
file

基于深度学习的语义分割方法效果出众,但需要大量的人工标注进行监督训练。借助于计算机虚拟图像技术,如3D游戏,可以获得几乎无限的自动标注数据。然而虚拟图像和现实图像间存在严重的视觉差异(域偏移),导致训练出的模型在真实图像数据集上的分割精度很低。传统方法利用对抗训练减少源域(S)和目标域(T)不同分布之间的差异,以加强网络在域间的泛化能力。然而该类方法只能对齐全局特征分布,忽略了同语义特征之间的语义一致性,在训练过程中容易造成负迁移。针对这一难点,作者采用了Co-training + Adversarial Training的方式,使用两个互斥分类器,根据分类器预测的差值来估计源域和目标域中特征的局部语义对齐程度,以此动态计算针对每类特征的对抗损失权重,解决了域适应语义分割中的语义不一致性问题和负迁移问题。


Code: https://github.com/he-y/filter-pruning-geometric-median

Yang He, Ping Liu, Ziwei Wang, Zhilan Hu, Yi Yang
file

本文提出了新的基于滤波器的几何中心(geometric median)的剪枝算法,来对神经网络进行压缩和加速。现有的剪枝算法普遍认为,范数(Lp-norm)小的滤波器可以被去掉而不影响网络性能。由此对滤波器的范数有两个要求,一是滤波器范数分布的标准差要大,二是最小的范数要足够小。但是实际的经过预训练神经网络模型并不满足这两个要求,这导致一些重要的滤波器被错误地剪掉,影响了性能。本文从几何的角度出发,认为滤波器的几何中心含有所有滤波器共同的信息,因此临近几何中心的滤波器是可以被去掉的。这种新的剪枝方法,打破了以前的剪枝算法对滤波器范数的要求,提高了剪枝算法的适应性和并且取得了更好的性能。


Minfeng Zhu, Pingbo Pan, Wei Chen, Yi Yang
file

基于文本生成图片是近年来新兴的研究领域。当前的方法首先生成比较粗糙的初始图像,然后再优化图像从而生成高分辨率的真实图像。然而,目前大多数方法仍存在两个问题:(1)当前方法的结果很大程序上取决于初始图像的质量。(2)每个单词对于不同的图片内容都有不同的信息量,但当前方法在两个阶段中仍然保持了相同的单词重要性,导致生成的图像不能反映准确的语义信息。在本工作中,我们提出动态记忆生成对抗网络(DM-GAN)来生成高质量的图片。我们提出了一个动态记忆模块来优化粗糙的初始图像,即使初始图像生成不良,它也可以生成高质量的图像。DM-GAN还包括一个基于初始图像选择重要文本信息的记忆写入门和一个自适应融合图片特征和文本信息的反馈门,从而驱动生成的图像反映准确的文本语义信息。我们在COCO和CUB数据集上评估了我们的模型。实验结果表明,我们的方法在FID和IS指标以及真实性上都超过了当前方法。


Code: https://github.com/zhunzhong07/ECN

Zhun Zhong, Liang Zheng, Zhiming Luo, Shaozi Li
file

在跨数据集的场景下,行人再识别模型的性能往往会受到极大的影响,尤其在源数据集和目标数据集差异很大的情况下。当前主流的方法主要通过降低两个数据集之间的特征分布差异以提升模型对新数据集的鲁棒性。然而,这些方法忽略了目标数据集的域内变化,这些变化中包含了影响目标域性能的重要因素。本篇工作针对目标数据集提出了三种潜在的域内不变性(样例不变性,相机不变性和邻域不变性)。与此同时,作者提出了一个基于样例的记忆模块,使得在模型训练过程中能够有效的引入提出的三种不变性限制。实验表明,该方法在三个行人再识别跨数据集场景下取得了当前最好的结果,并大大的超过了现有的方法。


Xuanyi Dong, Yi Yang
file

神经网络搜索(neural architecture search, NAS)是现在非常热门并且具有挑战性的一个方向。目前大部分NAS方法都是基于强化学习或者遗传算法,需要消耗海量的GPU资源。这篇论文提出了一种利用可微网络结构采样器的基于梯度的搜索方法(Gradient-based search using Differentiable Architecture Sampler,GDAS)能够有效地减少搜索的GPU资源消耗。GDAS将整个搜索空间用一个有向无环图(DAG)来表示。针对这个DAG,GDAS设计了一个可微的采样器,GDAS在训练集上优化DAG内每个网络结构的参数,在验证集上优化这个可微的神经网络采样器。实验表明,在一个GPU上,通过几个小时的搜索时间,GDAS就可以在CIFAR-10数据集上找到一个高性能的网络结构。


Fengda Zhu, Linchao Zhu, Yi Yang
file

基于强化学习的室内导航是最近的热点问题。机器人从室内随机一点出发,根据指令到达目标位置。由于3D重建的数据集相比于计算机图形学渲染的虚拟数据集采集较难而且数据量较小,这篇论文提出了一个端到端的模型,通过迁移学习的方法将虚拟数据集上的强化学习策略迁移到真实数据集上。论文从对抗学习和模仿学习两方面,分别完成了对底层图像特征和高维强化策略的迁移任务,并获得了比原有方法高20%以上的提升。


Guoliang Kang, Lu Jiang, Yi Yang, Alexander G Hauptmann
file

无监督域适应旨在利用带标签源域数据和无标签目标域数据,获得在目标域数据上的优良的预测性能。以往的方法在消除域差异的过程中没有充分利用类别信息,导致对齐错误,影响泛化性能。为了解决这些问题,这篇文章提出了新的域差异度量指标 “对比域差异” 来刻画类内和类间域差异,并且提出 “对比适应网络” 来优化这个指标。我们设计了新的类感知采样方法,采用交替更新的方式端到端地优化我们的网络。我们在两个标准数据集上取得了比现有的方法更好的性能。