论文速递 | 颜水成团队的「PSGAN 一键上妆」;目标检测最新 SOTA

来源:机器之心@微信公众号(ID:almosthuman2014)
参与:一鸣、杜伟


本周论文有:颜水成团队的「PSGAN 一键上妆」,目标检测最新 SOTA 成果等。

目录:
1、CBNet: A Novel Composite Backbone Network Architecture for Object Detection
2、HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models
3、PSGAN: Pose-Robust Spatial-Aware GAN for Customizable Makeup Transfer


论文 1:CBNet: A Novel Composite Backbone Network Architecture for Object Detection

作者:Yudong Liu、Yongtao Wang、Siwei Wang、TingTing Liang、Qijie Zhao、Zhi Tang、Haibin Ling
论文链接:https://arxiv.org/pdf/1909.03625v1.pdf

摘要:在现有的 CNN 检测器中,主干网络是特征提取的重要组件,检测器的性能很大程度上依赖于主干网络。近日,来自北京大学王选计算机研究所和纽约州立大学石溪分校的研究者发表了一篇论文:基于现有主干网络(如 ResNet 和 ResNeXt)构建更加强大的新型主干网络,从而实现更好的检测性能。具体而言,研究者提出一种集成多个同样主干网络的新策略,即通过邻近主干网络之间的组合连接(composite connection)构建一个更强大的主干网络——Composite Backbone Network (CBNet)。CBNet 迭代地将前一个主干网络的输出特征(即高级特征)输入到下一个主干网络中,逐步进行一直到最后一个主干网络(Lead Backbone)的特征图,然后使用该特征图进行目标检测。研究表明,CBNet 可以轻松整合到当前最优的检测器,并大幅提升性能。例如,它将 FPN、Mask R-CNN 和 Cascade R-CNN 在 COCO 数据集上的 mAP 提升了 1.5%-3.0%。同时,实验结果证明,CBNet 还可以提升实例分割结果:简单地将 CBNet 集成到基线检测器 Cascade Mask R-CNN,即可实现单个模型在 COCO 数据集上的新 SOTA 结果(mAP 达到 53.3),这表明 CBNet 架构非常有效。

file
△ CBNet 架构图示

推荐:目标检测已经是一个非常成熟的领域了,而能够在这一任务上刷新 SOTA 成果非常不易。这篇来自北大和纽约大学石溪分校的论文说明,整合多个主干网络便能刷新最佳效果。


论文 2:HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models

作者:Sharon Zhou、Mitchell L. Gordon、Ranjay Krishna、Austin Narcomey、Li Fei-Fei、Michael S. Bernstein
论文链接:https://arxiv.org/pdf/1904.01121.pdf

摘要:生成模型通常利用人工测评来衡量其输出结果的感知质量。自动度量是伴有噪声的间接代理,因为这些度量依托启发式或预训练嵌入。但直到现在,直接的人工测评策略都是针对特定领域,既没有实现标准化,也没有经过验证。来自斯坦福大学的研究者们为生成实时性(generative realism)构建了一个通用的人工测评基准,将其命名为人眼感知评价(human eye perception evaluation,HYPE),具有以下特征:(1)基于感知的心理物理学研究,(2)对同一模型随机采样输出的不同集合均表现出可靠性,(3)能够分离模型性能,(4)节省成本和时间。此外,他们提出了两种变体:一种是在自适应时间约束下测量视觉感知,以确定模型输入显示为真实时的阈值;另一种是成本较低的变体,其能够在无时间约束的情况下测量真假图像上的人为误差率。通过使用 CelebA、FFHQ、CIFAR-10 和 ImageNet 四个数据集,研究者们围绕有条件和无条件图像生成领域的 6 种当前 SOTA 生成对抗网络和 2 种采样方法对 HYPE 进行测试,发现 HYPE 可以追踪模型之间的相对改进,并通过自助采样法(bootstrp sampling)确定这些测量结果是一致和可复现的。

推荐:来自斯坦福大学研究者的这项成果为人眼评价生成模型效果提出了量化标准,适合相关研究者参考这一评价体系。


论文 3:PSGAN: Pose-Robust Spatial-Aware GAN for Customizable Makeup Transfer

作者:Wentao Jiang、Si Liu、Chen Gao、Jie Cao、Ran He、Jiashi Feng、Shuicheng Yan
论文链接:https://arxiv.org/pdf/1909.06956.pdf

摘要:在迁移学习领域,有一个任务名为妆容迁移(makeup transfer),即将任意参照图像上的妆容迁移到不带妆容的源图像上。很多人像美化应用都需要这种技术。近来的一些妆容迁移方法大都基于生成对抗网络(GAN)。它们通常采用 CycleGAN 的框架,并在两个数据集上进行训练,即无妆容图像和有妆容图像。但是,现有的方法存在一个局限性:只在正面人脸图像上表现良好,没有为处理源图像和参照图像之间的姿态和表情差异专门设计模块。另外,它们也不能在测试阶段直接用于部分妆容迁移,因为它们无法以可感知空间的方式提取妆容特征。为了克服这些问题以更好地服务真实世界场景,颜水成团队提出了一种全新的姿态稳健型可感知空间式生成对抗网络(PSGAN)。这种 PSGAN 主要分为三部分:妆容提炼网络(MDNet)、注意式妆容变形(AMM)模块和卸妆-再化妆网络(DRNet)。研究者认为,这三种新提出的模块能让 PSGAN 具备上述的完美妆容迁移模型所应具备的能力。

file
PSGAN 的结果。该模型可让用户控制所要迁移的浓浅程度和图像区域。第一行左侧是仅迁移参照图像的部分妆容风格的结果,第二行左侧则是不同浓浅程度的结果。此外,PSGAN 也能应对图像之间不同的姿态和表情,如图右侧所示。

file
如图展示了 PSGAN 的框架,其可分为三部分:妆容提炼网络(MDNet)、注意式妆容变形(AMM)模块、卸妆-再化妆网络(DRNet)。

推荐:颜水成团队的这篇论文是 GAN 的一种最新的应用,为我们提供了一种迁移化妆的方法。也许以后再也不需要试试才知道化妆效果了,AI 一键生成,效果拔群。


推荐阅读:
1987 ~2017 年历届 ICCV 最佳论文(Marr Prize Paper)汇总
2000 ~2019 年历届 CVPR 最佳论文汇总
1996 ~2018 年历届 AAAI 最佳论文汇总

file
△ 扫一扫关注 极市平台
每天推送最新CV干货

微信公众号: 极市平台(ID: extrememart )
每天推送最新CV干货