WACV 2021 论文大盘点-图像质量 & 姿态估计 & 3D 篇

论文速递 三井 ⋅ 于 1个月前 ⋅ 416 阅读
编译 | CV君 报道 | OpenCV中文网

下载包含这些论文的 WACV 2021 所有论文:链接: https://pan.baidu.com/s/1vShaCoOrQZ0gTlEPhbUsAg

提取码: 提示:此内容登录后可查看


图像质量篇

本篇是对图像质量相关论文的总结。包含去噪、去模糊、去雾、去马赛克、图像 inpainting 和 outpainting、图像恢复、图像着色。

共计 11 篇。如有遗漏,欢迎补充。


图像、视频去噪

[1].Self-Supervised training for blind multi-frame video denoising

解决盲视频去噪问题

作者 | Valéry Dewil, Jérémy Anger, Axel Davy, Thibaud Ehret, Pablo Arias, Gabriele Facciolo

单位 | 巴黎-萨克雷大学

论文 | https://arxiv.org/abs/2004.06957

代码 | https://github.com/cmla/mf2f

[2].Self-Supervised Poisson-Gaussian Denoising

作者 | Wesley Khademi, Sonia Rao, Clare Minnerath, Guy Hagen, Jonathan Ventura

单位 | 加利福尼亚理工州立大学;乔治亚大学;Providence College;科罗拉多大学

论文 | https://arxiv.org/abs/2002.09558

去雾

[3].Domain-Aware Unsupervised Hyperspectral Reconstruction for Aerial Image Dehazing

本次研究主要解决航空图像雾霾问题。

作者提出 SkyGAN,由域感知 hazy-to-hyperspectral(H2H)模块、基于条件GAN(cGAN)的多线索图像到图像翻译模块组成共同除雾。

其中 H2H 模块以无监督的方式从 RGB 图像中重建多个 visual bands,克服了高光谱航空图像数据集薄雾朦胧的不足。利用任务监督和域适应,为图像去雾创建一个"hyperspectral catalyst"。I2I模块使用 "hyperspectral catalyst" 和 12-channel 多线输入,通过利用整个视觉光谱进行有效的图像去雾。

另外,作者还引入一个数据集:Hazy Aerial-Image (HAI) ,包含 65000 多对具有真实的、非均匀的不同密度的朦胧和 ground truth 航空图像。

在 SateHaze1k 数据集和 HAI 数据集上对 SkyGAN 的性能进行了评估。

作者 | Aditya Mehta, Harsh Sinha, Murari Mandal, Pratik Narang

单位 | BITS Pilani;IIIT Kota

论文 | https://arxiv.org/abs/2011.03677

去模糊

[4].Motion Adaptive Deblurring with Single-Photon Cameras

Single-photon avalanche diodes(SPAD)是一种快速发展的图像传感技术,具有极高的低光灵敏度和 picosecond timing 分辨率。使SPAD能够应用于激光雷达、非视线成像和荧光显微镜等需要在光子匮乏情况下成像的应用。

本次工作就是利用它来处理低照度条件下被动成像环境中的运动模糊。

作者 | Trevor Seets, Atul Ingle, Martin Laurenzis, Andreas Velten

单位 | 威斯康星大学等

论文 | https://arxiv.org/abs/2012.07931

去马赛克

[5].Splatty- A Unified Image Demosaicing and Rectification Method

作者提出一种全新的 forward mapping(前向映射)算法,合并两个常见的图像预处理步骤:去马赛克和矫正,来提高流媒体的可行性。由于硬件资源的限制,即内存和计算块的限制,嵌入式相机系统往往受限于其吞吐能力。

作者在此次研究中证明了通过合并这两个步骤,将内存占用从O(mn)减少到O(min(m, n)),同时可以保持最先进的去马赛克和矫正结果。还验证了一个多项式矫正 LUT,它能将重映射精度保持在 1E-10 RMSE。

作者 | Pranav Verma, Dominique E. Meyer, Hanyang Xu, Falko Kuester

单位 | 加利福尼亚大学圣迭戈分校

论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Verma\_Splatty-\_a\_Unified\_Image\_Demosaicing\_and\_Rectification\_Method\_WACV\_2021\_paper.pdf

图像修复/补全

[6].Hyperrealistic Image Inpainting with Hypergraphs

本次工作中,作者引入空间特征上的 hypergraph convolution(超图卷积)来学习数据之间的复杂关系; 一种可训练的机制,利用超图卷积的超边线来连接节点。

作者称,在此之前,超图卷积从未被用于计算机视觉中任何图像到图像的任务中的空间特征。在判别器中引入 gated convolution(门控卷积),以加强预测图像的局部一致性。在 Places2、CelebA-HQ、Paris Street View 和 Facades 数据集上的实验表明所提出方法获得 SOTA。

作者 | Gourav Wadhwa, Abhinav Dhall, Subrahmanyam Murala, Usman Tariq

单位 | 印度理工学院;蒙纳士大学等

论文 | https://arxiv.org/abs/2011.02904

[7].Multi-Level Generative Chaotic Recurrent Network for Image Inpainting

作者提出一个具有 quad-directional 编码器的 generative chaotic RNN,可以从单个损坏的图像中进行图像修复,既高效又具有鲁棒性,而且无需对图像进行任何预训练或建模。

与现有的深度 CNN 图像修复方法相比,所提出的网络架构结构紧凑,从而在不牺牲修复质量的前提下大大降低了计算需求。由于只需要训练输出层,所以提出的网络具有较快的收敛速度,从训练开始计算的损耗就很低。且泛化能力强。

作者 | Cong Chen, Amos Abbott, Daniel Stilwell

单位 | 弗吉尼亚理工大学

论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Chen\_Multi-Level\_Generative\_Chaotic\_Recurrent\_Network\_for\_Image\_Inpainting\_WACV\_2021\_paper.pdf

[8].R-MNet: A Perceptual Adversarial Network for Image Inpainting

作者提出一种端到端 Reverse Masking Wasserstein GAN 图像修复框架(R-MNet),其性能优于 SOTA。reverse masking 技术通过在被遮挡的图像上应用 reversed mask 作为目标域进行修复,可以提高修复效果的质量。

利用高层次特征定义的感知激励新组合损失函数,针对缺失的像素来训练新颖的 R-MNet,以产生高视觉质量的图像。

作者 | Jireh Jam, Connah Kendrick, Vincent Drouard, Kevin Walker, Gee-Sern Hsu, Moi Hoon Yap

单位 | 曼彻斯特城市大学;Image Metrics Ltd;台湾科技大学

论文 | https://arxiv.org/abs/2008.04621

代码 | https://github.com/Jireh-Jam/R-MNet-Inpainting-keras

Image Outpainting 超级补全

[9].Painting Outside as Inside: Edge Guided Image Outpainting via Bidirectional Rearrangement with Progressive Step Learning

通过双向重排与渐进式学习的边缘导向图像超级补,实验验证了该方法优于传统的图像 inpainting and outpainting 方法,可以生成具有360°全景特征的新图像。

作者 | Kyunghun Kim, Yeohun Yun, Keon-Woo Kang, Kyeongbo Kong, Siyeong Lee, Suk-Ju Kang

单位 | 韩国西江大学;POSTECH;NAVER LABS;

论文 | https://arxiv.org/abs/2010.01810

Image Recovery

[10].Generative Patch Priors for Practical Compressive Image Recovery

作者 | Rushil Anirudh, Suhas Lohit, Pavan Turaga

单位 | 劳伦斯利弗莫尔国家实验室;三菱电机研究实验室;亚利桑那州立大学

论文 | https://arxiv.org/abs/2006.10873

备注 | WACV2021 最佳论文荣誉提名奖

图像着色

[11].2D to 3D Medical Image Colorization

着色涉及到颜色的合成,同时保留目标图像的结构内容和语义。在二维照片中得到很好的应用。本次工作中,作者将在着色领域探索了一个新的挑战,目标是使用二维风格的示例对多模态三维医疗数据进行着色。

作者 | Aradhya Neeraj Mathur, Apoorv Khattar, Ojaswa Sharma

单位 | IIITD

论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Mathur\_2D\_to\_3D\_Medical\_Image\_Colorization\_WACV\_2021\_paper.pdf


姿态估计,3D 篇

本篇继续总结姿态估计相关论文, 3D 的占大多数,有 3D 姿势、形状估计,还有 3D 手部姿势估计。还有人脸姿态估计、跨物种姿态估计等。

共计 13 篇,如有遗漏,欢迎补充。


3D 姿态、形状估计

PI-Net: Pose Interacting Network for Multi-Person Monocular 3D Pose Estimation

日常场景中,一个人的身体姿势往往取决于与之互动对象的姿势。作者在本次工作中,就研究了如何利用这种依赖性来增强当前(或许未来)用于 3D 单目姿势估计的深度网络。提出一个姿势交互网络:PI-Net,将可变数量的交互者的初始姿势估计输入到一个用于完善感兴趣的人的姿势循环架构中。实验证明了在 MuPoTS 数据集中的有效性。

作者 | Wen Guo, Enric Corona, Francesc Moreno-Noguer, Xavier Alameda-Pineda

单位 | 格勒诺布尔-阿尔卑斯大学;IRI (CSIC-UPC)

论文 | https://arxiv.org/abs/2010.05302

代码 | coming

Automatic Calibration of the Fisheye Camera for Egocentric 3D Human Pose Estimation From a Single Image

提出一种从鱼眼相机拍摄的单幅图像中进行 egocentric 3D 人体姿态估计的方法。引入一个自动校准模块,具有自修正功能,以减轻图像失真的影响,实现鲁棒的 3D 人体姿态估计。所提出网络在修改后的 xR-EgoPose 数据集上得到了最先进的性能,该数据集包含具有不同扭曲程度的图像。

作者 | Yahui Zhang, Shaodi You, Theo Gevers

单位 | 阿姆斯特丹大学

论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Zhang\_Automatic\_Calibration\_of\_the\_Fisheye\_Camera\_for\_Egocentric\_3D\_Human\_WACV\_2021\_paper.pdf

Temporally Consistent 3D Human Pose Estimation Using Dual 360deg Cameras

本次工作中,开发了一种 3D 人体姿态估计系统,该系统使用一对 360° 的立体传感器从单一位置捕捉完整的场景。

作者 | Matthew Shere, Hansung Kim, Adrian Hilton

单位 | 萨里大学;南安普顿大学

论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Shere\_Temporally\_Consistent\_3D\_Human\_Pose\_Estimation\_Using\_Dual\_360deg\_Cameras\_WACV\_2021\_paper.pdf

3D Human Pose and Shape Estimation Through Collaborative Learning and Multi-View Model-Fitting

该工作是为解决在人体姿势和形状估计任务中,先前方法仅依赖单视角RGB 图像来训练网络的问题。实用多视图进行建模。

作者 | Zhongguo Li, Magnus Oskarsson, Anders Heyden

单位 | 隆德大学

论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Li\_3D\_Human\_Pose\_and\_Shape\_Estimation\_Through\_Collaborative\_Learning\_and\_WACV\_2021\_paper.pdf

代码 | https://github.com/leezhongguo/MVSPIN\_NEW

域外姿态估计

Pretraining boosts out-of-domain robustness for pose estimation

神经网络是姿势估计的高效工具。但与其他计算机视觉任务一样,对域外数据很难适用,特别是对于现实世界应用中常见的小型训练集。

作者在本次工作中,用三种架构类别(MobileNetV2s、ResNets和EfficientNets)来探究姿势估计的泛化能力,创建一个由 30 匹马组成的数据集,进行 "域内 "和 "域外"(看不见的马)基准测试--这是当前人类姿势估计基准无法直接解决的鲁棒性关键测试。

通过实验,作者表明如果首先在 ImageNet 上进行预训练,那么 ImageNet性能更好的架构在域内和域外数据上都有更好的表现。而更好的 ImageNet模型能更好地跨动物物种进行泛化。

还引入一个用于姿势估计的常见变体的新基准:Horse-C,并证实预训练在这种域内迁移背景下也能提高性能。总的来说,实验结果证明了迁移学习对域外鲁棒性是有利的。

作者 | Alexander Mathis, Thomas Biasi, Steffen Schneider, Mert Yüksekgönül, Byron Rogers, Matthias Bethge, Mackenzie W. Mathis

单位 | 洛桑联邦理工学院;哈佛大学;图宾根大学;

论文 | https://arxiv.org/abs/1909.11229

数据集 | http://www.mousemotorlab.org/deeplabcut

DensePose 变体

Making DensePose fast and light本次工作针对 DensePose R-CNN

模型的架构进行了重新设计,使最终的网络保留原始精度,但模型更加轻量化和快速。为此,作者测试并融入了许多近年来的深度学习创新,特别是对 23 个高效的骨干架构、多个两级检测 pipeline 的修改以及自定义模型量化方法进行了消融研究。与基线模型相比,实现了模型压缩到 1/17 倍 并 降低了 2 倍的延迟。

作者 | Ruslan Rakhimov, Emil Bogomolov, Alexandr Notchenko, Fung Mao, Alexey Artemov, Denis Zorin, Evgeny Burnaev

单位 | Skolkovo Institute of Science and Technology;华为莫斯科研究中心;纽约大学

论文 | https://arxiv.org/abs/2006.15190

代码 | https://github.com/zetyquickly/DensePoseFnL

3D手部姿势估计

MVHM: A Large-Scale Multi-View Hand Mesh Benchmark for Accurate 3D Hand Pose Estimation

从单目图像中估计三维手部姿势因其深度模糊性是一个 ill-posed problem(不适定问题)。然而,多视角图像可以弥补这一不足。为此,作者建立了一个多视角网格手数据集 MVHM,以实现网格监督下的 3D 姿势估计器训练。

并提出一种有效融合单视角预测的多视角方法。实验证明所提出的方法在 MHP 数据集上实现了 AUC20-50 中 0.990 的性能,高于之前最先进的方法在该数据集上的性能 0.939。

作者 | Liangjian Chen, Shih-Yao Lin, Yusheng Xie, Yen-Yu Lin, Xiaohui Xie

单位 | 加利福尼亚大学(尔湾);腾讯,美国;亚马逊;台湾阳明交通大学

论文 | https://arxiv.org/abs/2012.03206

代码 | https://github.com/Kuzphi/MVHM

Two-Hand Global 3D Pose Estimation Using Monocular RGB

本次工作解决了仅通过单目 RGB 输入图像估计两只手的全局 3D 关节位置的挑战性任务。

作者 | Fanqing Lin, Connor Wilhelm, Tony Martinez

单位 | 美国杨百翰大学

论文 | https://arxiv.org/abs/2006.01320

Temporal-Aware Self-Supervised Learning for 3D Hand Pose and Mesh Estimation in Videos

开发了一种时空一致性损失和反向时空信息技术来提取时空特征。作者称是首次尝试在不使用 3D 标注的情况下估计 3D 手部的姿势和网格。

提出一个端到端可训练框架:temporalaware self supervised networks (TASSN),在不使用标注的 3D 训练数据的情况下学习估计器。

学习到的估计器可以从视频中共同推断出 3D 手部的姿势和网格。经过验证得出所提出模型实现了高精度的 3D 预测性能,与最先进的用3D 真实训练的模型相当。

作者 | Liangjian Chen, Shih-Yao Lin, Yusheng Xie, Yen-Yu Lin, Xiaohui Xie

单位 | 加利福尼亚大学(尔湾);腾讯,美国;亚马逊;台湾阳明交通大学

论文 | https://arxiv.org/abs/2012.03205

Active Learning for Bayesian 3D Hand Pose Estimation

本研究是首个将 主动学习 应用于 3D 手部姿势估计任务的工作。

作者 | Razvan Caramalau, Binod Bhattarai, Tae-Kyun Kim

单位 | 帝国理工学院

论文 | https://arxiv.org/abs/2010.00694

代码 | https://github.com/razvancaramalau/al\_bhpe

在 BigHand2.2M 数据集上分析

在 NYU Hand 数据集上的分析

在 ICVL Hand 数据集上的分析

人脸姿态估计

A Vector-based Representation to Enhance Head Pose Estimation

文中提出将旋转矩阵中的三个向量作为人脸姿态估计(HPE)中的表征方法,并根据这种表征方法的特点开发一种新的神经网络。

解决了 HPE 当前存在的两个潜在问题:

1、HPE 公共数据集使用欧拉角或四元数来标注数据样本,但这两种标注都存在不连续的问题,因此可能会导致神经网络训练中的一些性能问题。

2、大多数研究工作都将欧拉角的平均绝对误差(MAE)作为衡量性能的标准。但作者表示 MAE 可能无法反映实际行为,尤其是对于剖面图的情况。

为此,作者提出一种新的标注方法,使用三个向量来描述人脸姿势,以及一个新的测量平均绝对误差(MAEV)来评估性能。还训练一个新的神经网络来预测三个向量的正交性约束。实验表明,所提出方法在 AFLW2000 和 BIWI 数据集上都取得了最先进的结果,基于矢量的标注方法可以有效地降低大姿势角度的预测误差。

作者 | Zhiwen Cao, Zongcheng Chu, Dongfang Liu, Yingjie Chen

单位 | 普渡大学

论文 | https://arxiv.org/abs/2010.07184

EAGLE-Eye: Extreme-pose Action Grader using detaiL bird’s-Eye view

为了处理不同运动项目中身体极限变形时的姿势估计,作者扩展了 ExPose 数据集,为涵盖除跳水以外的其他运动项目,如花样跳水、单板滑雪和滑雪。验证表明在此数据集上训练姿势估计器可以提高其在这些运动的极端姿势配置中的性能。

提出一个模块化的网络,基于细粒度和粗粒度的时间依赖性来量化一个动作的执行情况。与人类法官的评分模式一样,视觉和姿势线索都参与评估。

所提出的网络不仅在短期行动评估方面优于以往的作品,而且是首个在花样滑冰等长期体育活动中表现出良好的泛化能力。

作者 | Mahdiar Nekoui, Fidel Omar Tito Cruz, Li Cheng

单位 | 阿尔伯塔大学等

论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Nekoui\_EAGLE-Eye\_Extreme-Pose\_Action\_Grader\_Using\_Detail\_Birds-Eye\_View\_WACV\_2021\_paper.pdf

Real-Time RGBD-Based Extended Body Pose Estimation

RGB-D 人体姿势模型的性能优于目前最先进的纯 RGB 输入的方法,并且与速度较慢的基于 RGB-D 的优化解决方案相比,在相同的精度水平上工作,该组合系统以 25 FPS 的速度在单 GPU 的服务器上运行。

作者 | Renat Bashirov, Anastasia Ianina, Karim Iskakov, Yevgeniy Kononenko, Valeriya Strizhkova, Victor Lempitsky, Alexander Vakhitov

单位 | Samsung AI Center,莫斯科;Skolkovo科學技術研究所

论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Bashirov\_Real-Time\_RGBD-Based\_Extended\_Body\_Pose\_Estimation\_WACV\_2021\_paper.pdf

- END -

推荐阅读

2020年计算机视觉最佳综述分方向总结(持续更新)https://bbs.cvmart.net/articles/4138

成为第一个点赞的人吧 :bowtie:
回复数量: 0
暂无回复~
您需要登陆以后才能留下评论!