论文推荐 | 迪士尼百万像素级换脸;语义分割损失函数综述

文章来源:机器之心@微信公众号

本周的重要论文有迪士尼开发的百万像素级换脸技术,以及马萨诸塞大学阿默斯特分校女性学者Shruti Jadon的语义分割损失函数汇总。


目录:

1. Discovering Symbolic Models from Deep Learning with Inductive Biases

2. Neural Architecture Design for GPU-Efficient Networks

3. High-Resolution Neural Face Swapping for Visual Effects

4. A survey of loss functions for semantic segmentation

5. HAT: Hardware-Aware Transformers for Efficient Natural Language Processing

6. GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding

7. Towards a new generation of artificial intelligence in China

8. ArXiv Weekly Radiostation:CV 更多精选论文


论文1:Discovering Symbolic Models from Deep Learning with Inductive Biases

摘要:如何将深度模型转换为符号方程?来自普林斯顿、DeepMind 等机构的研究人员提出了一种解决方案:结合深度学习和符号回归实现这一目标。具体来说,他们通过引入强归纳偏置来提取深度模型的符号表示。

该方法的工作原理是:首先在监督设置下训练 GNN,同时鼓励稀疏潜在表示,然后对学得模型的组件应用符号回归,从而提取显式物理关系。该研究发现,这一方法可以从神经网络中提取正确的已知公式,包括力学定律和哈密顿动力学。此外,研究者还将该方法应用于宇宙学示例,即暗物质模拟中,并发现了一个新的解析公式。该公式可以基于邻近宇宙结构的质量分布预测暗物质的浓度。

此外,相比 GNN 本身,使用该方法从 GNN 提取的符号表达式能够更好地泛化至分布外(out-of-distribution)数据。该方法为解释神经网络,以及基于神经网络学得的表示发现新的物理学原理提供了新的方向。

file

file

file

推荐:该研究充分结合了符号模型和深度模型二者各自的优势。


论文2:Neural Architecture Design for GPU-Efficient Networks

摘要:众所周知,许多关键任务的系统都基于GPU进行推理,这不仅要求高识别准确率,而且要求较低的响应时间。尽管许多研究致力于通过深度模型的结构优化来进行有效推理,但其中的大多数并未利用现代GPU架构进行快速推理,从而导致性能欠佳。

为了解决这个问题,来自阿里的研究者基于大量的实证研究提出了设计GPU端高效网络的通用原则。这种设计原理使我们能够以一种简单轻便的方法有效地搜索GPU端高效的网络结构,这与大多数设计复杂且计算量大的神经架构搜索方法相反。基于提出的框架,研究者设计了一种GPU端高效的网络,简称为GENet。他们在多个GPU平台和推理引擎上进行了广泛的评估,结果在ImageNet上实现81.3%以上的top-1准确率,并且GENet比GPU上的EfficienNet快了6.4倍。

file

file

file

推荐:值的关注的是,在高精度设置下,GENet模型还优于比EfficientNet更高效的大多数SOTA模型。


论文3:High-Resolution Neural Face Swapping for Visual Effects

摘要:近日迪士尼在欧洲图形学会透视研讨会(EGSR)上发表研究,展示了首个百万像素逼真换脸技术。他们提出了一种在图像和视频中实现全自动换脸的算法。据研究者称,这是首个渲染百万像素逼真结果的方法,且输出结果具备时序一致性。

具体来说,该研究提出了一个渐进式训练的多路 comb 网络,以及一种保持亮度和对比度的混合方法。虽然渐进式训练能够生成高分辨率图像,但将架构和训练数据扩展至两人以上可以使生成的表情具备更高的保真度。此外,在将生成的表情合成到目标人脸时,研究者调整混合策略,以保持对比度和低频光照。最后,研究者在人脸关键点稳定算法中融入了一种细化策略,以实现时序稳定性,这对于处理高分辨率视频来说至关重要。

在实验部分,研究者通过控制变量研究来验证该方法对换脸质量的影响,并与流行的 SOTA 方法进行了比较。

file

file

file

推荐:据研究者称,这是首个渲染百万像素逼真结果的方法,且输出结果具备时序一致性。


论文4:A survey of loss functions for semantic segmentation

摘要:图像分割一直是非常活跃的研究领域,因为它具有修复医疗保健漏洞以及帮助大众的潜力。在过去五年里,各种论文提出了不同情况下所使用的不同客观损失函数,例如偏差数据和稀疏分割等。

在本文中,来自马萨诸塞大学阿默斯特分校的研究者总结了大多数广泛用于图像分割的已知损失函数,并列出了利用它们实现模型更快更好的收敛的情况。此外,研究者还引入了新的logcosh骰子损失函数,并将其在NBFS颅骨剥离数据集上的性能与广泛使用的损失函数进行了比较。最后验证了某些损失函数在所有数据集上表现良好,并且可以作为未知分布数据集的不错选择。

file

file

推荐:本文作者Shruti Jadon是一位女性学者,现为Juniper Networks公司的软件工程师,主要从事资源预测工作。


论文5:HAT: Hardware-Aware Transformers for Efficient Natural Language Processing

摘要:为了获得更高效和快速的 Transformer 模型,MIT 等机构的研究者提出了 HAT: Hardware-Aware Transformers,借助神经网络搜索(NAS)技术,在搜索过程中加入硬件反馈,来对每一个硬件平台设计一个专用的高效 Transformer 网络结构

在搜索空间上,他们提出打破之前设计 Transformer 的两点陈规。其一,研究者提出「任意编码器 - 解码器注意力」(Arbitrary Encoder-Decoder Attention),允许解码器获得多个和任意某些个编码器的输出,从而使得编码器不同的抽象层的信息都可以被解码器获取和使用;其二,研究者提出「异构层”(Heterogenous Layers」来使得每层都可以有不同的隐藏层维度(Hidden Dim)和注意力头数 (Head Number),编 / 解码器也可以有不同的词向量长度 (Embedding Dim) 和层数等等。

研究者在四个机器翻译任务(WMT‘14 EN-De(英语 - 德语)、WMT’14 EN-Fr(英语 - 法语)、WMT’19 EN-DE(英语 - 德语)和 IWSLT‘14 De-En(德语 - 英语)),以及三个不同的硬件平台(树莓派、Intel CPU 和 Nvidia GPU)上验证了论文所提方法的有效性。

file

file

推荐:在同样的精度下,相比于基线 Transformer, HAT 可以获得 3 倍加速,3.7 倍模型压缩。


论文6:GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding

摘要:神经网络缩放对于使用大量训练数据和计算来提升现实世界机器学习应用中的模型质量至关重要。尽管这种缩放趋势已被证实是确保更好模型质量的可靠方法,但在实现路径上仍存在挑战,例如计算成本、易于编程以及在并行设备上的高效实现等问题。

在本文中,来自谷歌的研究者提出了GShard模块,它是由一组轻量级注释API和XLA编译器的扩展组成。通过使用自动分片,GShard使我们能够扩展具有超过6000亿个参数的稀疏门控专家混合层(MOE)的多语言神经机器翻译Transformer模型。

file

file

推荐:该模块的亮点在于以一种优雅的方式来表达各种并行计算模式,并且对现有模型代码的更改却很小。


论文7:Towards a new generation of artificial intelligence in China

摘要:今年 6 月,由 AI 青年科学家联盟 · 梧桐汇牵头,联盟学术委员会主席、中国工程院院士潘云鹤作为通讯作者,15 名来自中国学界和 AI 产业界的领军人物联手,在 Nature Machine Intelligence 上发表了论文《Towards a new generation of artificial intelligence in China》。

研究者在这篇论文中解读了新一代人工智能(NGAI)发展规划、中国产学研合作经验,以及人工智能技术在日常消费、金融、医疗和自动驾驶等领域的应用

file

推荐:这是中国人首次在国际顶级学术期刊上发表关于中国 AI 全景的论文。


ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括CV领域10篇精选,详情如下:


本周 10 篇 CV 精选论文是:

1. Deep Isometric Learning for Visual Recognition.  (from Jitendra Malik)

2. Self-Supervised Learning of a Biologically-Inspired Visual Texture Model.  (from Eero P. Simoncelli)

3. Perspective Plane Program Induction from a Single Image.  (from William T. Freeman, Joshua B. Tenenbaum)

4. Object Goal Navigation using Goal-Oriented Semantic Exploration.  (from Abhinav Gupta, Ruslan Salakhutdinov)

5. Uncertainty-aware multi-view co-training for semi-supervised medical image segmentation and domain adaptation.  (from Alan Yuille)

6. Designing and Learning Trainable Priors with Non-Cooperative Games.  (from Jean Ponce, Julien Mairal)

7. Learning Surrogates via Deep Embedding.  (from Jiri Matas)

8. Swapping Autoencoder for Deep Image Manipulation.  (from Jun-Yan Zhu, Eli Shechtman, Alexei A. Efros)

9. Automatic Crack Detection on Road Pavements Using Encoder Decoder Architecture.  (from Xiaopeng Chen)

10. Tackling Occlusion in Siamese Tracking with Structured Dropouts.  (from Arnold W. M. Smeulders)

微信公众号: 极市平台(ID: extrememart )
每天推送最新CV干货