论文推荐 | 华为开源自研算法 Disout;中科院计算所 GCN 中文综述

文章来源:机器之心@微信公众号

本周的重要论文包括华为开源的自研Disout算法,以及中科院计算所的GCN中文综述。

目录:

1. A Survey on Graph Convolutional Neural Network

2. Beyond Dropout: Feature Map Distortion to Regularize Deep Neural Networks

3. Example-driven Virtual Cinematography by Learning Camera Behaviors

4. Graph Structure Learning for Robust Graph Neural Networks

5. M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

6. ArXiv Weekly RadiostationCV更多精选论文


论文 1:A Survey on Graph Convolutional Neural Network

摘要:过去几年, 卷积神经网络因其强大的建模能力引起广泛关注,在自然语言处理、图像识别等领域成功应用。然而传统的卷积神经网络只能处理欧氏空间数据,而现实生活中的许多场景,如交通网络、社交网络、引用网络等,都是以图数据的形式存在。将卷积神经网络迁移到图数据分析处理中的核心在于图卷积算子的构建和图池化算子的构建。

在本文中,来自中科院计算所的研究者对图卷积神经网络进行综述:首先介绍了图卷积神经网络的背景并梳理了两类经典方法——谱方法和空间方法,图数据上平移不变性的缺失给图卷积算子的定义带来困难,谱方法借助卷积定理在谱域定义图卷积,而空间方法通过在节点域定义节点相关性来实现图卷积。进而介绍了图卷积神经网络的最新进展,这其中包括如何利用图卷积神经网络建模图上的复杂信息,如异质连接、高阶连接等,以及如何在大规模图上实现图卷积神经网络;

此外,本文介绍了图卷积神经网络的相关应用,包括推荐系统领域、交通预测领域等;最后本文对图卷积神经网络的发展趋势进行了总结和展望。

file
file
file

推荐:本课题得到国家自然科学基金项目、北京智源人工智能研究院和王宽诚教育基金的资助,并发表在了《计算机学报》上。一作徐冰冰和共同一作岑科廷为博士研究生以及 CCF 学生会员,另一共同一作黄俊杰为硕士研究生。


论文 2:Beyond Dropout: Feature Map Distortion to Regularize Deep Neural Networks

摘要:深度神经网络通常包含大量的可训练参数,用于从给定数据集中提取强有力的特征。一方面,大量的可训练参数极大地提升了这些深度网络的性能;另一方面,它们又会带来过拟合的问题。基于此,在减少神经元互适应的训练阶段,基于 dropout 的方法在输出特征图中禁用一些元素。尽管这些方法可以提升生成模型的泛化能力,但是传统二进制 dropout 并非最优解决方案。

因此,来自北**京大学、华为诺亚方舟实验室等机构的研究者对深度神经网络中间层的实证拉德马赫(Rademacher)复杂度进行了研究,并提出了解决上述基于 dropout 方法的特征失真方法(**feature distortion)。在训练阶段,特征图中随机选择的元素将通过泛化误差界限(generalization error bound)被特定值替换掉。研究者在几个基准图像数据集上分析和验证了,提出的特征图失真方法在生成更高测试性能的深度神经网络方面展现出了优越性。

file
file

推荐:该算法在 ImageNet 数据集上训练的 ResNet-50 可以达到 78.76% 的准确度,这超过了谷歌 Dropout 算法的 76.51%。


论文 3:Example-driven Virtual Cinematography by Learning Camera Behaviors

摘要:设计一个相机移动控制器(camera motion controller)且能够以电影摄影和条理化的方式自动移动与 3D 动画内容相呼应的虚拟摄像头,这是一项复杂且具有挑战性的任务。虽然有很多电影摄影规则,但实践表明如何应用这些规则存在着明显的风格差异。

在本文中,来自北京大学前沿计算研究中心视觉计算与学习实验室、北京电影学院未来影像高精尖创新中心等机构的研究者提出了一种样例驱动的相机控制器,它能够从样例影片中提取相机行为,并通过从一系列相机移动的学习将提取到的相机行为重新应用到 3D 动画中。

file
本研究中 MoE(Mixture of Experts)训练网络的结构图。该网络以应用在样例影片和 3D 动画中的拍摄特征估计结果为输入,并为每一帧动画输出一系列实现自身渲染的相机参数。具体来说,Gating+Prediction 网络两部分,Gating 输入一长段拍摄序列,输出一组 Expert 值;Prediction 采用自回归的方式,从过去 1s 的拍摄和 Expert 推理出下一帧相机的 toric 坐标。
file

推荐:本研究的亮点在于利用样例影片对期望的拍摄方法进行控制。


论文 4:Graph Structure Learning for Robust Graph Neural Networks

摘要:图神经网络(GNN)在图表征学习中是性能强大的工具,但近来的研究表明 GNN 容易受到精心设计的干扰,即所谓的对抗性攻击。在为下游任务做预测时,对抗性攻击可以轻易地愚弄 GNN。因此,GNN 面对对抗性攻击表现出的脆弱性使得研究人员越来越担忧其在安全关键 APP 的运用。所以,开发能够防御对抗性攻击的鲁棒算法具有重大意义。防御对抗性攻击的通常方式对受扰动的图进行清洗。显然易见的一点是,真实世界的图具备一些相同的内在属性,比如真实世界的很多图呈现低秩和稀疏性,两个相邻节点的特征也趋于相似。

在本文中,来自密歇根州立大学(MSU)的研究者发现对抗性攻击往往会破坏这些图属性,并探究这些属性如何防御图的对抗性攻击。具体来说,他们提出一种通用框架 Pro-GNN,它能够从基于这些属性的扰动图中同时学到一个结构图和一个鲁棒的图神经网络。在真实世界图上的大量实验表明,本研究提出的 Pro-GNN 能够实现比当前 SOTA 防御方法强得多的效果,即使图受到很严重的扰动。

file
file
非目标性攻击下,GCN、GAT、RGCN、GCN-Jaccard、GCN-SVD 以及本研究 Pro-GNN 在 Cora、Citeseer、Polblogs 和 Pubmed 数据集上的节点分类性能对比(以准确率+Std 计)。

推荐:本研究提出的 Pro-GNN 框架始终优于当前 SOTA 基线方法,并能够提升各种对抗性攻击下的整体鲁棒性。


论文 5:M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

摘要:在本文中,来自阿里巴巴和香港理工大学的研究者提出用一种多任务多视角图表示学习框架(M2GRL)来学习网页规模推荐系统的多视图图的节点表示

具体来说,M2GRL 为每个单视角图构建相应的图,学习多个图的单独表示,并对跨视图关系进行对齐。此外,M2GRL 利用同方差不确定性来自适应调整训练阶段任务的损失权重。研究者将 M2GRL 在淘宝上部署并在 570 亿个示例中训练它。根据离线指标和在线 A/B 测试,M2GRL 的性能显著优于当前 SOTA 算法。淘宝多样性推荐的进一步探索验证了使用 M2GRL 产生的多种表示的有效性,并且对于不同侧重点的各种行业推荐任务来说,这会是一个很有前景的发展方向。

file

file

推荐:研究者认为,M2GRL 生成的有用表示将来可以进一步用来处理标签推荐和可解释性推荐问题。


ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 CV 精选论文是:

1. TAO: A Large-Scale Benchmark for Tracking Any Object.  (from Achal Dave, Tarasha Khurana, Pavel Tokmakov, Cordelia Schmid, Deva Ramanan)

2. Self-supervised Transfer Learning for Instance Segmentation through Physical Interaction.  (from Andreas Eitel, Nico Hauff, Wolfram Burgard)

3. InterFaceGAN: Interpreting the Disentangled Face Representation Learned by GANs.  (from Yujun Shen, Ceyuan Yang, Xiaoou Tang, Bolei Zhou)

4. Ventral-Dorsal Neural Networks: Object Detection via Selective Attention.  (from Mohammad K. Ebrahimpour, Jiayun Li, Yen-Yun Yu, Jackson L. Reese, Azadeh Moghtaderi, Ming-Hsuan Yang, David C. Noelle)

5. Deep Learning Guided Building Reconstruction from Satellite Imagery-derived Point Clouds.  (from Bo Xu, Xu Zhang, Zhixin Li, Matt Leotta, Shih-Fu Chang, Jie Shan)

6. Domain Adaptive Relational Reasoning for 3D Multi-Organ Segmentation.  (from Shuhao Fu, Yongyi Lu, Yan Wang, Yuyin Zhou, Wei Shen, Elliot Fishman, Alan Yuille)

7. VideoForensicsHQ: Detecting High-quality Manipulated Face Videos.  (from Gereon Fox, Wentao Liu, Hyeongwoo Kim, Hans-Peter Seidel, Mohamed Elgharib, Christian Theobalt)

8. Adversarial Attacks for Embodied Agents.  (from Aishan Liu, Tairan Huang, Xianglong Liu, Yitao Xu, Yuqing Ma, Xinyun Chen, Stephen J. Maybank, Dacheng Tao)

9. Semi-Supervised Learning in Video Sequences for Urban Scene Segmentation.  (from Liang-Chieh Chen, Raphael Gontijo Lopes, Bowen Cheng, Maxwell D. Collins, Ekin D. Cubuk, Barret Zoph, Hartwig Adam, Jonathon Shlenso)

10. An Auto-Context Deformable Registration Network for Infant Brain MRI.  (from Dongming Wei, Sahar Ahmad, Yunzhi Huang, Lei Ma, Qian Wang, Pew-Thian Yap, Dinggang Shen)

微信公众号: 极市平台(ID: extrememart )
每天推送最新CV干货