论文推荐|谷歌推出视觉领域的基准 VTAB;最优学习论文 85% 规则

本周论文推荐:谷歌推出了视觉任务适应性领域的基准VTAB,该基准可以减少所有视觉任务上的数据需求、登上 Nature Communications 的最优学习 85% 规则、出自莫斯科物理技术学院神经网络与深度学习实验室的论文向读者介绍了多点优化在模型训练中的诸多优势以及出自微软研究院人工智能中心的论文详细探讨了随机梯度中动量参数对收敛以及不同算法中性能衡量指标的影响。


目录:

Loss Landscape Sightseeing with Multi-Point Optimization

Understanding the Role of Momentum in Stochastic Gradient Methods

The Visual Task Adaptation Benchmark

The Eighty Five Percent Rule for optimal learning



论文 1:Loss Landscape Sightseeing with Multi-Point Optimization

摘要:在本文中,研究者提出了一种多点优化(multi-point optimization)方法,这种优化方法不仅可以同时训练多个模型,而且无需单独保留每个模型的参数。此外,这种优化方法用于对神经网络的损失情况进行全面的实证分析。FashionMNIST 和 CIFAR10 数据集上进行的大量实验表明:1)就其所包含的景观模式而言,损失表面呈现出惊人的多样性; 2)添加批归一化使其更加鲁棒。

file
▲图 1:典型 CNN 模型在 FashionMNIST(a)和 CIFAR10(b)数据集上的损失表面示例。

file
▲图 2: FashionMNIST 数据集上用于 2D 模式拟合的多点优化方法。

推荐:这篇出自莫斯科物理技术学院(Moscow Institute of Physics and Technology)神经网络与深度学习实验室的论文向读者介绍了多点优化在模型训练中的诸多优势。



论文 2:Understanding the Role of Momentum in Stochastic Gradient Methods

摘要:随机梯度方法中动量(momentum)的使用已成为机器学习领域的一种广泛实践。动量的不同变体,包括重球动量、Nesterov 加速梯度(Nesterovs』 Accelerated Gradient,NAG)和准双曲线动量(quasi-hyperbolic momentum,QHM),已在各种任务上取得了成功。尽管在实证上取得了成功,但对动量参数如何影响收敛以及各种算法的不同性能衡量指标缺乏清楚的了解。在本文中,研究者利用 QHM 的通用方法对几种流行的算法进行了统一分析,涵盖了这些算法的渐近收敛条件、稳定区域和平稳分布的特性。另外,通过结合收敛速度和平稳分布的结果,研究者有时会获得反直觉的实际准则来设置学习率和动量参数。

推荐:这篇出自微软研究院人工智能中心(Microsoft Research AI)的论文详细探讨了随机梯度中动量参数对收敛以及不同算法中性能衡量指标的影响。



论文 3:The Visual Task Adaptation Benchmark

摘要:深度学习已经给计算机视觉领域带来了诸多改变。其中,达到 SOTA 水平的深度网络能够直接从原始像素中学习有用的表征,从而在众多视觉任务上取得了前所未有的性能。但是,「从零开始」学习这些表征通常需要大量的训练样本。为了解决这方面的问题,谷歌 AI 推出了「视觉任务适应性基准」(Visual Task Adaptation Benchmark,VTAB)。这是一个多样性的、真实的和具有挑战性的表征基准。这一基准基于以下原则:在所需领域内数据有限的情况下,更好的表征应当能够在未见任务上实现更佳的性能。受启发于推动其他机器学习领域进展的一些基准,如用于自然图像分类的 ImageNet、自然语言处理的 GLUE 和强化学习的 Atari,VTAB 遵循相似的准则:(i)对解决方案施加最小约束,以鼓励创造性;(ii)注重实际;(iii)借助挑战性任务进行评估。

file
▲VTAB 基准原理图。

推荐:众所周知,图像分类领域有 ImageNet 数据集,自然语言处理领域有 GLUE 基准,这些基准在对应领域的进展中发挥了重要作用。终于,谷歌推出了视觉任务适应性领域的基准 VTAB(Visual Task Adaptation Benchmark),该基准有助于用户更好地理解哪些视觉表征可以泛化到更多其他的新任务上,从而减少所有视觉任务上的数据需求。



论文 4:The Eighty Five Percent Rule for optimal learning

摘要:一直以来,研究人员和教育工作者都在思考一个问题:如何最好地教导他们的客户——无论是人类、动物或者机器。在本文中,研究者检验了单一变量,即训练难度,对学习率的影响。在很多情况下,他们发现存在一个「甜蜜点」,其中训练既不是太简单也没有太困难,并且学习进程最快。研究者在二进制分类任务情境下为一系列学习算法的「甜蜜点」推导出了条件。对于所有这些基于随机梯度的学习算法而言,他们发现训练的最优误差率约为 15.87%,反过来说,最优训练准确率约为 85%。研究证明,『85% 规则』对 AI 中使用的人工神经网络和生物上可信的神经网络的效用被认为可以用来描述动物学习。研究证明了「85% 规则」对 AI 中使用的人工神经网络以及生物学上可信且被认为用于描述动物学习的神经网络的有效性。

file
▲应用于感知器的「85% 规则」。a 横坐标表示每次训练的误差率(error rate),纵坐标表示训练次数(trial number)。图中的颜色表示训练出的网络的准确率,其中颜色越黄表示准确率越高,颜色越蓝表示准确率越低;b 横坐标表示训练数量,纵坐标表示相对精度(relative precision),三条曲线分别表示 0.36、0.06 和 0.16 的误差率。可以看出,当误差率为 0.16 时,相对精度的增加是最快的。这说明 0.16(约为 15.87%)为训练中的最优误差率。

推荐:这是一篇发表在 Nature Communications 上的论文,详细介绍了最优学习的 85% 规则。


来源:机器之心@微信公众号


推荐阅读:
论文推荐 | 最新的 SOTA 论文、计算机视觉领域的综述和回顾论文
ICCV 2019 最佳论文解读 | SinGAN:从单幅图像学习生成模型,可应用于多种图像处理操作
论文推荐 | 2019 安卓手机 AI 性能评测;视频架构学习新方法;自动驾驶论文综述

file
△ 关注极市平台
获得最新CV干货

微信公众号: 极市平台(ID: extrememart )
每天推送最新CV干货