【论文分享】中科院自动化所多媒体计算与图形学团队 NIPS 2017 论文提出平均 Top-K 损失函数,专注于解决复杂样本

论文速递 Admin ⋅ 于 1个月前 ⋅ 最后回复由 你找不到我 1周前 ⋅ 366 阅读

来源:专知@微信公众号(ID: Quan_Zhuanzhi)
作者:樊艳波


论文:Learning with Average Top-k Loss

file

▌1. 引言:

        ![file](http://bbs.cvmart.net/uploads/images/201909/12/3/MBIESvN0hP.png?imageView2/2/w/1240/h/0)

file

file

Figure 1: 在二分类任务中,不同的聚合损失在仿真数据上的性能比较。Bayes最优分类边界在图中以阴影显示,其中单个样本的损失采用logistic损失。第2列和第4列的图显示了每种情况下当k变化时,ATk损失对应错分比例。

图1结合仿真数据显示了最小化平均损失和最小化最大损失分别得到的分类结果。可以看出,当数据分布不均衡或是某类数据存在典型分布和非典型分布的时候,最小化平均损失会忽略小类分布的数据而得到次优的结果;而最大损失对样本噪音和外点(outliers)非常的敏感,即使数据中仅存在一个外点也可能导致模型学到非常糟糕的分类边界;相比于最大损失损失,第k大损失对噪音更加鲁棒,但其在k > 1时非凸非连续,优化非常困难。

由于真实数据集非常复杂,可能存在多分布性、不平衡性以及噪音等等,为了更好的拟合数据的不同分布,我们提出了平均Top-K损失作为一种新的聚合损失。

▌2. 学习平均Top-K损失

2.1 平均Top-K损失定义

file

损失是一种非常通用的聚合损失,其可以和很多现有的定义在单个样本上的损失 结合起来,如logistic损失,hinge损失,平方损失(L2),绝对值损失(L1)等等。通过引入自由度 k,损失可以更好的拟合数据的不同分布。从图1中可以看出,当数据存在多分布或类别分布不均衡的时候,最小化平均损失会牺牲掉小类样本以达到在整体样本集上的损失最小;当数据存在噪音或外点的时候,最大损失对噪音非常的敏感,学习到的分类边界跟Bayes最优边界相差很大;当采取损失最为聚合损失的时候(如k=10),可以更好的保护小类样本,并且其相对于最大损失而言对噪音更加鲁棒。从第二列和第四列的错分比例的趋势图也可以看出,最优的k即不是k = 1(对应最大损失)也不是k = n(对应平均损失),而是在[1, n]之间存在一个比较合理的k的取值区间。

2.2 损失的分析和优化

file

file

可以看出,k聚合损失等价于优化的平均损失,其中λ的取值跟具体的k值有关。从等价损失出发,我们可以更好的理解损失,特别是在分类问题中。

file

Figure 2: ATk损失在单个损失上的释义,阴影部分对应正确分类的样本。

file

2.3 实验分析

我们在分类问题和回归问题中对ATk损失进行实验分析,在实验中我们采用线性预测函数,即其中(w, b)为模型参数,模型正则项采用。 我们利用随机次梯度下降法优化损失,并随机选取50%,25%,25%的样本分别作为训练集,验证集和测试集。在训练的过程中,我们假定没有任何关于k的先验信息,并通过验证集来选取最合适的k和C。

file

Figure 3: 分类错误率w.r.t. k

图3给出了在二分类实验中,在四个数据集上分类错误率随k的变化的变化曲线,其中单个样本的损失分别为logistic损失和hinge损失。可以看出在这些数据集上当k = 1时,数据中潜在的噪音对分类结果有很大的负面影响,分类结果比较差;随着k的逐渐增加,噪音和外点数据对分类器的影响逐渐被削弱,分类性能逐渐变好;当k持续增加时(如k = n),由于大量容易被分类的样本被逐渐增加进来,这些简单样本上的非0损失会对分类器带来负面的影响,分类性能反而下降。

更多的理论分析和数值实验结果,请参见原文。

▌3.总结

在该工作中,我们分析了平均损失和最大损失等聚合损失的优缺点,并提出了平均Top-K损失(损失)作为一种新的聚合损失,其包含了平均损失和最大损失并能够更好的拟合不同的数据分布,特别是在多分布数据和不平衡数据中。损失降低正确分类样本带来的损失,使得模型学习的过程中可以更好的专注于解决复杂样本,并由此提供了一种保护小类数据的机制。损失仍然是原始损失的凸函数,具有很好的可优化性质。我们还分析了损失的理论性质,包括classification calibration等。

论文链接:

http://papers.nips.cc/paper/6653-learning-with-average-top-k-loss



file
△ 扫一扫关注 极市平台
每天推送最新CV干货

微信公众号: 极市平台(ID: extrememart )
每天推送最新CV干货

回复数量: 1
您需要登陆以后才能留下评论!