再谈类别不平衡问题:调节权重与魔改 Loss 的综合分析

技术讨论 黑人 ⋅ 于 1个月前 ⋅ 679 阅读
内容来源:原创 苏剑林 PaperWeekly
单位|追一科技
注:因文中多为公式及特殊字符,故多用图片形式呈现,请谅解。


类别不平衡问题,也称为长尾分布问题,在之前的文章里已经有好几次相关讨论了,比如从 loss 的硬截断、软化到 focal loss [1] 、将“softmax+交叉熵”推广到多标签分类问题目标检测中的不平衡问题综述

对于缓解类别不平衡,比较基本的方法就是调节样本权重,看起来“高端”一点的方法则是各种魔改 loss了(比如 Focal Loss、Dice Loss、Logits Adjustment 等),本文希望比较系统地理解它们之间的联系。
file


从光滑准确率到交叉熵
file
file


从光滑F1到加权交叉熵
file
file


从扩大边界到Logits调整

其实无论评测指标是什么,我们肯定都是希望每一个样本都尽可能预测对。问题在于,样本数目比较少的类别,因为学习得不够充分,所以泛化性能不会太好。

让我们从几何角度来思考这个问题。理想情况下,在编码空间里边,每一类样本都占据着自己的一个“地盘”,不同类的“地盘”是互不相交的。

样本数目较少的类别泛化性能不大好,主要就体现为其类别所占据的“地盘”比较小,而且往往还会受到类别数目较多的样本的“打压”,因此“生存”几乎都成了问题,更不用说照顾到训练集没有出现过的新样本了。
file
file


感觉上可以小结一下了

本文就类别不平衡现象及其对策做了一些思考,主要是希望通过一些相对直观的引导,来揭示一些魔改 loss 的思路,从中我们也可以发现,其实这些方案本质上都算是在调节样本权重或者类权重。本文的分析思路相对来说比较散漫,基本上是笔者的头脑风暴内容,如果错漏之处,请读者见谅并指出。


参考文献

[1] https://kexue.fm/archives/4733

[2] https://kexue.fm/archives/6620

[3] https://kexue.fm/archives/6620


更多阅读

目标检测中的不平衡问题综述
类别不平衡学习资源推荐

黑人

回复数量: 0
暂无回复~
您需要登陆以后才能留下评论!