ECCV18 | UC 伯克利提出基于自适应相似场的语义分割(附代码)

代码模型 Admin ⋅ 于 3个月前 ⋅ 505 阅读

来源:我爱计算机视觉@微信公众号

转载自我爱计算机视觉,未经允许不得二次转载

本文来自于ECCV2018的论文《Adaptive Affinity Fields for Semantic Segmentation》,UC伯克利大学的研究人员提出了一种自适应相似场(Adaptive Affinity Fields )来辅助语义分割的方法,增强了网络对目标结构推理的能力,取得了非常显著的性能提升,代码已开源。

作者信息:

file

图像语义分割不仅仅是对图像每个像素的简单分类问题,在一些语义信息不明的像素区域,直接对像素分类往往难以奏效,所以基于目标结构推理的方法就变得很重要。
近年来,语义分割问题(Semantic Segmentation)通过越来越强大的图像分类器,类似的结合条件随机场(Conditional Random Fields,CRF)或生成对抗网络(GAN)等结构先验模型而取得了许多进展。

以条件随机场方法后处理为例,对网络预测的图像像素标签进一步根据原始像素值调整,以消除明显的视觉上相似但标签不一致的问题,改进了语义分割的结果。
在这篇论文中,作者寻求将标签的结构推理直接引入网络建模中,提出一种更简单的替代方案,在训练期间教导网络验证分割的空间结构。

与在单个像素上强制学习语义类别并在相邻像素之间匹配类别的现有方法不同,提出的自适应相似场(Adaptive Affinity Fields, AAF)的概念来匹配标签空间中的相邻像素之间的语义关系。
file

请看下图,直接使用Softmax对像素分类和引入结构推理的AAF方法的对比,在摩托车的透明挡风玻璃和车轮区域有明显的改善。

file

同时本文使用对抗性学习为每个语义类别选择最佳的亲和力范围。将此概念转化为一个极小极大的优化问题,利用最好的最坏情况学习(best worst-case learning)情境优化语义分割神经网络。

file

AAF算法仅在训练期间多了一些步骤,不需要额外的参数,也易于训练。

实验结果
AAF 将空间结构解析为以个别像素为中心关系的集合,比 CRF 或 GAN 都更容易训练且更有效。论文在PASCAL VOC 2012,Cityscapes 和 GTA5 等数据集上证明了AAF语义分割的优越性能和跨域的强大泛化能力。

使用PSPNet作为基准模型,将AAF与其结合验证AAF的改进效果。为更有说服力、更全面的评估算法有效性,评价标准包括,pixel-wise mIoU、instance-wise mIoU、boundary detection metrics。

file

file

file

file

file

因为模型是在数据集上提取结构先验知识,为验证跨数据集的推广能力,而不是在训练数据集上的过拟合,作者使用Cityscapes训练模型,在GTA5测试,与基准模型相比较,依然取得了明显的改进。

file

一些分割示例:

file

值得一提的事,该方法实则是一种新的深度学习结构建模的方法,不仅仅可以用于语义分割,理论上可以推广到图像深度估计、光流计算等对图像进行像素级理解的任何场景。期待各位读者此基础上探索更加有趣的应用。

代码地址:
https://github.com/twke18/Adaptive_Affinity_Fields

论文&代码&模型下载:关注”极市平台“公众号,回复”AAF“即可收到百度云下载地址。


推荐文章

CVPR 2018 | 无监督语义分割之全卷积域适应网络

基于深度学习的图像语义分割开源代码整理

微信公众号: 极市平台(ID: extrememart )
每天推送最新CV干货

成为第一个点赞的人吧 :bowtie:
回复数量: 0
暂无回复~
您需要登陆以后才能留下评论!