• 问答
  • 技术
  • 实践
  • 资源
【盲图像超分】IKC 解析与深度思考
技术讨论

作者丨 Happy
​来源丨AIWalker
编辑丨极市平台

【AI侃侃】知道IKC 一文有一年多,但一直没有深入看过论文,code也未曾仔细看过,潜意识中认为IKC太复杂了,所以一直拖、一直拖,直到看了DAN的两个版本,看到了DAN中附带了IKC的code,才觉得IKC可能是与DAN相类似的方法。趁着周末,花了近一天时间去看了IKC的原理以及code。

arXiv:https://arxiv.org/abs/1904.03377

code:https://github.com/yuanjunchai/IKC

Abstract

因其优异的有效性与高效率,深度学习已成为图像超分领域主流方案。现有图像超分方案往往假设下采样过程中的模糊核是固定/已知(比如bicubic)。然而,实际应用场景中的退化模糊核往往是复杂且未知的 ,进而导致已有方案在实际应用中的严重性能退化。

本文提出一种迭代核估计方法用于盲超分中的模糊核估计。 本文思想源自:核不匹配会导致有规律的伪影(过度退化或者过度模糊),而这种规律可以用于对不精确的模糊核进行校正 。因此,我们提出一种迭代校正机制IKC,它可以取得比直接核估计更好的结果。与此同时,我们还提出一种基于SFT(Spatial Feature Transformer)的超分网络SFTMD用于处理多模糊核。

合成数据与真实场景上的实验表明:所提SFTMD+IKC可以生成视觉友好效果,同时在盲超分领域取得了SOTA性能。

本文主要贡献包含以下几点:

  • 提出一种直观且有效的深度学习框架用于模糊核估计;
  • 提出一种基于SFT的非盲超分模型用于多模糊核图像超分;
  • 所提SFTMD+IKC在盲超分领域取得了SOTA性能。

Method

Problem Formulation

盲图像超分问题可以描述如下:

$$
I^{L R}=\left(k \otimes I^{H R}\right) \downarrow_{s}+n
$$

已有研究往往采用各项同性高斯模糊核,此外,各项异性模糊核(可视作运动模糊+各项同性模糊核的组合)也开始得到关注。为简单起见,本文主要聚焦于各项同性模糊核 。延续SRMD,我们采用了高斯模糊+bicubic下采样 退化方式。在真实场景中,LR图像往往还存在加性噪声退化。噪声假设同样延续了SRMD中的高斯分布。

Motivation

接下来,我们将思考正确模糊核在超分过程中的重要性 。假设 $\mathcal{F}\left(I^{L R}, k\right)$ 为带核信息输入的预训练超分模 型,当输入正确模糊核,生成的超分图像不会存在伪影。盲超分问题就等价于寻找合适的模糊核以使得超 分模型生成视觉友好的结果 $I^{S R}$ 。一种直接的方案是采用预测器(Predictor) $k^{\prime}=\mathcal{P}\left(I^{L R}\right)$ 直接从LR估计模糊 核 $k$, 该预测器可通过最小化 $l_{2}$ 损失得到:

$$
\theta{\mathcal{P}}=\operatorname{argmin}{\theta{\mathcal{P}}}\left|k-\mathcal{P}\left(I^{L R} ; \theta{\mathcal{P}}\right)\right|_{2}^{2}
$$

然而,对模糊核进行精确估计不太可能。此外,超分模型对于估计误差非常敏感,不精确的模糊核会导致生成的结果包含伪影。

上图给出了超分模型关于核不匹配的敏感性可视化图,从中可以看到:

  • 当超分模型中的核比真实核锐利时,即 $\sigma{S R}<\sigma{L R}$, 超分结果会过于模糊;
  • 当超分模型中的核比真实核模糊时,即 $\sigma{S R}>\sigma{L R}$, 超分结果会过度锐化;
  • 当超分模型中的核与真实核相当时,即 $\sigma{S R} \approx \sigma{L R}$, 超分结果更为自然。

为解决核不匹配问题,我们提出了迭代校正模糊核以得到无伪影超分结果。为校正估计模糊核 $k$, 我们构建 了一个Corrector度量估计核与真实核之间的差异。核心思想在于:利用中间超分结果进行模糊核校正 。Corrector可以通过最小估计核与真实核之间的 $l_{2}$ 损失优化:

$$
\theta{\mathcal{C}}=\operatorname{argmin}{\theta{\mathcal{C}}}\left|k-\left(\mathcal{C}\left(I^{S R} ; \theta{\mathcal{C}}\right)+k^{\prime}\right)\right|_{2}^{2}
$$

Corrector基于超分结果的特征对模糊核进行调整,调整后的模糊核又将优化超分模型以得到具有更少伪影的结果。

上图给出了迭代次数与性能的对比,可以看到:

  • 仅仅一次校正的结果并不是非常好;
  • 多次迭代可以有效提升PSNR/SSIM指标,直到达到饱和。

Proposed Method

Overall Framework 所提IKC方案包含超分模型 $\mathcal{F}$ 、预测器 $\mathcal{P}$ 以及校正器 $\mathcal{C}$ 。 下图给出了IKC的实现伪代码。

Network Architecture of SR Model $\mathcal{F}$作为最成功的处理多模糊核退化的超分方案,SRMD将输入图像与退化信息拼接到一起作为模型输入,然后通过级联卷积与PixelShuffle进行图像超分。然而,SRMD中的拼接方式并非仅有的、也并非最优选择,原因有二:

  • 核map并不包含图像信息,直接采用聚氨基对其处理可能会引入与图像无关的干扰;
  • 核信息的影响仅在第一层得到了体验,深层特征难以收到该核信息的影响。

为解决上述问题,我们提出了一种基于SFT的超分模型SFTMD,SFT通过对特征执行仿射变换提升模糊核的影响,该仿射变化并不是直接包含在图像处理图像中,因而可以提供更好的性能。

上图给出了所提SFTMD架构示意图, 它通过引入SFT对SRResNet进行扩展。SFT则基于模糊核特征H对于特 征F进行仿射变换:

$$
S F T(F, \mathcal{H})=\gamma \odot F+\beta
$$

注:仿射变换系数 $\gamma, \beta$ 通过另一个轻量CNN计算得到。

Network Architecture of Predictor $\mathcal{P}$ and Corrector $\mathcal{C}$ 预测器与校正器的网络架构见下图。预测器由 4个卷积层(后接Leaky ReLU)+GAP组成;校正器则同时将超分图像与已有估计 $h$ 作为输入。

Experiments

我们按照前述退化模型合成训练数据集, 各项同性高斯模块的核宽分别为 $[0.2,2.0],[0.2,3.0],[0.2,4.0]$ 以对 应x2、x3以及 $x 4$, 核尺寸固定为 $21 \times 21$; 当应用于真实图像时,我们添加了 $\sigma=15$ 的加性高斯噪声 。训练 数据为DIV2K+Flickr2K。

为定量评估所提方案,我们还提供了一个测试集Gaussian8:它包含8个各项同性模糊核,核宽范围分别为 $[0.80,1.60],[1.35,2.40],[1.80,3.20]_{\circ}$

SFTMD与IKC均在合成训练数据集上进行训练。首先,采用MSE训练SFTMD;然后,固定SFTMD参数,交替训练预测器与校正。

Experiments of SFTMD

上表对比了所提SFTMD与其他盲超分方案的性能,从中可以看到:

  • 相比SRCNN-CAB与SRMD,所提SFTMD在所有配置与数据集上均取得了显著性能提升;
  • 相比两个基于SRResNet的基线模型,所提SFTMD同样取得了最佳结果。

Experiments on Synthetic Test Images

上表给出了Gaussian8数据集上不同方案的性能对比,从中可以看到:

  • 当退化核非bicubic时,在bicubic下采样退化下表现好的模型出现了严重的性能下降;
  • 尽管无核校正的的方案已经取得了与现有方案相当的结果,但是,提升迭代次数仍可极大提升模型性能。

上图对比了模糊核迭代校正过程中的超分结果,可以看到:

  • 直接采用预测器估计的模糊核生成的结果并不好,或者过于模糊或者存在振铃伪影;
  • 随着迭代次数提升,PSNR指标逐渐提升,同时视觉效果也逐渐变好。

上表对所提方案的泛化性能进行了验证,从中可以看到:

  • 所提IKC仍可保持其性能 ,说明IKC具有良好的泛化性;
  • 移除PCA会造成性能下降,说明PCA有助于提升IKC的泛化性。

Experiments on Real Image Set

上图对比了不同方案在真实图像上的超分效果,可以看到:尽管退化模糊核未知,IKC仍可生成无伪影、边缘锐利的超分结果

上图提供了通过网格搜索优化模糊核+SRMD与IKC在Chip图像上的超分结果对比,从中可以看到:

  • 尽管SRMD具有更锐利边缘、高对比度,但存在轻度伪影;
  • IKC可以自动生成视觉友好的超分结果,尽管对比度稍低,但仍具有锐利而自然的边缘。

个人思考

因为最近一年确实看过不少盲超分的paper,所以第一遍看完IKC后只感觉不过如此。在做笔记时,思考了IKC这一类方案的时间线时才真的意识到IKC的巧妙之处。

上图简单梳理了自SRMD以来用于多模糊核退化的图像超分方案,SRMD、DPSR、USRNet、DPIR以及MANet是Kai Zhang及其团队成员的工作,IKC则是Jinjin Gu、Chao Dong团队的成果,DANv1\&DANv2是中科院Tieniu Tan团队的成果。

SRMD首次成功的将核先验、噪声先验信息嵌入到超分模型中 ;而后续的工作则针对模糊核的迭代估计进行探索,后续的工作延续了两条不同的路线:

  • 路线一:基于MAP思想进行迭代估计,像DPSR、USRNet以及DPIR采用了类似的思路,将传统方法MAP逐渐嵌入到迭代优化中;
  • 路线二:基于CNN进行迭代估计,像IKC、DANv1以及DANv2均采用了深度学习的思想进行模糊核的迭代优化。

作为路线二的探索者,IKC以核不匹配造成的伪影 作为切入点,深入分析了估计核与真实核之间过渡时的现象,提出了模糊核迭代优化机制IKC。针对SRMD中核先验与LR图像的拼接处理方式可能存在弊端(核信息只影响一次、对深层难产生影响),引入SFT以加深核先验的影响。

当然,作为“吃螃蟹”的工作,它肯定会留下一些“坑”留给后来者去填。这些坑是啥呢?感兴趣的可以先去看一下DANv2,或者等待笔者的解读亦可。

  • 0
  • 0
  • 636
收藏
暂无评论