CVPR 2020 人脸防伪检测挑战赛:跨种族人脸数据集&双赛道前三名方案展示

注:本文由万军博士投稿,获作者授权后即可免费转载。

竞赛背景

人脸防伪检测在保护人脸识别系统免受恶意攻击方面发挥重要作用,它在人脸识别之前先判断摄像头前的人脸是否为一个真实的人脸。近些年,得益于神经网络优秀的特征表达能力与先进的硬件条件,人脸防伪检测算法取得了显著的进步,并且应用在很多配备人脸识别系统的场景中,如人脸支付,人脸安检,视频监控等。

随着科技进步,不同国家、种族人群交流日益频繁,人脸识别系统不再局限的服务于单一种族的用户。遗憾的是,相关研究已经证明,用某一种族人脸样本训练的人脸识别模型在面对该种族测试样本时,识别率更高,而测试其他种族性能会下降。这表明该人脸识别系统在跨种族测试协议上的泛化性能较差。类似地,在人脸防伪研究中已经证明存在同样的问题。因此,收集大规模多种族人脸防伪数据集(带种族标签), 设计评估协议测量种族偏执程度,研究算法提高模型跨种族泛化性能等方案具有现实意义。

竞赛简介

本次挑战赛由中国科学院自动化研究所模式识别国家重点实验室万军1副研究员联合Chalearn在 CVPR2020 workshop on Media Forensics2上举办。在这次竞赛中,发布了一个大规模多种族的数据集(CASIA-SURF CeFA3)作为benchmark,并且设计一个测试协议同时评估参赛队伍的算法在跨攻击媒介与跨种族测试上的泛化性能。为了同时测试参赛队伍算法在基于可见光人脸防伪系统上的性能,该竞赛包含两个赛道(同时进行,但不必同时参加),第一个赛道4提供三个模态样本,第二个赛道5仅允许使用RGB模态样本。两个赛道都在CodaLab举办。更多信息参见竞赛官方网站(已在CVPR 2019和2020上成功举办两个防伪竞赛):

https://sites.google.com/qq.com/face-anti-spoofing/welcome


该竞赛奖金由百度独家赞助,数据集由冲浪科技(contact@surfingtech.cn)独家赞助。

  • 数据集:

该数据集的样本展示如图1所示,共包含1607人参与拍摄,来自三个种族(每个种族500人,还有107人为面具样本),分别为非洲,东亚与中亚,每幅人脸图像存在三个模态,分别为RGB,Depth与IR。它是迄今为止参与人数最多,种族最多(带标签),模态类型最多,规模最大的人脸防伪数据集。

图1.CASIA-SURF CeFA数据集中三个样本展示。

  • 协议:

测试协议共包含三个子协议,如表1所示,每个子协议采用1个种族样本用于模型训练,其余两个种族样本用于测试。同时,采用3个策略来增加竞赛难度:(1)每个种族ID从0-200的样本作为训练集,ID从201-300的样本作为验证集,ID从301u到500的样本作为测试集。(2)每个子协议的训练集中攻击样本为视频回放,而测试集中的攻击样本为打印攻击,且验证集的攻击方式与训练集保持一致,以确保测试集中的攻击类型未曾出现过。(3)所有子协议的测试集中引入面具攻击,包含3D打印与3D硅胶样本。

表1.评估协议信息。

  • 测试指标:

我们报告每个子协议的APCER,BPCER与ACER 性能。并将三个子协议的均值作为最终的分数。所有的指标计算公式如图2所示。

图2.测试指标计算。

竞赛队伍及方法介绍:

本次竞赛吸引来自工业界与学术界共340支参赛队伍,最终19支队伍进入决赛并提交了模型与代码。每个队伍的最终得分由主办方重新训练与测试而来。表2为决赛阶段参赛队伍的名称与成员,以及排名。

(a)单模态赛道

(b)多模态赛道


  • 单模态(RGB)赛道:

单模态赛道的冠军为来自俄罗斯VisionLabs。该队伍采用两个主要策略来提升性能:(1)数据增广;(2)样本模态转换。网络结构如图3所示,一共包含4个分支,其中两个分支将连续帧的输入样本转到动态模态通过 RankPooling 算法,另外两个分支将输入样本转至光流模态通过Optical flow算法。然后采用一个 SimpleNet提取转换模态后样本的特征进行拼接。最后采用二分类器进行分类。

图3. VisionLabs队伍的网络结构

单模态赛道的第二名为来自OULU大学的BOBO队伍。该队伍摒弃泛化性能较差的二分类损失函数,采用Depth回归网络与L2损失函数进行特征map的拟合。网络结构如图4所示,他们从4个方面提升算法性能:(1)设计一个新颖的中心差分卷积层(Central Difference Convolution (CDC))代替所有的常规卷积层。 (2)构建一个深度回归网络,包括3个block,3个Attention 层,融合3个尺度上的特征。(3)采用L2损失函数与相对深度损失函数(Contrastive Depth Loss,CDL)代替普遍采用的二分类损失函数。

图3. BOBO队伍的网络结构

单模态的第三名为来自地平线(Horizon)Harvest队伍。该队伍主要利用连续输入样本的运动信息辅助人脸防伪任务。因为竞赛协议中的训练集中攻击样本为视频回放,而测试集中的攻击样本为打印攻击。连续帧样本如图4所示,真实人脸与视频回放包含较为丰富的表情,姿势运动信息,而打印攻击人脸并不存在这些运动信息。因此该队伍采用ResNet作为backbone,并根据攻击类型重新编码数据集的标签信息,有效地提升了算法性能。

图4. 不同类别的连续10帧样本示例

  • 多模态赛道:

多模态赛道的冠军为BOBO队伍,该队伍在单模态赛道的网络结构上,将网络分割为两部分,如图5所示:(1)三个特定模态分支分别学习 RGB,Depth与IR模态样本的特征。(2)共享分支融合三个模态的特征。

图5. BOBO队伍的多模态赛道网络结构

多模态赛道的第二名为中科大的Super队伍。该队伍主要从数据预处理与网络结构构建与集成学习策略三个方面提升算法性能。网络结构如图6所示,类似于BOBO队伍,三个分支分别学习三个模态样本特征。不同点为从多个尺度融合模态分支特征。最后对融合的特征进行维度约简等操作减少无关的冗余信息。

图6. Super队伍的多模态赛道网络结构

多模态赛道的第三名为Intel的Hulking队伍。他们提出一个PipeNet作为整个网络框架,如图7所示。创新点主要包括三点:(1)一个SMP (Selective Modal Pipeline) 模块,在网络训练过程中选择性地学习更为有效的模态特征。(2)一个LFV (Limited Frame Vote) 模块,迭代计算每帧测试样本的分数以得到更为稳定且准确的分类概率分数。

图7. Hulking队伍的多模态赛道网络结构

  • 最终成绩:

所有参赛队伍的最终成绩与排名如下表所示。

参考文献或链接

  1. 自动化所万军博士主页 http://www.cbsr.ia.ac.cn/users/jwan/
  2. 竞赛官网:https://sites.google.com/view/wmediaforensics2020/home?authuser=0
  3. Ajian Liu, Zichang Tan, Xuan Li, Jun Wan, Sergio Escalera, Guodong Guo, Stan Z. Li, "CASIA-SURF CeFA: A Benchmark for Multi-modal Cross-ethnicity Face Anti-spoofing", arxiv, 2020
  4. 跨种族防伪多模态竞赛赛道:https://competitions.codalab.org/competitions/22036
  5. 跨种族防伪单模态竞赛赛道:https://competitions.codalab.org/competitions/22151

微信公众号: 极市平台(ID: extrememart )
每天推送最新CV干货