• 问答
  • 技术
  • 实践
  • 资源
人脸表情和姿态变化万般丝滑——基于 3D 人脸动态的图像-视频生成方法
技术讨论

39个企业真实项目需求,极市提供报酬丰厚+持续的订单收益、免费算力(可自由选择)、已标注数据集、技术支持等。可重复选择,放弃自由。点击链接进入查看报酬、报名,:https://bbs.cvmart.net/category/24


文章来源 | AI算法与图像处理

image.png
从单一的人脸图像生成其对应的视频是一个有趣的问题,研究者们通常利用人脸图像的稀疏特征点(landmarks)结合生成对抗网络(Generative Adversarial Networks, GANs)来进行人脸视频的生成。然而,由稀疏人脸特征点生成的人脸图像通常会遭受质量损失、图像失真、身份改变,以及表情不匹配等问题。今天介绍一篇能很好解决上述问题的论文,在本文中,作者使用重建出的三维人脸动态信息来指导人脸视频的生成,旨在生成逼真的和身份不变的面部视频。三维人脸动态可以更好的表示人脸的面部表情和动作,可以作为有力的先验知识指导高度逼真的人脸视频生成。 image.png
原文标题:Image-to-Video Generation via 3D Facial Dynamics论文地址:https://ieeexplore.ieee.org/abstract/document/9439899在文中,作者精心设计了一套**三维动态预测和人脸视频生成模型\(FaceAnime\)**,来预测单张人脸图像的 3D 动态序列,然后通过稀疏纹理映射算法进一步渲染3D动态序列的皮肤细节。最后,利用条件生成对抗网络引导人脸视频的生成。实验结果显示,FaceAnime能从单张静止的人脸图像生成高保真度、身份不变性的人脸视频,较其它方法效果更好。

1

背景及简介

当前的人脸视频生成方法普遍采用人脸的稀疏特征点(landmarks)来引导图片或视频的生成,然而作者认为使用稀疏的二维特征点引导人脸图像/视频生成的主要缺点有:1、稀疏人脸特征点不能很好地表示人脸图像的几何形状,容易导致人脸整体形状和面部结构细节的缺失,进而导致合成图像的失真和质量损失;2、稀疏的二维特征点不携带源人脸图像的任何内容信息,这可能会导致生成的图像过拟合于只包含训练集的人脸图像中;3、在视频生成过程中应保留人脸身份信息,但稀疏的2D特征点没有身份信息,容易导致合成结果的身份变化。文章的主要贡献如下:

  • 不同于广泛使用2D稀疏人脸landmarks进行图像/视频的引导生成,文章主要探索包含人脸丰富信息的3D动态信息的人脸视频生成任务;
  • 设计了一个三维动态预测网络(3D Dynamic Prediction,3DDP)来预测时空连续的3D动态序列;
  • 提出了一个稀疏纹理映射算法来渲染预测的3D动态序列,并将其作为先验信息引导人脸图像/视频的生成;
  • 文章使用随机和可控的两种方式进行视频的生成任务,验证提出方法的有效性。

2

方法描述

本文提出的 FaceAnime 包含一个 3D 动态预测网络(3D Dynamic Prediction, 3DDP)和一个先验引导的人脸生成网络(Prior-Guided Face Generation, PGFG)。首先,本文方法基于三维形变模型(3D Morphable Models, 3DMM)对单张人脸图像进行三维重建, 3DDP网络随后预测该图像未来的3D动态序列,之后将动态序列进行稀疏纹理映射渲染,最后使用PGFG网络完成相应的人脸生成。模型的整体网络架构和操作流程如下图1所示:image.png图1. FaceAnime的整体框架图,包括3DDP网络(左)和PGFG网络(右)(1)3D人脸重建和稀疏纹理映射3D形变模型(3D Morphable Model, 3DMM)用来从2D人脸图像中预测相应的3D人脸。其中,描述3D人脸的顶点(vertex)可由一系列2D人脸中的正交基线性加权得出:image.pngimage.pngimage.pngimage.png图2. 给定不同的3DMM系数所得到的不同三维人脸重建和稀疏映射的结果不同于以往只针对某一种任务的视频生成,在本文中作者提出了三个不同的生成任务,即人脸视频重定向(Face video retargeting),视频预测(Video prediction)以及目标驱动的视频预测(Target-driven video prediction)。对于retargeting任务,作者使用参考视频来提供序列的变化信息,而不使用3DDP来预测。视频预测:给定一个观测到的动态序列(3DMM coefficients),LSTM对其进行编码:image.pngimage.png
为了预测出一个合理的动作,LSTM不得不首先学习大量的动作输入以识别在姿态序列中运动的种类以及随时间的变化。在训练过程中,未来动态序列可以由下式生成:
image.png
image.png
image.png
image.png
image.png
image.png

3

实验结果

作者分别对人脸视频重定向、视频预测以及目标驱动的视频预测三个任务做了相应的大量实验。人脸视频重定向:在这个任务中,作者分别对人脸表情的重定向以及头部讲话重定向两个子任务进行了实验。实验表明,所提出的 FaceAnime 模型可以很好的将 source 人脸图像中的表情和动作重定向到目标图像上,生成相对应的姿态和讲话表情,实验结果如图 3 所示。image.png图3. FaceAnime的人脸表情重定向(a)和头部讲话重定向(b)实验结果人脸视频预测:这个任务中包含视频预测以及目标驱动的视频预测两个子任务。对每一个预测任务,实验过程中作者随机选取一张从人脸图像测试集 IJB-C 中抽取的单张人脸图像。对于视频测试,作者首先使用 3DDP 网络从source 人脸中预测一个运动序列,然后用该序列引导人脸视频的生成。而对于目标引导的人脸预测任务,则需要两个输入图像。一个是 source 人脸,另一个为 target 人脸。3DDP 网络用于预测从 source 人脸到 target 人脸之间平滑的运动变化,从而引导人脸视频的生成。图4和图5分别展示了视频生成和目标驱动视频生成两个子任务的生成结果。image.png图4. FaceAnime的视频生成结果image.png图5. FaceAnime的目标驱动视频生成的结果为了展示所提出方法的先进性,作者还同其他类似任务的算法进行了效果对比,部分结果显示如图 6 所示。image.png图6. FaceAnime和其它方法的对比结果通过比较,FaceAnime 不仅可以生成高质量且真实的人脸视频序列,同时生成的视频图像可以精确地还原参考视频中人脸表情和姿态变化,还能较好地保持人脸的身份信息。大量实验表明,作者提出的方法可以将参考视频的姿态和表情变化重定位到source人脸上,并且对于一个随机的人脸图像,其可以生成合理的未来视频序列。对比其他最先进的人脸生成方法,所提出的方法在生成高质量和身份信息保持的人脸方面具有更好的效果。

4

作者介绍

涂晓光,中国民用航空飞行学院讲师,从事人工智能、深度学习、计算机视觉等领域的研究工作。2013-2020年在电子科技大学攻读硕士和博士学位,2018年作为国家公派联合培养博士生前往新加坡国立大学学习交流一年半, 师从亚太地区杰出青年科学家冯佳时教授, 并于2019年至2020年相继在PENSEES新加坡研究院和字节跳动人工智能实验室担任算法实习研究员。目前,以第一作者在IEEE-TCSVT, IEEE-TMM, ACM-TIST等世界权威期刊上发表论文11篇, Google scholar引用200多次,第一作者发表SCI期刊总影响因子超过30,曾担任模式识别领域顶级期刊“Pattern Recognition”特邀审稿人。2020年12月份博士毕业,2021年3月以高层次人才引进身份入职中国民用航空飞行学院。赵健,2012年获得北京航空航天大学学士学位,2014年获得国防科技大学硕士学位,博士就读于新加坡国立大学电子与计算机工程系,师从冯佳时教授和新加坡工程院院士、ACM/IEEE/IAPR Fellow颜水成教授,2019年获得博士学位,现为军事科学院助理研究员,入选中国科协2020-2022年度青年人才托举工程、北京市科协2021-2023年度青年人才托举工程,担任视觉与学习青年学者研讨会VALSE资深领域主席、中国图象图形学学会视觉大数据专业委员会CSIG-BVD委员、北京图象图形学学会BSIG第七届理事会理事。主要研究领域为人工智能、深度学习、模式识别、计算机视觉与多媒体分析。目前,共主持/参与科技委项目3项(序1/3/5),主持国家自然科学基金青年科学基金项目1项,参与军科院长基金项目1项(序3)。近5年已受理国家专利6项(序1),发表高水平学术论文40余篇,单篇影响因子最高16.389,其中,以第一作者发表CCF A类论文11篇(含2篇T-PAMI、2篇IJCV)。曾作为第一作者获得2021 USERN (Universal Scientific Education and Research Network) Prize提名,新加坡模式识别与机器智能协会PREMIA 2019 Lee Hwee Kuan奖(金奖),CCF A类会议、国际多媒体领域顶级会议ACM MM 2018最佳学生论文奖,CCF A类国际会议ICCV 2017 MS-Celeb-1M人脸识别竞赛Hard Set/Random Set/Low-Shot Learning全部任务全球冠军,CCF A类国际会议CVPR 2017 L.I.P竞赛人物解析与人物姿态估计全部任务全球亚军,美国国家标准与技术研究院NIST 2017 IJB-A无约束人脸识别竞赛人脸验证与人脸鉴别全部任务全球冠军。担任国家自然科学基金委评议专家,担任T-PAMI、IJCV、NeurIPS(NeurIPS 2018前30\%最佳审稿人)、CVPR等本领域主流国际期刊/会议的受邀审稿人。冯佳时,现任新加坡国立大学电子与计算机工程系助理教授,机器学习与视觉实验室负责人。中国科学技术大学自动化系学士,新加坡国立大学电子与计算机工程系博士。2014-2015年在加州大学伯克利分校人工智能实验室从事博士后研究。现研究方向为图像识别、深度学习及面向大数据的鲁棒机器学习。冯佳时博士曾获ICCV’2015 TASK-CV最佳论文奖,2012年ACM多媒体会议最佳技术演示奖。担任ICMR 2017技术委员会主席,JMLR, IEEE TPAMI, TIP, TMM, TCSVT, TNNLS及 CVPR, ICCV, ECCV, ICML, NIPS, AAAI, IJCAI等期刊、会议审稿人。

相关推荐:

【资源】聚焦人脸表情识别 (FER) 的顶级会议和期刊文献与资源列表
人脸识别最新进展
VALSE2018|让机器 “观色”:真实世界的表情识别

  • 0
  • 0
  • 1657
收藏
暂无评论