10 篇 CVPR2018 Action recognition 的论文解读汇总

论文速递 你找不到我 ⋅ 于 4周前 ⋅ 483 阅读

作者:奥卢的陈皓宇
来源:https://zhuanlan.zhihu.com/p/61112376https://zhuanlan.zhihu.com/p/65424635

本文作者把ECCV、CVPR、AAAI 2018年的action recognition的论文做了汇总并一一解读,以下是CVPR2018论文的解读,ECCV解读:ECCV2018 Action recognition 的论文解读汇总 ,AAAI 解读仍在更新中,完整汇总请关注:2018年 Action recognition 的论文解读汇总(ECCV CVPR AAAI)

CVPR 2018 Action recognition论文列表



以下是论文解读部分。


一、Deep Progressive Reinforcement Learning for Skeleton-Based Action Recognition

Yansong Tang1,2,3,∗ Yi Tian1, ∗Jiwen Lu1,2,3 Peiyang Li1, Jie Zhou1,2,3

清华大学的工作,据我所知是第一个用基于深度的增强学习的方法来做骨骼的动作识别的。本文的核心思想就是先用RL的算法来选择关键帧, 再把选取到的关键帧输入到神经网络,得到这个序列的标签:深度渐进式强化学习方法(DPRL)。

贡献三点:RL算法,FDNet,GCNN图模型,以及渐进式的学习过程。

目的是为了识别动作而提取最具信息量的帧,然后去除不明确的帧。

因为为每一个视频选择最具代表性得帧是多种多样的,他们就构建了帧选择模型是一个渐进的过程通过深度强化学习。

逐渐调整选择帧的时候主要考虑两个重要的因素:
(1)被选择帧的质量
(2)是被选择的帧和整个视频之间的关系。

而且,考虑到人类身体固有的拓扑结构是基于图的架构,这些顶点和边缘分别代表了铰接头和硬骨,应用了基于图的卷积神经网络来刻画动作识别时这些关节的依赖。


方法在三个广泛使用的数据集上实现了很好的效果。
1. FDNet
file

输入的是含有多个帧的一段视频,但我们不要全部用到全部帧数

所以我们想提取关键帧,设定提取的关键帧为m,把一个长视频分成m个小视频。对于每个视频分开处理。

每一个action表示这些关键帧是要向左移动,向右移动或是保持当前位置。

设定迭代步数,当程序迭代步数达到设定值时,就停止。
file

2. GCNN
file

把人体结构变成一个图结构。

file


3 GCNN和FDNet的结合,渐进式的学习过程

对于所有在训练集中基于骨骼的视频,我们首先均匀取样帧来获得在固定尺寸的序列。这些序列被用来训练GCNN来刻画在空间域中的关节依赖。之后,我们固定GCNN的参数来训练FDNet还有更新每一个在时间域上对每一个视频所选择的帧,这被用来改善GCNN。这两个模型互相促进对方,GCNN提供为FDNet提供奖赏,FDNet选择关键帧用来改善GCNN。GCNN越好,更准确的奖赏将会被提供。选择的帧质量越高,GCNN就可以更好的被改善。在测试时,每一个视频经过FDNet来产生它的具有信息帧的对应序列,然后最终将发送到GCNN来提供动作标签。
file


结果

SYSU
file

NTU
file

UT
file


二、MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition

Yizhou Zhou∗1 Xiaoyan Sun2 Zheng-Jun Zha1 Wenjun Zeng2
这是中科大和微软亚洲研究院的工作。本文的贡献是提出了一个混合2D 与3D 的卷积来做动作识别。

视频中的人为动作是三维(3D)信号。

最近的尝试使用3D卷积来做动作识别。虽然很有前景,但是3D 的表现甚至还不如2D的对应用于静止图像中的视觉识别。

原因就是高训练时空融合的复杂性和巨大的3D卷积的内存成本阻碍了当前的3D CNN,但是通过输出逐层堆叠3D卷积更深层次的特征映射,对于高级任务又是很重要的。


他们因此提出了一种集成的混合卷积管(MiCT)具有3D卷积模块的2D CNN生成更深入,更丰富的功能图,同时减少训练每轮时空融合的复杂性。是一个新的端到端可训练深度3D网络,MiCTNet。

用了三个着名的基准数据集UCF101,Sport1M和HMDB-51。其中两个UCF101和HMDB-51能达到state of the art。

混合的结构如下:

file


因此,他们首先提出3D/2D串联混合模块 (Concatenate Connection)。如图所示,在3D/2D串联模块中,在每个3D卷积之后串联一个深度2D CNN。通过3D/2D串联模块的使用,可以有效地增加3D CNN的深度,加强2D空域的学习能力,从而生成更深更强的3D特征,并使得3D CNN可以充分利用在图像数据上预先训练的2D CNN模型。在相关的网络设计中,提出相应地减少3D卷积的数量,从而进一步减小模型的大小,提升模型的效率。

file

通过3D/2D串联模块的使用,会得到一个更深的3D卷积神经网络。然而,更深的CNN通常意味着更难的训练过程。

file

简单的层数堆叠来加深网络可能造成梯度消失并导致更大的训练错误。为了解决这个问题,我们提出利用3D和2D特征图之间的相关性,让3D和2D卷积共享空间信息,如图所示。 由于2D空间特征相对容易学习,我们可以利用2D卷积并通过残差学习的方式来促进3D特征的学习。

file

用数学语言来描述的话,在t时刻的feature map表示为file,那么将file可以表述为

file

其中file是从t时刻到file时刻的sliced tensor,上式不是最终版本,M其实只是spatio-temporal feature map的linear fused操作,最终版本是另外提出了一个函数file,这个file,而这里的H其实就是2D卷积,也就是说这个数学描述描述的就是上图所示的过程,先进行3D卷积,接着对feature map进行2D卷积。这个过程可以理解为:3D卷积聚合了时空两个维度的信息,之后如果像是3D CNN那样继续叠加3D卷积层的话,会极大增加计算复杂度,因此退而求其次,使用2D卷积继续提升feature map的abstract level,同时又不会增加太大的计算负担。


整体结构
file



结果

鲁棒性好:
file



对于一帧一帧的RGB,能最好

file



用video,不如TLE:

file



三、Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition

Shuyang Sun1,2, Zhanghui Kuang2, Lu Sheng3, Wanli Ouyang1, Wei Zhang2

欧阳万里等人的工作,很早就准备读这个文章了。

有代码:https://github.com/kevin-ssy/Optical-Flow-Guided-Feature ,caffe做的

简述

这篇文章最核心的思想是,用光流的特征来引导对RGB特征的注意和学习。Optical Flow guided Feature,OFF。

目前的双流网络Two-Stream在训练时其实还是比较麻烦,因为需要单独对视频提取光流图,然后送到网络的另一至进行训练;而且如果数据集很大的话,光流图和RGB图像合起来得有原视频数据大小的好几倍,也十分消耗硬盘空间。

实验显示,在UCF101上仅以RGB输入到OFF网络得到的acc达到93.3%,和two stream (RGB+optial flow)的acc相当,并且快15倍。

  1. Optical Flow Guided Feature的来历
    OFF是从光流的定义得到的。光流的基本假设有3个:
    (1)相邻帧之间的亮度恒定
    (2)相邻视频帧的取帧时间连续,即,相邻帧之间物体的运动比较“微小”;
    (3)保持空间一致性,即,同一子图像的像素点具有相同的运动
    根据光流的微小运动和亮度恒定的假设,我们可以得到:

file

其中I(x,y,t)表示的是t时刻的一帧图像I上位置(x,y)的像素值。

将上述假设推广到特征层,即:

file



其中f(I;w)表示的是一帧图像I的特征提取function,w为参数。function可以是任何可微函数,在本文中我们使用的是CNN。根据光流的定义,上式中令p=(x,y,t),得到(3):

等式左右两边同时除以ΔtΔt,得到(4):

file

这里的vx, vy相当于在feature点p上的二维速度矢量。


从上式中我们看到光流和feature flow成正交关系的,OFF将空间时间的信息编码成和特征光流(vx, vy)正交且互补的向量。

file



网络
由三个子网络组成,用于不同目的:: feature generation sub-network, OFF sub-network and classification sub-network。feature generation sub-network 使用常见的CNN结构生成基本特征。 在OFF sub-network 中,使用的是上一层的特征生成子网络得到的特征,以及然后堆叠几个残余块以获得更精细的特征。 前两个子网的特征由最后的分类子网使用用于获得动作识别结果。 如图3所示。 整个网络有3个OFF单位不同的尺度。


结果

速度体现

file


两个数据集上的表现
file


四、2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning

Diogo C. Luvizon1, David Picard1,2, Hedi Tabia1 ,巴黎塞纳大学的工作。

简述

这个工作的核心思想就是把姿态估计和人体识别联合起来做,会比分阶段来做好。

动作识别和人体姿势估计密切相关,但这两个问题通常作为文献中的不同任务来处理。

这项工作就提出了一个多任务框架,用于从静止图像和视频序列的人类动作识别中联合进行2D和3D姿态估计。

实验表明,可以使用单一架构以有效的方式解决这两个问题,并且仍然可以实现最先进的结果。


此外,他们证明从端到端的优化导致比分离学习更高的准确性。验证了四个数据集(MPII,Human3.6M,PennAction和NTU)。

姿态估计的目标函数:

file
用的是热图的方式来估计:

file



整体的时序表征没有用到LSTM,而是CNN,结果也不错。
file


他们进行了大量实验在四个基准数据集上,结果很不错,这里主要看看NTU的表现:

file


不同modality之间的比较:

file



五、COMPRESSED VIDEO ACTION RECOGNITION

CHAO-YUAN WU1,5 MANZIL ZAHEER2,5∗ HEXIANG HU3,5∗ R. MANMATHA4, ALEXANDER J. SMOLA5
PHILIPP KRAHENBUHL1 ,德州奥斯丁大学,CMU 大学以及亚马逊的合作工作。

Github 代码 (Pytorch):https://github.com/chaoyuaw/pytorch-coviar

摘要:事实证明,训练强大的深度视频表示比学习深度图像表示更具挑战性。 这部分是由于原始视频流的巨大规模和高时间冗余; 真实有趣的信号经常被无用的数据淹没。 由于通过视频压缩(使用H.264,HEVC等)可以将多余信息减少多达两个数量级,我们建议直接在压缩视频上训练深度网络。 这种表示具有更高的信息密度,我们发现训练更容易。 此外,压缩视频中的信号提供免费的,尽管是噪声的运动信息。 我们提出了有效使用它们的新技术。 我们的方法比Res3D快4.6倍,比ResNet-152快2.7倍。 关于动作识别的任务,我们的方法优于UCF-101,HMDB-51和Charades数据集上的所有其他方法
一句话来说就是,压缩了的视频其实对很有用,他们改善了现有的压缩算法用在action上。

主要考虑两个重要的因素:
(1)冗余信息太多.视频的信息密度非常低。例如一个长度为1小时的720p视频可以通过压缩技术从222G压缩到1G;换句话说,视频中的大多数信息是冗余的,而真正有用的信息就很容被淹没其中,对于CNNs这样的深度网络来说,也很难从大量的冗余信息中获取有价值的信息。
(2)只有RGB 而没有很多运动信息。单从RGB图像中是很难学到时序结构。有大量的文献是通过RGB图像序列来处理视频,如2D CNNs,3D CNNs,或RNNs。这一部分后来人们发现可以通过optical flow来提升效果。

概要:
视频识别研究在深度学习中是具有挑战性的领域,因为视频中包含了巨大的信息,而重要的信息就很容易被大量的冗余信息所淹没。

同时,作者发现通过视频压缩技术(H.264, HEVC等)可以将冗余信息减少高达两个量级,这样的压缩视频拥有更高的信息密度。

为此,作者通过实验,设计了一种新颖的技术,可以直接将压缩后的视频作为深度神经网络的输入。

作者提出的这种方法要比普通的Res3D快4.6倍,比普通的ResNet-152快2.7倍;且在UCF101,HMDB-51等数据集上取得了不错的效果。

CoViAR模型与传统模型的输入差异比较:

模型设计:
为了处理上述问题,作者使用视频的压缩格式(MPEG4等)作为输入。

这种压缩技术可以很好的平衡连续相似帧:压缩数据中会保留很少的完整图像,并且会根据称为motion vector和residual error的偏移量来重构其他帧。

作者为此设计了multiple CNNs,可以直接将压缩数据中的RGB images,motion vectors 和residuals作为输入。

Multiple CNNs模型结构:

file


优点:

    1. 这种压缩技术可以降低两个数量级的视频冗余信息,这样可以使重要信息更加突出。(two orders of magnitude of superfluous information)
    1. Motion vector 可以提供单RGB图像所提供不了的motion信息。
    1. 通过视频压缩,我们可以获得视频中帧与帧之间的相关性(Residuals)。例如视频中当前的spatial view 是在前一时刻的基础上加一少部分的变化,而不是将每帧视作独立同分布。
  • 这样可以大大降低输入的dimensions。
    1. 消除了冗余信息,且避免了视频的解压缩(视频通常以压缩形式存储),让模型的效率得到提升。



视频压缩技术:
目前大部分的视频压缩算法(MPEG-4,H.264,HEVC等)是基于连续帧具有高度相似的特征。

这样可以只存储一帧和与其他帧的差异值,就可以根据该帧和对应差异值来得到其他帧。

当前大部分的编码器将视频分为I-frames (intra-coded frames), P-frames (predictive frames) 和 zero or B-frames (bi-directional frames)

I-frames是正规图像;P-frames根据前一帧,只编码变化部分,变化的这一部分可以是为 motion vector;

若计算t时刻的图像,只有t-1时刻的图像I,和t时刻的P还是不够的,它们组成的图像与t时刻的真实图像还是有误差存在的,这个误差就是residuals;

B-frames可是视为特殊的P-frames,motion vector of B-frames computed by bi-directionally。

在本论文中,作者主要用到了视频压缩数据中I-frames和P-frames
file

file
file


六、A CLOSER LOOK AT SPATIOTEMPORAL CONVOLUTIONS FOR ACTION RECOGNITION

DU TRAN1, HENG WANG1, LORENZO TORRESANI1,2, JAMIE RAY1, YANN LECUN1, MANOHAR PALURI1
1FACEBOOK RESEARCH
2DARTMOUTH COLLEGE

主要讨论了时空卷积的几种网络结构,在Action Recognition 的几个标准数据集上也取得了媲美最好方法的效果。作者是FAIR的工作人员,其中包括Du Tran(C3D)作者,Heng Wang(iDT)作者和Yann LecCun等。

在本文中,我们讨论了视频分析的几种形式的时空卷积,并研究它们对动作识别的影响。 我们的动机源于观察到应用于视频的各个帧的2D CNN在动作识别中仍然是稳固的表演者。 在这项工作中,我们在残差学习的框架内凭经验证明了3D CNN相对于2D CNN的准确性优势。 此外,我们表明,将3D卷积滤波器分解为单独的空间和时间分量可以显着提高准确度。 我们的实证研究导致设计了一个新的时空卷积块“R(2 + 1)D”,它产生的CNN可以达到与Sports-1M,Kinetics,UCF101和HMDB51上最先进技术相当或更优的结果。

和上文微软做的MiCT有异曲同工之妙。

几种网络的对比
file

网络结构如图Figure 1所示,具体每种网络陈述如下。

R2D: 整个CLIP上的2D卷积网络
R代表ResNet, 即残差网络。 R2D将L帧,宽高分别为W,H的一个视频clip当成3LxWxH的3D tensor输入网络,得到的还是3D的tensor。虽然是3D tensor,实际的卷积是2D卷积,因此时间信息是全部丢失了的。

F-R2D: 帧层面的2D卷积网络
跟R2D不同,f-R2D中没有将整个clip的L帧当作不同的channel,而是每个frame单独的作用卷积 (原文: The same filters are applied to all L frames)。 和R2D一样,这种方法也没有保留时间维度的信息。但是所有的帧都公用一套filter

R3D: 3D的RESNET
这个就是标准的3D ResNet结构,即将输入看作Ni L W * H 的4D tensor, 卷积核也是4D的。时间维度是有卷积的,因此时序信息能够保留下来。

MCX和RMCX: 混合2D和3D卷积的结构
有一种观点认为卷积网络较低层对motion的建模比较好,而高层由于特征已经很抽象了,motion和时序信息建模是不需要的,因此作者提出了MCx网络,即将第x以及后面的3D卷积group换为2D的卷积group,而R3D总共有5个卷积group(具体参数见Table 1),因此像MC4表示将group 4和group 5中的卷积和都换为2D卷积,而前面的group 1-3则保留为3D卷积。 注意此时MC1等效于f-R2D,即所有的层都是2D卷积。
file


同时还有一种假设认为高层的信息需要用3D卷积来建模,而底层的信息通过2D卷积就可以获取,因此作者提出了rMCx结构,前面的r代表reverse,即反向的意思。rMCx表示前面的5-x层为2D卷积,后面的x层为3D卷积。

R(2+1)D: 拆分3D卷积为2D卷积+1D卷积
在这个模型中第i层的Ni个尺寸为file的3D卷积核被替代为一个(2+1)D block,包含Mi个尺寸为file的2D卷积核和Ni个尺寸为file的1D(temporal维度的)卷积核,也就是说先用Mi个2D卷积核用输入数据生成channel数为Mi的tensor,之后再用temporal维度上的卷积将channel数变为Ni,也即是第i层输出channel数,这里超参数Mi是连接时间和空间卷积的intermediate subspace的维度(也就是channel数),这个参数的数量由下式确定

file

使用这个式子是想让R(2+1)D block的参数数量大致和完整的3D卷积block参数数量相等。


本文的实验部分就是对这些网络结构进行了试验,实验的结果是R(2+1)D网络在数据集Sports-1M、Kinetics、UCF101和HMDB51上达到或者是超越了state-of-the-art的水准,除此之外,实验结果还表明,在本文所用的数据集上,本文所使用的3D模型比2D模型效果要好,作者借此说明motion modeling的重要性,但是我觉得,在特定的数据集上,基于特定的网络结构,对比3D和2D卷积,而且只能从实验结果来分析,其实不一定能说明太多问题,没准不在resnet的框架下,或者换个数据集,整个实验结果就会改变。

file


这种从3D到(2+1)D的拆分有下面两个好处:

  • 增加了非线性的层数,因为从图2可以看到,原先的1个卷积变成2个卷积,而2个卷积之间多了非线性层(通过ReLU来得到), 因此总体的非线性层增加了。 用同样的参数来得到增加非线性的目的。
  • 使得网络优化更容易,这个可以参考Figure 4中的结果,可以看到R(2+1)D的训练错误率比R3D更低,说明网络更易于训练。

file

另外作者还和P3D进行了比较,因为两者结构确实比较类似。

  1. 实验设置
    作者在视频动作识别的中型和大型数据集上都做了实验,包括HMDB51, UCF101, Sport-1M 和 Kinetics这几个数据集。

    由于前面讨论的都是残差网络,因此实验中的网络都采用了残差网络。对R3D网络,作者采取了2种结构,包括18层的和34层的,图片输入采用了8帧的clip,图像大小为112×112。在3D网络的基础上,进行修改来得到R2D, MCx和rMCx,R(2+1)D等结构。 需要注意的是,由于不同网络结构时间维度的卷积和stride操作和个数不同,因此输出的feature map的时间维度是不一致的,为了方便统一比较,作者在卷积层最后的feature map后跟了一个时间空间的average pooling,然后晋国一个维度为K的fc层,$K$为数据集对应的类别,如对UCF101数据集,$K$=101。

    视频帧数据首先被缩放到128×171,然后通过随机crop112x112的区域得到clip。训练时还应用了时域上的抖动。每个卷积层后面还使用到了BN。训练是batch size设置为32个clip,初始学习率设置为0.01,然后每过10个周期下降为原来的1/10,总共训练45个周期。video-level的准确率是在clip-level的准确率上得到的,即随机在视频中选择10个clip,然后对每个clip做center crop得到最后的clip,将这10个clip单独训练,结果进行一个平均,即为video-level的准确率。实验中采用caffe2在GPU cluster进行训练。

  2. 实验分析
    不同网络结构性能分析
    file


    由于这部分实验比较的是不同网络结构的性能,因此作者只在Kinetics上用18层的ResNet进行了实验,具体结果见Table 2。这里主要的结论有下面几点:
  • 纯2D网络(包括R2D和f-R2D)比含3D的网络(包括R3D, MCx,rMCx, R(2+1)D)性能要差
  • R(2+1)D性能最好
  • MCx性能优于rMCr,因此说明在网络底层的3D卷积层更有用,而后面用2D卷积更合理。



不同clip长度分析
file

作者采用了8,16,24,32,40和48帧的clip进行实验,对clip-level的结果和video-level的结果进行分析,得到的准确率如Figure 5所示。可以看到,clip-level的准确率随着clip的长度增长在持续上升,而video-level的准确率则在24帧的时候达到最高,后面反倒有所下降,作者分析随着clip长度的增加,不同clip之间的相关性增加(甚至可能会产生重叠),所以video-level的准确率增益越来越小。 为了分析video-level准确率下降的原因,作者又做了两个实验:

  • 采用8帧的clip训练网络,然后在32帧的的clip上测试,发现结果相比用8帧的clip做测试,clip-level的准确率下降2.6%
  • 在8帧的clip上训练的网络的基础上,采用32帧的clip进行fine tune,得到的clip-level的准确率与32帧从头训练的结果相差不多(56.8% vs 58.5%),而比8帧的clip的clip-level结果高4.4%。因此用长的clip结果更高说明学到了long-term的时间域上的信息


不同图片分辨率的分析
作者采用了224×224的输入训练网路,发现和112×112的输入结果只有微小的差距。

和现有方法在4个动作识别数据集上的性能分析
为了和目前最好的方法进行PK,作者采用了34层的ResNet网络,结构采用R(2+1)D。在Sports-1M上,取得了目前最好的性能,而在Kinetics上,RGB单路性能比I3D高4.5%,而RGB和光流融合后性能比I3D的融合结果稍微差些。在UCF101和HMDB51上,使用Sports-1M和Kinetics上预训练的模型,fine tune后性能有较大提升。

分析
今年做网络结构优化的工作很多,可能是I3D网络讨论引起的新的风潮。我们当时觉得I3D在UCF101和HMDB51上做这么高,需要换数据集了,因此看了看Charades数据集,但是好像今年做Charades数据集的工作还是比较少。接下来还是得在Kinetics上做了,但是在国内网络情况下,数据下载还是挺捉急的。

总体来说论文较多篇幅介绍了各种不同的网络,最后实验证明了MCx比rMCx好,但是其中的原理没怎么分析,而且最后采用了R(2+1)D,而且其效果最好,因此MCx实际没有使用的价值了。根据本文的结论,以后应该采用R(2+1)D的结构,能达到最好的性能。



七、TEMPORAL DEFORMABLE RESIDUAL NETWORKS FOR ACTION SEGMENTATION IN VIDEOS

PENG LEI AND SINISA TODOROVIC
OREGON STATE UNIVERSITY

简述
本文是关于视频中人类行为的时间分割。我们引入了一种新的模型 – 时间可变形残差网络(TDRN) – 旨在分析多个时间尺度的视频间隔,以标记视频帧。我们的TDRN计算两个并行时间流:i)以完整时间分辨率分析视频信息的剩余流,以及ii)以不同比例捕获远程视频信息的池/解组流。

前者促进局部的精细尺度动作分割,后者使用多尺度上下文来提高帧分类的准确性。这两个流由具有可变形卷积的一组时间残余模块计算,并且在完整视频分辨率下由时间残差融合。我们对50 Salads, Georgia Tech Egocentric Activities,和JHU-ISI手势和技能评估工作集的评估表明,TDRN在 frame-wise segmentation accuracy, segmental edit score和F1 score方面优于现有技术水平。

file


TDRN 的主要思想就是,用一个残差网络来做frame level的action recognition,然后用多个可以在frame尺度上形变的TCN 来实现high level的切割,pooling可以用来提取high level的特征和appearance。

file

对比了一下类似的三个网络的区别。自编码器,U网络,和残差网络。但是都没有用到形变。

file

结构如上图所示,思路并不复杂,但是工程量不小。

file


在三个数据集的表现结果如下:

file

file
file
可以发现,BiLSTM真的不怎么样,STCNN和TCN还是最基础的。时序的残差网络会带来一个质的提升。
和第一篇文章压缩网络有点相似。


八、POTION: POSE MOTION REPRESENTATION FOR ACTION RECOGNITION

VASILEIOS CHOUTAS1,2 PHILIPPE WEINZAEPFEL2 JER´ OME REVAUD 2 CORDELIA SCHMID1
1INRIA∗
2NAVER LABS EUROPE

简述
这个工作的核心思想就是制作一个每个关节点的热图,然后形成一个轨迹。成为新的特征表示。

大多数最先进的动作识别方法都依赖于独立处理外观和运动的双流架构。在本文中,我们声称共同考虑它们提供了丰富的行动识别信息。我们引入了一种新颖的表示,它优雅地编码了一些语义关键点的运动。我们使用人体关节作为这些关键点,并将术语定义为Pose moTion。具体来说,我们首先运行一个最先进的人体姿势估计器[4]并提取每个帧中人体关节的热图。我们通过时序聚合这些概率图来获得我们的PoTion表示。这是通过根据视频剪辑中帧的相对时间对它们进行“着色”并对它们求和来实现的。整个视频剪辑的这种固定大小的表示适合于使用浅卷积神经网络对动作进行分类。我们的实验评估表明,PoTion优于其他最先进的姿势表示[6,48]。此外,它与标准外观和运动流互补。当将PoTion与最近的双流I3D方法相结合[5]时,我们在JHMDB,HMDB和UCF101数据集上获得了最先进的性能。

file

这个和上文骨骼检测和动作识别的多任务很像。

首先在每个帧中运行目前最先进的人体姿态估计器,并为每个人体关节获取热图。这些热图对每个像素的概率进行编码以包含特定的关节。我们使用取决于视频片段帧的相对时间的颜色对这些热度图进行着色。如下图所示的为不同通道下的随时间的上色机制:

对于每个关节,我们对所有帧上的彩色热图进行求和,以获得整个视频片段的PoTion表示。如下图所示为某一关节点聚合之后的色彩图,使用了不同的聚合方式:

给定这种表示形式,我们训练一个浅层CNN架构,包含6个卷积层和一个完全连接的层来执行动作分类,CNN结构如下:
file

整个这个网络可以从头开始训练,并胜过其他姿势表示。而且,由于网络很浅并且以整个视频clip的紧凑表示为输入,因此训练例如非常快速。在一台用于HMDB的GPU上只需要4个小时,而标准的双流方法则需要几天的培训和仔细的初始化。另外,PoTion可以看做是标准外观和运动流的补充。与RGB和光学流程的I3D 结合使用时,我们在JHMDB,HMDB,UCF101上获得了最先进的性能。
file

单独使用结果很差,但是结合了I3D就能达到state of the art。


九、WHAT HAVE WE LEARNED FROM DEEP REPRESENTATIONS FOR ACTION RECOGNITION?

Christoph Feichtenhofer * , Axel Pinz, Richard P. Wildes, Andrew Zisserman
VGG发明者大牛蔡司曼指导的工作,一作是和he kaiming 搞出SlowFast Networks的人。

摘要
深度模型在计算机视觉的每个领域都有部署,因此,理解这些深度模型得到的representation到底是怎么工作的,以及这些representation到底抓去了什么信息就变得越来越重要。接着说本文的工作,本文通过可视化two-stream模型在进行动作识别任务的时候学到了什么来探索这个问题。得到的观察结果主要有以下几点,首先,cross-stream fusion使得学习的过程能够真正的学习到spatiotemporal feature,而不是仅仅分开两支,一支只获得appearance feature,一支只获得motion feature;第二点是网络得到的local representation可以非常专一,非常针对性的表示某一class的特征(class specific),也可能会更加一般一些,能够包含多个类的特征,我觉得这个意思就是,有一些local representation可以直接指明这个特征是属于某一个class的,有些可能就是缩小了范围,指明这个特征可能对应着某几个class;第三点观察结果是,通过网络结构的层级结构,feature变得越来越抽象,并且展示出越来越高的稳定性,对于数据中一些无关紧要的变化(例如不同速度的motion pattern)有着越来越高的invariance;第四点是这种可视化手段不仅能对学到的representation使用,还能对training data使用,揭示出数据的独特性,可以用来解释为什么有些时候模型不能正确的进行预测。

本文采取的是activation maximization的方式进行可视化,这个activation指的是某一个hidden layer的激活值,目的在于寻找恰当的输入,可以使得某一个感兴趣的激活值最大化。本文采取的方式示意图如下

这篇CVPR2018的文章主要解释了在动作识别中学习到的特征,得到了一些重要结论:
1.流融合可以真的学习到可区分的Spatitemporal特征
2.网络可以学习得到高区分度的表示信息
3.通过分层机制,特征变得更加抽象并且增加了对于方向的无偏性
4.可视化可以用来查看分类出错的原因
file



此外,在看这篇文章的时候,看到了一个专门通过可视化来对时空信息进行研究的网站:
http://cs231n.github.io/understanding-cnn/
做的不错,对时空信息做出了思考。

这篇文章中,把可视化常见的研究方法分为了三类。
1.Visualization for given inputs
2.Activation maximization
3.Generative Adversarial Networks(GANs)

Visualization for given inputs
1.选用大数据集,得到最大化感兴趣区域的数据集,用来做可视化。类似于前面介绍的Retrieving images that maximally activate a neuron
2.使用BP高亮隐藏单元中关键位置

file


GANS
通过生成对抗网络可视化输出
这篇文章比较大的一个创新在于第一次在行为识别中引入了可视化,之前没有其它人做过。

此外提出了一个Activation maximization 和两个正则化方法。比较大的贡献就是证明了时空融合的特征确实学习到了可区分的特征。

文中揭示了几个比较容易混淆的例子,比如playingViolin和playingCello。使得产生分类混淆的时候可以通过可视化学习到的特征来理解为何会识别错误。

十、TOWARDS UNIVERSAL REPRESENTATION FOR UNSEEN ACTION RECOGNITION

Yi Zhu1, Yang Long∗2, Yu Guan2, Shawn Newsam1, and Ling Shao3
1 University of California, Merced
2 Open Lab, School of Computing, Newcastle University, UK.
3 Inception Institute of Artificial Intelligence (IIAI), Abu Dhabi, UAE
shao ling 大牛指导的工作。

未知行动识别(UAR)的目的是在没有训练样例的情况下识别新的行动类别。 虽然以前的方法侧重于内部数据集可见/未知的集,但本文提出了一种使用大规模训练源来实现通用表示(UR)的管道,该通用表示可以推广到更真实的跨数据集UAR(CDUAR)场景。 我们首先将UAR作为广义多实例学习(GMIL)问题来解决,并使用分布内核从大型ActivityNet数据集中发现“构建块”。 基本的视觉和语义组件保留在共享空间中,以实现可以有效推广到新数据集的UR。 通过简单的语义自适应可以改善预测的UR样本,然后在测试期间可以使用UR直接识别未知动作。 在没有进一步培训的情况下,广泛的实验显示出对UCF101和HMDB51基准的显着改进。

一句话来说就是,把所有动作集中的动作看成是multiple instance来学习。
file


数学表达
用已知数据集训练, 推断的时候,再把未知的动作联系到训练的动作集上。
file


再用K mean来做聚类,每个类有H个bag。
file


再用一种全局统一的表征来表达
file

再加上一些post processing,比如优化,正交化等等。

最后的结果
和 state of the art 的比较
file

跨库的深入分析

file




总结:
这次解读的几篇文章,一个是通过压缩文件来提取有效运动信息,有两个是研究时序流的融合,进行深入探讨,一个是提出了一个新的特征表示PoTion,一个是对于新颖动作的识别的探索,一些感想:

  • 时序流的拓荒时代已经过去,现在已经开始进入对各种时序信息,各种流之间关系的细致探索,比如他们之间的融合,以及作用原理。
  • 找新的方向,比如跨库来实现动作识别的,shao ling算是带头的了。


    至此,CVPR 2018的action recognition相关文章更新完毕。下一期持续更新 AAAI 2018的相关文章,欢迎收藏阅读~

回复数量: 0
暂无回复~
您需要登陆以后才能留下评论!