ECCV2018 Action recognition 的论文解读汇总

论文速递 你找不到我 ⋅ 于 4个月前 ⋅ 908 阅读

作者:奥卢的陈皓宇
来源:https://zhuanlan.zhihu.com/p/56061717

本文作者把ECCV、CVPR、AAAI 2018年的action recognition的论文做了汇总并一一解读,以下是ECCV2018论文的解读,CVPR、AAAI 解读仍在更新中,完整汇总请关注:2018年 Action recognition 的论文解读汇总(ECCV CVPR AAAI)


ECCV 2018 Action recognition论文列表



以下是论文解读部分。

1、Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning

Chenyang Si, Ya Jing, Wei Wang, Liang Wang, and Tieniu Tan(中科院的工作)

简述
大多数之前骨架序列的表征缺少空间结构信息和详细的时间动态特征。

这篇文章提出了一种基于空间推理和时间栈学习 a novel model with spatial reasoning and temporal stack learning(SR-TSL)的基于骨架的动作识别的新模型,它由空间推理网络(SRN)和时间栈学习网络(TSLN)组成。

SRN可以通过残差图神经网络捕获每个帧内的高级空间结构信息,而TSLN可以通过多个跳过剪辑LSTM的组合来模拟骨架序列的详细时间动态。

在训练中,提出新的clip-based incremental loss。在SYSU 3D数据集和NTU RGB + D数据集验证了。


抛出的两个问题

首先,人类行为是协调完成的。例如,走路需要腿走路,也需要摆动手臂以协调身体平衡。如果直接将所有身体关节喂到神经网络,抓住高级特征是很难的是。

其次,这些方法利用RNN直接模拟骨架序列的整体时间动态。最终RNN的隐藏表示用于识别动作。对于长期序列,最后隐藏的表示不能完全包含序列的详细时间动态。


方法的描述

一,提出了一个空间推理网络来捕捉每个帧内的高级空间结构特征。身体可以分解成不同的部分,例如两条胳膊,两条腿和一条树干。每个部分的连接的连接被转换成具有线性层的单独空间特征。身体部位的这些个体空间特征被馈送到残差图神经网络(RGNN)以捕获不同身体部位之间的高级结构特征,其中每个节点对应于身体部位。


二,在时序上,提出了一个temporal stack learning network(TSLN)去建模序列的detailed temporal dynamics。

其由三个skip clip 的LSTM组成

经过空间推理网络后,可以得到了一个特征序列。在时序空间上,这里的时序堆叠学习网络,首先是将长时序列划分成多个连续的短时clip,每个clip通过LSTM进行时序建模,不同clip之间的LSTM是参数共享的。每个短时序clip的最后一个隐含层的状态最为这个clip的表示,然后将该clip以及之前的所有clip的表示进行累加,列所包含的所有详细的动态特征。为了更好地保持表示从开始到该clip的为止的长时序序clip之间的时序关系 ,我们将这个详细的动态特征去初始化下一个clip的LSTM。
file

三,为了进一步学习详细的时序特征,又提出了一个Clip-based Incremental Loss去优化网络。

file


结果

NTU

file

SYSU 3D HOI set
file

不同step的影响

file




2、Dividing and Aggregating Network for Multi-view Action Recognition

Dongang Wang1, Wanli Ouyang1,2 , Wen Li3, and Dong Xu1(欧阳万里组的工作)

简述

本文提出了一种新的划分和聚合用于多视图动作识别的网络(DA-Net)。在DA-Net中,学习了较低层的所有视角共享的表示,而在较高层学习了每个视角的特定表示。然后,基于每个视角的视角特定表示和基于较低层的共享表示的视角分类器来训练特定于视角的动作分类器。视图分类器用于预测每个视频属于每个视角的可能性。最后,当融合视角特定动作分类器的预测分数时,来自多个视角的预测视角概率被用作权重。还提出了一种基于条件随机场(CRF)公式的新方法,以在来自不同分支的视角特定表示之间传递消息以相互帮助。


方法的描述
file

最后的结果,他在NTU库上跑的结果。

file



3、Deep Bilinear Learning for RGB-D Action Recognition

Jian-Fang Hu, Wei-Shi Zheng, Jiahui Pan, Jianhuang Lai, and Jianguo Zhang(中山大学 Jian-Fang Hu 的工作)

简述

这篇文章提出了一个RGB-D动作识别的多模态和时序信息交互的学习方法。 为了共同学习时变信息和多模态特征,他们提出了一种新颖的深层双线性学习框架。

在该框架中,我们提出了由两个线性池化层 two linear pooling layers组成的双线性模块 bilinear blocks,用于分别从模态和时间方向池化输入的特征。

为了捕获丰富的模态 - 时间信息并促进深层双线性学习,他们给网络的特征进行了创新,提出了一种称为模态 - 时间立方体的新动作特征,用于从全面的角度表征RGB-D动作。


具体骨骼的特征

把 一个动作分成D 个segment, 每个segment的开始d个小segment组成一组Action history sequence 共有D个AHS。再用RNN 来提skeleton特征,用了这个工作,也是这个人的

Hu, J.F., Zheng, W.S., Lai, J., Zhang, J.: Jointly learning heterogeneous features for rgb-d activity recognition. IEEE transactions on pattern analysis and machine intelligence

code: http://isee.sysu.edu.cn/~hujianfang/ProjectJOULE.html


RGB 的特征

GIST frames , 用基于骨骼节点附近的RGB patch来平铺成一个新的长段轨迹,所以这篇工作也属于基于轨迹的动作识别家族的文章。

基于轨迹的动作识别的汇总:Wang, H., Klaser, A., Schmid, C., Liu, C.L.: Dense trajectories and motion boundary descriptors for action recognition. International Journal of Computer Vision

再针对这个训练了两个,K-channel 的CNN descriptors,K 是depth 貌似是16。为了训练K channel 的CNN, 选了K 个frame的 GIST ,选择的方法是 max(1, 1 + (u − 1)ls/ K + δ),就是在后面加了一个随机扰动。用了两组depth, K = 1 是为了学习静态的外观,K = 16 学习动态的外观。


最后得到的特征

包含五个具有时序信息的特征cube,其中两个来自RGB AHS(1通道CNN和16通道CNN),两个来自深度AHS((1通道CNN和16通道CNN),以及一个来自骨架AHS(RNN),其中每一个都表征了特定模态下不同AHS长度的动作。它们的组合可以形成一个综合的动作表示。然后,到此为止,特征已经做完,重点来了。

先开始我还没看懂他说的第三维就是类别什么意思,后来发现,他融合的不是特征,而是上一层神经网络给出的probability。

所以第三维是类别的数量。

file


深度双线性学习

由于不同模块直接融合不好,如上图所示,他们提出了新的融合方法。

在数学中,双线性映射是组合两个向量空间的元素以产生第三向量空间的元素的函数。

深双线性结构。给定一组M×T×C大小的模态 - 时间立方体,我们的目标是学习底层映射f,其将所有立方体元素合并为鲁棒的表征。换句话说,目标是找到一个映射,将输入多维数据集的模态维度和时间维度汇总到一维。在本文中,我们将映射f定义为双线性块,Relu和softmax运算符的堆栈,即f =g1◦g2◦... gn ...(•),其中gn表示到上述操作之一或双线性区块。

深层双线性架构的形式是灵活的。本文中的实验涉及具有三个双线性块,三个Relu层和softmax层的深层架构,而更多层也是可以的。在该体系结构中,每个双线性块后面都有一个Relu层,以非线性方式映射块的输出。图5中可以找到所采用的深层体系结构的图示。

file

结果

NTU

file

SYSU 3D HOI set 他们自己的库

file

AHS的作用

file

跟其他的融合方法相比

file




4、Modality Distillation with Multiple Stream Networks for Action Recognition

简述

如何在训练阶段学习利用多模态数据的稳健表示的挑战,同时考虑在测试时的限制,例如噪声或丢失模态。本文提出了一种新的多模态视频动作识别方法,该方法是在蒸馏和特权信息的统一框架内开发的,称为广义蒸馏。特别是,虽然在训练的时候考虑从深度和RGB视频学习,但能仅在测试时依赖RGB数据。我们提出了一种新的方法来训练幻化网络,该网络通过时空表示的乘法连接,利用软标签和硬标签以及特征图之间的距离来学习提取深度特征。


方法的描述

这种学习范例,即使用额外信息训练模型时,通常被称为学习特权信息[30]或学附带信息[11]。

[30] Vapnik, V., Vashist, A.: A new learning paradigm: Learning using privileged information. Neural networks 22(5), 544–557 (2009)

[11] Hoffman, J., Gupta, S., Darrell, T.: Learning with side information through modality hallucination. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 826–834 (2016)


在这种情况下,我们引入了一种新的学习范式,如图1所示,将深度传递的信息提取到幻化网络中,这意味着在测试时“模仿”缺失的流。蒸馏[10] [1]是指任何培训程序,其中知识从先前训练的复杂模型转移到更简单的模型。我们的学习过程引入了一种新的损失函数,它受到广义精馏框架的启发[15],它正式统一了蒸馏和特权信息学习理论。


我们的模型受到了Simonyan和Zisserman [25]引入的双流网络的启发,该网络在视频动作识别任务的传统设置中取得了显着的成功[2] [5]。与以前的工作不同,我们使用多模态数据,为每种模态部署一个流(在我们的例子中为RGB和深度),并在特权信息的框架中使用它。另一个鼓舞人心的工作是[11],它提出了一个幻化网络来学习辅助信息。我们建立在这个想法的基础上,通过设计一个新的概念来扩展它通过更一般的损失函数和流间连接来学习和使用这种幻觉流的机制。


总之,本文的主要贡献如下:

  • 提出了一种能够利用的新的多模式流网络架构训练时采用多种数据模式,同时在测试时仅使用一种模式;
  • 引入了一种新的范例来学习一个幻化网络新颖的双流模型;
  • 在这种情况下,实现了一种流间连接机制改善幻化网络的学习过程,并设计了一个更广泛的损失函数,基于广义蒸馏框架;

file

最后的结果,他在NUT库上跑的结果。
file



5、Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification

这是中科院的工作。大名鼎鼎的Weiming Hu指导的工作,本文的贡献是利用了局部特征图具有的交互性质而提出的注意力机制。以及一个金字塔的特征图。特征图里面的局部特征具有高相关性,因为它们的感知域经常重叠。自我注意力机制通常使用加权和(或其他函数)使用每个局部特征的元素来获得其权重分数,这忽略了局部特征之间的相互作用。


为了解决这个问题,他们提出了一个有效的交互感知自我关注模型,它受到PCA的启发,可以学习注意力图。
此外,由于深层网络中的不同层捕获不同尺度的特征图,他们使用这些特征图构建空间金字塔,然后利用多尺度信息获得更准确的注意力分数,用于对所有局部特征进行加权。特征图的空间位置以计算注意力图。此外,空间金字塔注意力不受其输入要素图数量的限制,因此很容易扩展到时空版本。最后,模型可以嵌入到一般的CNN中,以形成用于行动分类的端到端关注网络。
在UCF101,HMDB51和Charades上实现了最先进的结果。


主要贡献:1)仿照PCA定义了新的Loss;2)利用多尺度信息;3)输入可以为任意帧数,并融合进主流CNN架构


关于PCA的讨论
PCA 可以提取全局特征主要维度的主成分信息,而这些主成分信息可以看作是提取的局部特征,最后降维后的全局特征即是关键局部特征的集合。注意机制的目的是从局部特征集合中提取关键部分,也就是 PCA 中的局部特征。不同的是注意力机制使用每个局部特征对应的加权得分来计算最终的全局特征。PCA 利用协方差矩阵来获得降维(或加权权重)的基向量,从而减少特征间的信息冗余和噪声。基于以上背景,该团队使用 PCA 来指导提出的注意力模型,并通过将 PCA 算法转换成损失设计实现。此外,由于深度网络中的不同层可以捕获不同尺度的特征图,算法使用这些特征图来构造空间金字塔,利用多尺度信息来计算每个局部通道特征更精确的注意力分数,这些权重得分用于在所有空间位置中对局部特征进行加权。


网络结构如下:

file



本论文定义了一个新的交互感知时空金字塔注意力层,以此实现输入在深度卷积神经网络中各个层的不同尺度局部特征的交互感知和时空特征融合的功能。它的架构如上图所示,算法首先定义了一个下采样函数 R, 将不同层的特征图统一到一个尺度。接着对不同尺度的特征图的局部通道特征使用注意力机制进行关键特征提取,通过使用融合函数对不同尺度的特征进行融合,并计算每个局部特征的注意力得分,用于加权特征。

file
file


在 PCA 中使用协方差矩阵计算投影向量并依此进行降维,即提取关键的局部特征,本论文将其转化损失函数的设计加入到最终的模型中:
file



再对提出的空间金字塔注意力模型进行约束,使其不同尺度层的特征图尽量关注到不同的信息,加入分类损失得出最终的损失函数:
file



论文提出的模型参数与输入特征图的数目无关,因此,自然地将其拓展到视频级端到端训练的时空网络。

file

由结构图中可以看到,金字塔的融合是直接cancatenate的。


也讨论了集中融合的方式:

file

在三个数据集上的表现:
file



6、Motion Feature Network: Fixed Motion Filter for Action Recognition

Myunggi Lee, Seungeui Lee, Sungjoon Son , Gyutae Park, and Nojun Kwak(首尔大学韩国兄弟的工作)

简述

之前将光流作为时间信息与包含空间信息的一组RGB图像组合使用的方法已经在动作识别任务中显示出极大的性能增强(个人觉得说的是双流呀, optical flow guided呀 )。 然而,它具有昂贵的计算成本并且需要双流(RGB和光流)框架。 本文提出了包含运动块的MFNet(运动特征网络(Motion Feature Network) ),该运动块使得可以在可以端到端训练的统一网络中的相邻帧之间编码时空信息。 运动块可以附加到任何现有的基于CNN的动作识别框架,只需要很少的额外成本。

在两个动作识别数据集(Jester和Something-Something)上评估了。


抛出的问题

CNN好是好,但是没有时序信息。用光流又太耗时间了。其次,很多数据集都是在对对象做分类,而不是action本身(仅仅通过一帧的场景,对象就能识别)。所以他们的点子就做了一个专门识别motion feature的network MFN,再用这个block来做RGB 的处理。


方法的描述

file

MFNet的结构如图所示。他们的工作是基于wang liming的时间片段网络(TSN),该体系结构用于从整个视频中采样的K个片段序列。

code:https://github.com/yjxiong/temporal-segment-networks


他们的网络由两个主要组成部分组成。

一个是对空间信息进行编码的外观块。这可以是图像分类任务中使用的任何体系结构。在我们的实验中,他们用的ResNet [10]作为外观块的骨干网络。

另一个组件是运动块,它对时间信息进行编码。为了对运动表示进行建模,它将来自相同层次3的相应连续帧的两个连续特征映射作为输入,然后使用一组固定运动滤波器来提取时间信息。应将每个层次结构中提取的空间和时间特征适当地传播到下一个层次结构。


为了捕获运动表示,动作识别中常用的方法之一是使用光流作为CNN的输入。 尽管在动作识别任务中它具有重要作用,但光学流程在实践中计算成本很高。 为了取代光流的作用并提取时间特征,我们提出了与光流密切相关的运动滤波器。

这个就是滤波模块。

滤波的模块和RGB的特征有两种融合方法,一是相加,二是concat。
file

最后的结果,他在两个别的库上跑的结果。

K是分割的个数。



7、Spatio-Temporal Channel Correlation Networks for Action Classification

简述
Luc Van Gool 大佬带领下做的工作。这篇文章主要是提出了一种利用时空特征中channel correlation来训练3D CNN的方式,以及用2D CNN来辅助3D CNN训练的方式。



主要贡献:
1 )针对3D卷积网络设计了Attention机制(TCB, SCB);
2)基于2D预训练网络的参数初始化方式。

STC(SPATIO-TEMPORAL CHANNEL CORRELATION)BLOCK
由两个branch组成:SCB(spatial correlation branch)和TCB(temporal correlation branch)
目的是学习在时空特征上的inter channels correlations的信息。

TCB:
X是3D卷积的输出feature-map,维度是H x W x T x C 。在这个brance对spatial和temporal进行pooling来抽取channel特征,之后进行两层FC变换。W1的维度是C/r x C, W2的维度是C x C/r, 最后用s对X进行缩放。

file

file



SCB:
与TCB类似,但是只对channel-wise的信息进行压缩。这一个branch考虑了temporal-channel信息。W1的维度是(T C)/r x (T C), W2维度是 C x (T*C)/r

file
file


最后总体的结构:

file


TRANSFER LEARNING
file

这个迁移学习是完全无监督的,从同一个视频的时间戳提取出来的两个pairs是正样本,属于不同视频的是负样本。在训练时把2D CNN的参数冻结,2D CNN的结果是对X帧进行一个pooling得到。
这里的transfer learning有几个难点,一个是底层的处理,一个是正负样本到底是怎么做的还不得而知。



结果
UCF101

file




8、Recurrent Tubelet Proposal and Recognition Networks for Action Detection

简述
微软研究院,京东,以及中科大的合作工作。Tubelet最近特别火,从这一篇物体检测的文章开始的:

TPN: Tubelet Proposal Network

TPN, short for Tubelet Proposal Network, is a deep learning framework for video object detection, originally designed for ImageNet VID dataset.
This framework mainly contains two components shown below:
file

The Tubelet Proposal Network generates hundreds of tubelet proposals based on static image box proposals, and the Encoder-decoder LSTM encodes the tubelet visual features into memory and decodes the information to classify each tubelet box proposal into different classes. More details in the paper in CVPR 2017.



这里这篇文章的Tubelet又有点不一样。



检测动作,现有方法主要为每个人提出proposal,同时考虑它们的时间背景。



检测作为一种动作本质上是一系列动作。这促使我们在之前的框架中利用局部的动作proposal
具体来说,他们提出了一种新颖的深层结构,称为Recurrent Tubelet Proposal和识别(RTPR)网络以结合时间上下文用于动作检测。

拟议的RTPR由两个相关网络组成,即,Recurrent Tubelet Proposal(RTP)网络和Recurrent Tubelet识别(RTR)网络。

RTP给出一个局部的兴趣区域,然后给出一个proposal,然后进行估算下一帧中的proposal。



RTR利用多渠道架构,其中包括每个通道,一个小管proposal被送入CNN加LSTM,以反复识别小管中的动作。

file
file

他们进行了大量实验在四个基准数据集上,并展示了优于最先进方法的卓越成果。更值得注意的是,获得了分别为98.6%,81.3%,77.9%和22.3%的mAP,涨幅分别为2.9%,4.3%,0.7%和3.9%,在对应的 UCF-Sports,J-HMDB,UCF-101和AVA数据集上。



9、 PM-GANs: Discriminative Representation Learning for Action Recognition Using Partial-modalities

简述

重庆邮电大学的工作。作者认为不同模态的数据应有互补的信息(如RGB+红外),本文提出的PM-GAN能够通过部分模态的数据来学习全模态的表示,从而提升动作识别任务的性能。完整的表示是通过生成的表示代替丢失的数据通道来实现的。除此之外提供了一个新公开的行动识别红外数据集。

file

就是拿红外的特征对RGB的特征用GAN做了一个增强。和上述的模块蒸馏的文章非常的像:Modality Distillation with Multiple Stream Networks for Action Recognition



10、 RESOUND: Towards Action Recognition without Representation Bias

我非常喜欢的一个学校的工作。在Github上发现有人已经写了详细的解读:https://github.com/xiadingZ/Paper_reading/blob/master/RESOUND


简述

这篇文章主要是提出了一种程序RESOUND来量化和最小化表示偏差,用来解决动作识别数据集偏差的问题。
研究了两种版本的RESOUND。提出了一种显式RESOUND过程,通过对现有数据集进行采样来组合新数据集。



隐式的RESOUND程序用于指导创建一个新的数据集Diving48,该数据集包含超过18,000个竞争性潜水行动的视频剪辑,涵盖48个细粒度的潜水课程。



许多数据集中用静态信息就能取得很好的效果,这就是有了静态偏差。如下是三种静态偏差:

  • object bias:例如“play piano”在ActivitNet与UCF101中是唯一一个类别涉及到钢琴的,那么识别出钢琴就能进行动作分类。
  • scene bias:basketball dunk和soccer juggling有不同的时间特征,然而只用通过背景就行进行分类。
  • person bias:brushing hair有很多脸部特写,military marching通常包含一大群穿着军事制服的人



总体来说有两类bias

  • Dataset Bias与算法相关,在A数据集上效果好但是在B上差,可以通过评价算法的bias和var得出
  • Representation Bias与数据集相关。例如一个数据集是抛硬币,如果硬币重量不均匀,那么数据集就是有偏的



定义:
Representation: a mathematical characterization of some property of the visual work。例如光流就是一种representation。
下面是representation $\phi$在数据集上的性能的定义,$\gamma_\phi$表示使用这种representation的一种算法。

file


下面是chance-level-performance,例如分类任务中的随机分类

file


数据集对representation的bias以及class level的bias则表示为
file

file


那么目的就是设计一个对representation family Ryou最小的偏差的数据集
file
file


有两种实现RESOUND的方式

  • 以一个数据集D为起点,添加或删除来进行优化
  • 找到对representation family R最无偏的类别来设计。例如不能仅仅通过判断背景就能把object进行分类。




至此,ECCV 2018的action recognition相关文章更新完毕。下一期持续更新 CVPR 2018的相关文章,欢迎收藏阅读~

成为第一个点赞的人吧 :bowtie:
回复数量: 0
暂无回复~
您需要登陆以后才能留下评论!