编译 | CV君 报道 | OpenCV中文网
人体动作检测与识别篇
本文总结WACV 2021 中人体动作检测与识别的相关论文,共计 7 篇。
如有遗漏,欢迎补充。
下载包含这些论文的 WACV 2021 所有论文:
动作检测
We Don't Need Thousand Proposals: Single Shot Actor-Action Detection in Videos
SSA2D 是一种简单且有效的用于视频单样本 Actor-Action 检测方法。作者称在视频中的 actor-action 检测可以不依赖 region proposal network(RPN区域提案网络)来进行,而 RPN 需要上千个提案,因此对于密集的视频场景是有效的。
作者在 A2D 和 VidOR 数据集上对所提出的方法进行了评估,与之前的工作相比,该方法取得了相当(有时甚至更好)的性能。
所提出的模型可以有效地进行训练(快2倍),与之前表现最好的工作相比,可以用较少的网络参数进行快速推理(输入RGB快11倍,输入RGB+光流快6倍)。
作者 | Aayush J Rana, Yogesh S Rawat
单位 | 中佛罗里达大学
论文 | https://arxiv.org/abs/2011.10927
代码 | https://github.com/aayushjr/ssa2d
SALAD: Self-Assessment Learning for Action Detection
提出一个新的动作检测方法:Self-Assessment Learning for Action Detection(SALAD)。在两个动作检测基准上的表现都优于最先进的方法。在THUMOS14 数据集上,tIoU\@0.5 的 mAP 从 42.8\% 提高到 44.6/\%,在ActivityNet1.3 数据集上从 50.4\% 提高到 51.7/\%。对于较低的 tIoU值,在两个数据集上实现了更显著的改进。
作者 | Guillaume Vaudaux-Ruth, Adrien Chan-Hon-Tong, Catherine Achard
单位 | ONERA;巴黎萨克雷大学;索邦大学
论文 | https://arxiv.org/abs/2011.06958
PDAN: Pyramid Dilated Attention Network for Action Detection
本次研究解决了密集标注视频流中复杂时间关系的建模问题。作者提出 Dilated Attention Layer(DAL)来学习更好的跨时间的特征表示。
然后,引入一个金字塔扩张注意力网络(PDAN),可以通过在不同的时间层次上应用 DAL 来有效学习动作实例之间的依赖关系。在 3 个密集标注的多标签数据集( MultiTHUMOS、Charades 和 TSU)上对所提出方法进行了评估。
实验结果表明,PDAN 在所有数据集上的表现都优于现有的方法。
作者 | Rui Dai, Srijan Das, Luca Minciullo, Lorenzo Garattoni, Gianpiero Francesca, Francois Bremond
单位 | Inria;Universite C´ ote d’Azur;丰田汽车欧洲公司
行为识别
A Variational Information Bottleneck Based Method to Compress Sequential Networks for Human Action Recognition
由于深度模型需要相当大的计算复杂性和存储量,在用于视频中的人类动作识别(HAR)时,不适合部署在边缘设备上。在本次工作中,作者解决了上述问题,并提出一种方法来有效压缩用于 HAR的循环神经网络(RNNs),如门控循环单元(GRU)和长短期记忆单元(LSTMs)。VIB 框架来专门压缩基于 CNNLSTM 的架构。
所提出的技术减少了隐藏表征中的模型参数和内存占用,验证精度几乎没有降低,同时推理速度提高了几倍。在 UCF11、HMDB51 和 UCF101 三个行为识别数据集上对所提出方法进行了评估,验证表明,UCF11 行为识别任务上,精度相当的情况下,比最接近竞争对手的方法实现了 70 多倍的压缩。
作者 | Ayush Srivastava, Oshin Dutta, Prathosh AP, Sumeet Agarwal, Jigyasa Gupta
单位 | 印度理工学院;Samsung R\&D Institute India
论文 | https://arxiv.org/abs/2010.01343
JOLO-GCN: Mining Joint-Centered Light-Weight Information for Skeleton-Based Action Recognition
目前流行的基于骨架的人体动作识别方法的一个共同缺点是,仅靠稀疏的骨架信息不足以完全描述人体运动的特征。这种局限性使得现有的几种方法无法正确地对只表现出细微运动差异的动作类别进行分类。
作者提出一个全新框架,在一个双流图卷积网络中联合采用 human pose skeleton 和 joint-centered light-weight information :JOLO-GCN。具体来说,使用联合对准的光流贴片(JFP)来捕捉每个关节周围的局部细微运动作为枢纽关节中心的视觉信息。与纯粹的基于骨架的基线相比,这种混合方案有效地提升了性能,同时保持了较低的计算和内存开销。
在 NTU RGB+D, NTU RGB+D 120, Kinetics-Skeleton 数据集上所提出方法进行了评估,结果表明,所提出方法比最先进的基于骨架的方法获得了明显的精度改进。
作者 | Jinmiao Cai, Nianjuan Jiang, Xiaoguang Han, Kui Jia, Jiangbo Lu
单位 | 思谋科技;华南理工大学; 香港中文大学(深圳)
论文 | https://arxiv.org/abs/2011.07787
Distillation Multiple Choice Learning for Multimodal Action Recognition
解决了使用多模态数据学习 specialist networks 集合的问题,同时考虑了在测试时可能缺少模态的现实和挑战性场景。目标是利用多模态的互补信息,使集合和每个网络受益。
引入一种针对多模态数据的新型蒸馏多选择学习框架,不同的模态网络在合作环境下从头开始学习,相互加强。由于有其他模态的引导,使用所提出方法学习的模态网络比单独训练的模态网络实现了明显更高的精度。
在三个视频动作识别基准数据集上评估这种方法。与其他在测试时使用缺失模态的方法相比,获得了最先进的结果。
作者 | Nuno C. Garcia, Sarah Adel Bargal, Vitaly Ablavsky, Pietro Morerio, Vittorio Murino, Stan Sclaroff
单位 | 意大利理工学院;Universita di Genova等
论文 | https://arxiv.org/abs/1912.10982
代码 | https://github.com/ncgarcia/DMCL
FlowCaps: Optical Flow Estimation with Capsule Networks For Action Recognition
FlowCaps:用于动作识别的胶囊网络光流估计
作者 | Vinoj Jayasundara, Debaditya Roy, Basura Fernando
单位 | A*STAR
论文 | https://arxiv.org/abs/2011.03958
图像与视频检索篇
本篇总结检索相关论文,包含视觉搜索、图像视频检索、跨域检索等。值得关注的是由 Andrés Mafla 为一作的两篇检索类文章都入选了该会议,一篇是场景文本感知跨模态检索(StacMR)任务;一篇是融合多模态推理模块,结合文字和视觉特征对场景文本进行图像分类与检索,都取得了不错的成绩。
共计 9 篇。如有遗漏,欢迎补充。
视觉搜索
Structured Visual Search via Composition-aware Learning
引入 composition-aware 学习概念,用于结构化图像搜索。该方法由三部分组成:Composition-aware transformation:计算输入和输出空间的变换Composition-aware loss function:根据输入输出变换的差异更新网络参数Composition-equivariant CNN:用于学习转换的骨干并证明所提出方法在特征空间和数据空间都是有效的。在 MS-COCO 和 HICO-DET 两个大规模数据集上对所提出方法与具有竞争力技术相比,有相当大的改进。
作者 | Mert Kilickaya, Arnold W.M. Smeulders
单位 | 阿姆斯特丹大学
论文 | https://arxiv.org/abs/2010.14438
图像检索
Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image Classification and Retrieval
本次研究中所提出的一种新架构,通过考虑图像的文本和视觉特征,在两个数据集中大大超越了以往最先进的结果,在细粒度分类上超过 5\%,在图像检索上超过 10\%。
设计一个完全的端到端可训练 pipeline,融合了多模态推理模块,结合文字和视觉特征,且不依赖于集合模型或预先计算的特征。
作者在论文中提供了详尽的实验,其中有对模型架构中不同模块的有效性的分析,以及场景文本对图像理解的综合模型的重要性的分析。
作者 | Andres Mafla, Sounak Dey, Ali Furkan Biten, Lluis Gomez, Dimosthenis Karatzas
单位 | cvc,uab
论文 | https://arxiv.org/abs/2009.09809
代码 | https://github.com/AndresPMD/GCN\_classification
Keypoint-Aligned Embeddings for Image Retrieval and Re-Identification
由于形状的变形以及不同相机的视角,使得现有的人、车辆、动物重识别方法存在很大的类内差异。作者在本次研究中,提出关键点对齐嵌入模型(KAE-Net),来学习姿势不变的图像嵌入。并证明可以通过重建姿势信息的辅助任务来学习姿势不变的嵌入。
KAE-Net 结构紧凑、通用,概念简单,在 CUB-200-2011、Cars196 和 VeRi-776 的基准数据集上实现了检索和重识别任务的最先进性能。
作者 | Olga Moskvyak, Frederic Maire, Feras Dayoub, Mahsa Baktashmotlagh
单位 | 昆士兰科技大学;昆士兰大学
论文 | https://arxiv.org/abs/2008.11368
Compositional Learning of Image-Text Query for Image Retrieval
本次工作研究基于多模态(imagetext)查询的数据库图像检索问题。所提出的 ComposeAE 模型以在 Fashion200k 上的 30.12\% 和 MIT-States 上的 11.13\% 的 Recall\@10 指标的巨大优势优于 SOTA 方法 TIRG。对 SOTA 方法 TIRG进行了增强,以确保公平比较,并找出其局限性。
作者 | Muhammad Umer Anwaar, Egor Labintcev, Martin Kleinsteuber
单位 | 慕尼黑工业大学;Mercateo AG
论文 | https://arxiv.org/abs/2006.11149
代码 | https://anonymous.4open.science/r/d1babc3c-0e72-448a-8594-b618bae876dc/
前景图像检索
Fine-grained Foreground Retrieval via Teacher-Student Learning
前景图像检索是计算机视觉领域的一项具有挑战性的人物。它是给定一个具有边界框表示目标位置的背景场景图像,然后从给定类别中检索一组与背景在语义上兼容的前景目标图像。
作者在本次研究中将前景检索制定为一个自监督的域适应任务,其中源域由前景图像组成,目标域为背景图像。具体来说,将预训练好的目标特征提取网络作为 teachers,训练一个 student 网络从背景图像中推理出兼容的前景特征。因此,前景和背景被有效地映射到一个共同的特征空间中,从而能够检索出该空间中最接近目标背景的前景。
不同目前最先进方法的是,所提出方法无需进行实例分割,因此可应用于不同的前景类别和背景场景类型,更接近实际应用的要求。
作者 | Zongze Wu, Dani Lischinski, Eli Shechtman
单位 | 伯来大学;Adobe Research
跨域检索
StacMR: Scene-Text Aware Cross-Modal Retrieval
本文介绍了场景文本感知跨模态检索(StacMR)任务,并将场景文本作为跨模态检索的第三种模式进行研究。
作者 | Andrés Mafla, Rafael Sampaio de Rezende, Lluís Gómez, Diane Larlus, Dimosthenis Karatzas
单位 | 西班牙巴塞罗那自治大学;NAVER LABS Europe
论文 | https://arxiv.org/abs/2012.04329
代码 | https://github.com/AndresPMD/StacMR
主页 | https://europe.naverlabs.com/research/computer-vision/stacmr-scene-text-aware-cross-modal-retrieval/
Unsupervised Meta-Domain Adaptation for Fashion Retrieval
作者 | Vivek Sharma, Naila Murray, Diane Larlus, Saquib Sarfraz, Rainer Stiefelhagen, Gabriela Csurka
单位 | KIT;NAVER LABS Europe;麻省理工学院;哈佛医学院
视频片段检索
LoGAN: Latent Graph Co-Attention Network for Weakly-Supervised Video Moment Retrieval
提出一种全新的 latent co-attention 模型,可以显著改善视频与自然语言之间的 latent alignment,通过多级 coattention 机制,利用视频语言对的互补性,学习上下文的视觉语义表征。还介绍一种新的 positional encodings 在视频特征中的应用,以学习时空感知的多模态表征。实验也证明该模型在性能上的大幅提升并不是因为简单地增加了参数数量,而是因为使用了这些 positional encodings。
所提出方法为未来在 latent coattention 模型上推理视频元素和自然语言模式之间直接关系的工作提供了有利参考。在 DiDeMo 和 Charades-St 两个数据集上实验结果明显优于当前最先进的(SOTA)弱监督方法。值得注意的是,在 DiDeMo 上,甚至比强监督 SOTA 方法的 Recall\@1 精度提高了 11\%。
作者 | Reuben Tan, Huijuan Xu, Kate Saenko, Bryan A. Plummer
单位 | 波士顿大学;伯克利
论文 | https://arxiv.org/abs/1909.13784
视频检索
Temporal Context Aggregation for Video Retrieval With Contrastive Learning
目前基于内容的视频检索的研究重点是需要更高层次的视频表征,来描述相关incidents, events 的长期语义依赖性。但现有的方法通常将视频的帧处理为单个图像或短片段,使得长期语义依赖性的建模变得困难。
在本次的工作任务中,作者提出视频表征学习框架:视频检索的时空上下文聚合(TCA),使用自注意力机制,融合了帧级特征之间的长期时间信息。为了在视频检索数据集上进行训练,又提出一种监督式对比学习方法,该方法可以进行自动 Hard Negative Mining(难负例挖掘),并利用记忆库机制来增加负值样本的容量。
在 CC_WEB_VIDEO、FIVR-200K 和 EVVE等多个视频检索任务上的实验结果表明,与最先进的视频级特征方法相比,该方法具有显著的性能优势(在 FIVR-200K 上 的 mAP 约为 17\%),并且与帧级特征相比,推理时间快了 22 倍,具有较强竞争力。
作者 | Jie Shao, Xin Wen, Bingchen Zhao, Xiangyang Xue
单位 | 复旦大学;同济大学;字节跳动
论文 | https://arxiv.org/abs/2008.01334
- END -
【推荐阅读】