CVPR2017 论文:使用 VTransE 网络进行视觉关系检测

论文速递 你找不到我 ⋅ 于 2个月前 ⋅ 301 阅读

“知识表示学习的思想已被成功应用于视觉关系提取, 本文介绍的CVPR 2017中的 VTransE 方法迈出了重要一步。”


知识表示学习的思想(TransE)已经被成功应用于视觉关系提取(Visual Relation Extraction),提交 CVPR 2017 的新论文《Visual Translation Embedding Network for Visual Relation Detection》提出的 VTransE 方法是在这方面所迈出的重要一步。清华大学计算机系助理研究员刘知远对此评论说:「视觉关系和语义关系既有重叠又有互补,未来会有很多有趣的问题值得探索。」机器之心对本论文进行了摘要介绍。

▲Visual Translation Embedding Network for Visual Relation Detection
file

摘要:「一个人骑自行车」和「在汽车旁边骑自行车」这样的视觉关系能为理解图像提供综合场景,也在计算机视觉和自然语言的连接上展现了其作用。然而,由于建模主谓宾关系三元组的组合复杂性(combinatorial complexity),很少有工作研究定位和预测视觉关系。基于最近知识库的关系表征学习和卷积网络检测物体的发展,我们提出了一种用于视觉关系检测的视觉转化嵌入网络(VTransE,Visual Translation Embedding network)。VTransE 在低维关系空间确定物体关系,这种关系可被建模为简单的向量转换,即主语+谓语≈宾语。我们提出一种全新的特征提取层,能够以全卷积的方式完成物体关系知识(object-relation knowledge)的迁移,其支持在简单的前向\后向通路中训练与推理。据我们所知,VTransE 是首个端到端的关系检测网络。我们在两个大型数据集(Visual Relationship 和 Visual Genome)上证明了 VTransE 相比其他顶级方法的有效性。要注意,虽然 VTransE 只是一个纯视觉模型,它仍然可与 Lu 的带有语言先验知识的多模态模型媲美。

file
▲图 1:在此论文中,我们的重点是检测视觉关系(中间一层的虚线框)。不同于低层视觉和高层语言之间的直接关系,视觉关系提供物体交互间的直接理解。这能为图像注释、问答系统这样的应用提供更深的语义信息。

file
图 3:VTransE 网络概述。输入图像首先通过物体检测模块(也就是一个卷积定位网络),输出一系列检测到的物体。然后,检测到的物体被输入到关系预测模块进行特征提取和视觉转换潜入。特别地,物体的视觉特征使用 Bilinear Interpolation 从最后的卷积特征映射提取出来。


本文授权转自机器之心。
原文:学界 | CVPR 2017最新论文:使用VTransE网络进行视觉关系检测
论文:https://arxiv.org/pdf/1702.08319.pdf


CVPR2017文章推荐:

CVPR 2017论文笔记— Dilated Residual Networks
CVPR 2017论文:基于网格的运动统计,用于快速、超鲁棒的特征匹配
CVPR 2017:Large Margin Object Tracking with Circulant Feature Maps
【简评】[CVPR2017]Loss Max-Pooling for Semantic Image Segmentatio

file
△ 关注极市平台
获得最新CV干货

微信公众号: 极市平台(ID: extrememart )
每天推送最新CV干货

回复数量: 0
暂无回复~
您需要登陆以后才能留下评论!