• 问答
  • 技术
  • 实践
  • 资源
极市直播|第 81 期-CSIG-广东省 CVPR2021 论文在线学术报告会
技术直播

| 极市线上分享  第81期 |


CSIG-广东省CVPR2021论文在线学术报告会于2021年5月8日成功召开。本次学术报告会由中国图象图形学学会(CSIG)和人工智能与数字经济广东省实验室(琶洲实验室)共同主办,广东省图象图形学会(GDSIG)、CSIG-文档图像分析与识别专委会、CSIG-机器视觉专委会和GDSIG-计算机视觉专委会联合承办。大会邀请了13位广东省图像图形领域优秀青年学子介绍了他们CVPR 2021录用论文的最新研究成果,报告会在极市平台进行了同步直播(回放地址见文末),人气峰值高达近万人。

B站观看回放视频链接:https://www.bilibili.com/video/BV1DN411o7xp/


中国图象图形学学会常务理事、华南理工大学金连文教授致开幕辞

会议由中山大学郑伟诗教授以及华南理工大学张鑫副教授共同主持,中国图象图形学学会常务理事、华南理工大学金连文教授致开幕词。金教授首先表示,本次报告会非常高兴邀请到来自广东省的13位优秀的青年学子介绍他们的研究成果,通过线上直播方式,收益的观众面更多更广,也希望促进相关研究领域的学术交流。接下来,金教授还介绍了中国图象图形学会的概况与架构、奖励与鉴定、近期主要活动和入会方式等,欢迎大家加入中国图象图形学学会学会及相关的专委会。

报告1:来自华南理工大学的许光辉同学做了题为“基于内容多样性探索的文本图像描述”(CVPR2021录用论文题目:Towards Accurate Text-based Image Captioning with Content Diversity Explorations)的学术报告。该论文主要研究文本图像描述(Text-based Image Captioning,TextCap)这一任务,旨在读取图像中的文本并据此进行推理,帮助人和机器更好地理解复杂的真实环境。与普通的图片描述任务相比,TextCap非常具有挑战性,其要求推理模型不仅“看懂”物体,而且要能“读懂”文字,因为真实场景中往往包含复杂的文本和丰富的物体。现有方法试图扩展传统的图像描述方法以解决该任务,但这类方法着重于通过一句全局描述来表示场景,且倾向于只描述场景中一两个显著的物体。显然,这是不合理的,因为一句粗糙的全局描述无法涵盖场景中复杂而丰富的文本和视觉信息。为了解决这个问题,该论文提出多视角的描述生成方案,以准确地详细描述图像的不同部分。实现这个目标需要解决三个挑战:1)很难确定要复制或描述图像的哪些部分;2)捕捉图像中不同文本之间的复杂关系并非易事;3)如何生成具有不同内容的多个场景描述仍然是一个悬而未决的问题。为了克服这些问题,我们提出了一种新颖的Anchor-Captioner方法。具体来说,我们先找到应该受到更多关注的文本,并将其视为锚点(anchor)。然后,对于每个选定的锚点,论文中将与其相关的其他文本进行分组以构建相应的锚点中心图(anchor-centred graph,ACG)。最后,基于不同的ACG,作者进行多视角的场景描述生成,保证所生成描述的内容多样性。实验结果表明,我们的方法不仅在准确性和多样性上达到SOTA性能,而且可以用于提升现有方法的生成多样性。

论文链接: https://tanmingkui.github.io/files/publications/Towards\_Accurate\_Text-based.pdf
代码链接: https://github.com/guanghuixu/AnchorCaptioner

报告2:来自深圳大学和伯明翰大学的陈伟同学做了题为“基于形状特征具有旋转分离机制的类级别6D物体姿态快速估计网络”(CVPR2021录用论文题目:FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose Estimation with Decoupled Rotation Mechanism)的学术报告。报告研究基于单目RGB-D图像的类别级6D姿态和尺寸估计。以往的方法在类别级的姿态特征提取效率不高,导致精度和推理速度较低。为了解决这一问题,论文提出了一种基于形状的快速网络(FS-Net),该网络具有有效的类别级特征提取,用于6D姿态估计。首先,该论文设计了一个方向感知的三维图形卷积自动编码器,用于潜在特征提取。由于三维图形卷积具有平移和尺度不变性,学习到的潜在特征对点位移和目标尺寸不敏感。然后,为了有效地从潜在特征中解码类别级的旋转信息,作者们提出了一种新的解耦旋转机制,该机制使用两个解码器互补地访问旋转信息。对于平移和尺寸,我们分别用两个残差来估计:目标点平均值和地面真值平移的差值,以及类别平均尺寸和地面真值尺寸的差值。最后,为了提高FS网络的泛化能力,我们提出了一种基于在线盒笼的三维变形机制来扩充训练数据。在两个基准数据集上的大量实验表明,该方法在类别级和实例级的6D目标姿态估计中都取得了很好的效果。特别是在类别级姿态估计中,在不需要额外的合成数据的情况下,该方法在NOCS-REAL数据集上的性能比现有方法提高了6.3\%。

论文链接: http://arxiv.org/abs/2103.07054
代码链接:https://github.com/DC1991/FS-Net

报告3:来自华南理工大学的邓圣衡同学做了题为“3D AffordanceNet: 一个为视觉物体功能可供性理解构建的基准”(CVPR2021录用论文题目:3D AffordanceNet: A Benchmark for Visual Object Affordance Understanding)的学术报告。从视觉信息中了解与物体交互的方式的能力(又称视觉功能可供性)对于以视觉为指导的机器人研究至关重要。这涉及视觉功能可供性的分类,分割和推理。先前已经有相关工作在2D和2.5D领域中进行了研究,但是,对物体的真正的功能可供性理解需要在3D中进行学习和预测,而这在社区中仍然是缺乏的。在这项工作中,作者们提出了一个3D AffordanceNet数据集,它包含有来自23个语义类别的23k物体,并涵盖了18个视觉功能可供性类别。基于此数据集,作者们提供了三个基准任务,用于评估视觉功能可供性理解,包括完整点云,部分点云和旋转点云的功能可供性估计。三个最新的点云深度学习网络被用于在所有任务上进行测试。此外,该论文还研究了半监督学习进行功能可供性估计,以探索利用未标记数据的可能性。在贡献的数据集上的综合结果表明,对视觉功能可供性的理解有望成为有价值但具有挑战性的基准。

论文链接: https://arxiv.org/abs/2103.16397
代码链接:https://github.com/Gorilla-Lab-SCUT/AffordanceNet

报告4:来自中山大学的李汉俊同学做了题为“面向行人重识别基于组合深度空间的结构搜索”(CVPR2021录用论文题目:Combined Depth Space based Architecture Search for Person Re-identification)的学术报告。现有的大部分行人重识别工作都是利用原本为图像分类而不是行人重识别设计的大骨干网络来进行特征提取。然而,这些大骨干网络对于行人重识别来说,可能既不计算高效的也不是最合适的网络结构。在本次工作中,作者们主要为了设计一个轻量而又适合于行人重识别的网络结构。我们提出一个新颖的搜索空间,叫做组合深度空间(CDS),基于这个搜索空间,通过可微分结构搜索算法,搜索得到一个高效的网络结构,称为CDNet. 通过使用CDS中的组合基本构建块,CDNet倾向于关注行人图片中通常容易发现的组合模式信息。然后,我们又提出一个低成本的搜索策略,称为Top-k 采样结构搜索策略,以此充分利用搜索空间且避免陷入局部最优结构。此外,一个高效的且在推理时间可移除的细粒度平衡颈部结构(FBLNeck)被提出用于平衡三元组损失(triplet loss) 和分类损失(softmax loss) 在训练过程中的影响。广泛的实验表明,该论文的CDNet(约1.8M的参数量) 取得了与前沿的轻量化网络相当的性能。

论文链接:https://arxiv.org/abs/2104.04163
代码链接: https://github.com/solicucu/ReID

报告5:来自中山大学的刘凌波同学做了题为“面向RGBT人群计数的跨模态协同表征学习”(CVPR2021录用论文题目:Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark for Crowd Counting)的学术报告。人群计数是一项基本但又十分具有挑战性的视觉任务,它需要丰富的信息来生成像素级别的人群密度图。之前的方法大多数仅使有限的用光学图像信息,在不受控场景下无法很好地发掘潜在的行人。在这项工作中,作者们发现,融合光学信息和热感信息可以极大地提升人群计数性能。为了促进该领域未来的科学研究,我们首创地引入了一个大型RGBT人群计数(RGBT-CC)基准,该基准包含2,030对光学/热感图像,总共标注了138,389位行人。为了进一步促进多模式人群计数的研究,我们提出了一种跨模态协同表征学习框架,该框架由多个模态特异分支,一个模态共享分支以及一个信息聚合分散模块(IADM)组成,以充分捕捉不同模态数据的互补性。具体来说,我们的IADM由两个协同信息传递器组成,通过对偶信息传播机制动态地增强模态共享表征和模态特异分支表征。在RGBT-CC数据集上进行的大量实验充分地验证了我们框架对RGBT人群计数的有效性。此外,我们的方法在RGBD人群计数任务上也取得了业内领先的性能。

论文链接:https://arxiv.org/abs/2012.04529
项目链接:http://lingboliu.com/RGBT\_Crowd\_Counting.html

报告6:来自华南理工大学的陈耀佛同学做了题为“利用神经网络结构比较器的对比神经网络结构搜索”(CVPR2021录用论文题目:Contrastive Neural Architecture Search with Neural Architecture Comparators)的学术报告。神经网络搜索的关键步骤之一是评估候选网络结构的性能。现有方法要么直接在验证集上测量网络结构性能,要么学习一个预测器来估计性能。然而,这些方法要么计算成本高,要么非常不准确,这可能会严重影响搜索效率和性能。此外,由于很难在特定任务上对网络结构进行准确的性能标注,因此很难训练得到一个准确的性能预测器。在本文中,我们认为神经网络搜索可能不需要评估候选网络结构的绝对性能。相反,我们可能只需要得到一个网络结构与基线结构的相对优劣就足以进行搜索。然而,如何利用相对优劣信息作为奖励,以及如何很好地利用有限的标注网络结构数据,仍然是两个巨大的挑战。对此,我们提出了一种新型的对比神经架构搜索方法,该方法利用网络结构之间的对比结果作为奖励来进行搜索。具体而言,我们设计了一个网络结构比较器来估计候选网络结构优于基线结构的概率。此外,受课程学习启发,我们提出了一种基线结构更新方案,其可以在搜索过程中逐渐提升基线结构。我们还从理论上表明,学习网络结构比较器和直接优化网络结构间的排序是等价的。我们在三个搜索空间的进行了广泛实验,实验结果证明了我们方法较现有方法的优越性。

论文链接: https://arxiv.org/abs/2103.05471
代码链接: https://github.com/chenyaofo/CTNAS

报告7:来自华南理工大学的陈志乐同学做了题为“基于跨层统计自相似性的纹理识别”(CVPR2021录用论文题目:Deep Texture Recognition via Exploiting Cross-Layer Statistical Self-Similarity)的学术报告。近年来,卷积神经网络已成为纹理识别中的一个重要工具。在现有的基于卷积神经网络的纹理识别方法中,一个关键是把卷积特征聚合成一个稳健且具有区分性的描述子。本文创新性地提出了一个名为跨层的统计自相似性聚合(CLASS, Cross-Layer Aggregation of Statistical Self-similarity)的纹理特征聚合模块。我们把CNN的逐层特征生成视为一个动态演变过程,这个过程把纹理固有的统计自相似性沿着网络深度方向传递,形成跨层的统计自相似性。CLASS模块计算网络跨层特征的局部差分盒维数软直方图,以此刻画跨层的统计自相似性,其生成的纹理描述子能编码跨层的动态特性以及输入图像的局部统计自相似性,提供了相对于全局平均池化特征额外的区分性特征。通过把CLASS模块集成到ResNet主干网络中,我们提出了一个有效的纹理识别深度神经网络模型,名为CLASSNet。该模型在实验中表现出色,获得了一流的实验结果。
代码链接:https://github.com/chenzhile1999/CLASSNet

报告8:来自中山大学和香港大学团队的李继昌同学做了题为“基于跨领域自适应聚类的半监督领域自适应算法”(CVPR2021录用论文题目:Cross-Domain Adaptive Clustering for Semi-Supervised Domain Adaptation)的学术报告。在半监督领域自适应问题的目标域数据中对每个类别赋予少量有标签样本可引导其余的无标签目标域样本的特征聚集在它们周围。但是,如此经过训练后的模型无法为目标域生成具有高度区分性的特征表示,因为训练过程主要由来自源域的有标签样本主导。这就可能导致有标签和无标签的目标域样本之间的特征缺乏连结以及目标域和源域样本之间的特征进行错位对齐。在本文中,作者们提出了一种新的被称为跨域自适应聚类的算法来解决这个问题。为了同时实现不同领域间和同一领域内的自适应,我们首先引入了一个对抗性自适应聚类损失函数来对无标签目标域样本的特征进行分组聚类,并在源域和目标域之间以聚类簇的形式进行跨域特征对齐。另外,我们进一步将“Pseudo labeling”技术应用于目标域中无标签样本,并对具有较高的置信度的样本赋予“伪标签”。该技术扩充了目标域中每个类别的“有标签样本”的数量使得每个类别可以产生了更加鲁棒、强大的聚类簇中心,从而促进对抗学习过程。我们在包括DomainNet、Office-Home和Office在内的基准数据集上进行的大量实验,结果表明我们所提出的方法能够在半监督域自适应中实现最优性能。

论文链接: https://arxiv.org/abs/2104.09415v1
代码链接: https://github.com/lijichang/CVPR2021-SSDA

报告9:来自悉尼大学和深圳先进研究院团队的顾津锦同学做了题为“利用局部归因图解释超分辨率网络”(CVPR2021录用论文题目:Interpreting Super-Resolution Networks with Local Attribution Maps)的学术报告。得益于深度网络的发明,图像超分辨率(SR)技术得到了快速发展。但是公认的是,深度学习和深度神经网络很难解释。SR网络继承了这种神秘的本质,几乎没有作品试图去理解它们。在本文中,我们对SR网络进行了归因分析,目的是寻找对SR结果有重大影响的输入像素。我们提出了一种新颖的归因方法,称为局部归因图(LAM),该方法继承了积分梯度方法,但具有两个创新点。一种是将高斯模糊图像用作基线输入,另一种是采用渐进模糊函数作为路径函数。基于LAM,我们表明:(1)涉及的输入像素范围更广的SR网络可以实现更好的性能。(2)注意网络和非本地网络从更大范围的输入像素中提取特征。(3)与实际贡献的范围相比,对于大多数深度网络而言,感受野都足够大。(4)对于SR网络,具有规则条纹或网格的纹理更容易被注意到,而复杂的语义则难以利用。我们的工作为设计SR网络和解释底层视觉深度模型开辟了新的方向
论文链接: https://arxiv.org/pdf/2011.11036
代码链接: https://x-lowlevel-vision.github.io/lam.html

报告10:来自中山大学的冯嘉昌同学做了题为“面向视频异常检测的多示例自训练框架”(CVPR2021录用论文题目:MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection)的学术报告。弱监督视频异常检测是一种基于可分特征将异常从正常事件中检测出来的任务。然而,大多数现有工作受限于不充分的特征表示。本工作中,作者们提出了多示例自训练的框架(MIST),该框架仅使用视频级别标签,高效地优化任务相关的特征表示。特别地,MIST包括了(1)一个多示例学习的伪类标生成器,它采用了稀疏连续采样策略来产生更加可信的伪类标;(2)一个自引导注意力模块增强的特征提取器,用以在特征提取过程中使提取器更关注异常区域。另外,该论文采用了自训练的方法来优化这两个部件,并最终得到一个任务特定的特征提取器。作者们在两个公开数据集上做了大量实验,这些实验结果证明了我们方法的有效性,而且本方法的性能与现有的有监督和弱监督方法相当甚至更好,特别是在ShanghaiTech数据集上,本方法获得了94.83\%的帧级别AUC分数。
论文链接: https://arxiv.org/abs/2104.01633
项目链接: https://kiwi-fung.win/2021/04/28/MIST/

报告11:来自华南理工大学的杨明玥同学做了题为“最佳化三维建模与重构中的神经网络先验”(CVPR2021录用论文题目:Deep Optimized Priors for 3D Shape Modeling and Reconstruction)的学术报告。在三维建模与重构的任务中,许多基于学习的方法很难扩展到测试数据,这是由于神经网络学习到的先验受制于训练样本的规模和样本间差异。考虑到现有可用的三维数据集的稀疏性,这一点在三维模型的学习任务中尤其如此。我们提出了一种新的三维建模与重构学习框架,大大提高了网络的泛化能力。我们的方法力求将基于学习和基于优化的方法的优点相结合。需要额外注意的是,与在测试时固定训练得到的先验的通常做法不同,我们在训练后根据给出的观测(模型输入)进一步优化所学习的先验。结果表明,该策略有效地突破了预先训练的先验知识的限制,能够对未知数据进行高质量的重建。我们使用隐式场这一表达方式实现了我们的框架,并验证了我们的方法在以高度稀疏的观测值作为输入的各种挑战性任务中的有效性。实验结果表明,该方法在通用性和准确性方面均优于现有方法。
论文链接: https://arxiv.org/abs/2012.07241
代码链接: https://nicoleyang61.github.io/Deep-Optimized-Priors/

报告12:来自深圳大学的万琦同学做了题为“基于自我注意的文本知识挖掘”(CVPR2021录用论文题目:Self-attention based Text Knowledge Mining for Text Detection)的学术报告。预训练模型在基于深度学习的文本检测器中发挥着重要作用。然而大多数方法忽略了自然图像和场景文本图像之间的差距,直接使用ImageNet预训练模型,另外一些方法首先使用大量的合成数据对模型进行预训练,然后在目标数据集上进行微调,这种方法是针对特定任务的,而且泛化能力有限。在本文中,作者们希望为文本检测提供通用的预训练模型。考虑到识别文本内容对文本检测的重要性,我们提出了STKM(基于自我注意的文本知识挖掘),它由一个CNN编码器和一个自我注意解码器组成,以从SynthText学习用于文本检测的一般先验知识。在只给定图像级别的文本标签的情况下,自我注意解码器直接将从CNN编码器中提取的特征解码为文本,而不需要检测,这引导CNN骨干明确地学习以前的方法所忽略的辨别性语义表征。之后,backbone学到的文本知识可以转移到各种文本检测器上,以显著提高它们的检测性能(例如,在ICDAR15数据集上EAST的F值提高了5.89\%)
代码链接:https://github.com/CVI-SZU/STKM

报告13:来自华南理工大学的朱一秦同学做了题为“基于傅立叶轮廓表征的任意形状文本检测”(CVPR2021录用论文题目:Fourier Contour Embedding for Arbitrary-Shaped Text Detection)的学术报告。任意形状的文本检测的主要挑战之一是如何设计一个好的文本实例表示形式,使网络可以学习各种文本几何形状的变化。大多数现有方法通过笛卡尔或极坐标系中的掩模或轮廓点序列在图像空间域中对文本实例进行建模。但是,基于掩模的表示可能需要导致复杂的聚合后处理,而点序列的表示可能对高度弯曲的文本表达不充分。为了解决这些问题,我们在傅立叶域中对文本实例进行建模,并提出了一种新颖的傅立叶轮廓表征(FCE)方法,以将任意形状的文本轮廓表示为紧凑的傅里叶系数序列。我们进一步构建具有主干,特征金字塔网络(FPN)以及具有反傅立叶变换(IFT)和非最大抑制(NMS)的简单后处理功能的FCENet。与以前的方法不同,FCENet首先预测文本实例的紧凑傅立叶系数,然后在测试过程中通过IFT和NMS重建文本轮廓。大量的实验表明,即使具有高度弯曲的形状,FCE仍能准确,鲁棒地适合场景文本的轮廓,并且还验证了FCENet对于任意形状的文本检测的有效性和良好的通用性。此外,实验结果表明,不仅在CTW1500和Total-Text上、并且在挑战高度弯曲的文本子集时,我们的FCENet优于最新的(SOTA)方法。
论文链接: https://arxiv.org/abs/2104.10442
代码链接: https://github.com/open-mmlab/mmocr (即将于mmocr开源)

中国图象图形学学会理事、CSIG机器视觉专委会主任林宙辰教授致闭幕辞

大会在中国图象图形学学会理事、CSIG机器视觉专委会主任、北京大学林宙辰教授的致辞中闭幕。林宙辰教授首先对这次参与活动的老师、同学、听众、讲者和组织者表达了感谢。林教授指出此次线上报告会的内容丰富,涉及到了计算机视觉的很多方面。同时,本次报告会的讲者均来自广东省,可以看出广东省在这方面的研究发展迅速,潜力巨大。林教授也回顾他在参加2005ICCV会议时,Thomas Huang教授评价说中国已经是计算机视觉的研究大国,但是当时主要是遍布世界各地的华人学者。十几年过去,我们国内的研究者们已经成为领域内的主流,进步显著,让人欣慰。进一步,林教授还指出我们应该在原创性研究方面进一步加强,应该更关注方法背后的原理,尝试更加前沿探索性的工作,努力成为研究领域的引领者!

本次交流会的13篇获录论文的报告均基于当下学术领域的前沿和新颖的课题,引发了参会者的热烈讨论与答疑互动,大家在讨论中也互相启发、迸发了新的技术思路。

我们期待更多优秀青年学子在计算机视觉领域取得研究进展,并在未来的报告会中踊跃参与、共同进步!

往期回顾:

  • 0
  • 0
  • 1215
收藏
暂无评论
Admin
大咖

极市平台

  • 20,442

    关注
  • 1,150

    获赞
  • 132

    精选文章
近期动态
  • 极市社区管理员,分享计算机视觉各个方向视觉干货,欢迎关注
文章专栏
  • 极市平台