CVPR 2019 论文大盘点—文本图像相关篇

论文速递 sophie ⋅ 于 3个月前 ⋅ 3334 阅读

来源:微信公众号 @我爱计算机视觉

盘点了 CVPR 2019 文本图像相关论文,总计 17 篇。

其中研究文本检测的最多,共 7 篇,包括已经非常知名的PSENet,还有最近异常火爆的CRAFT。

文本识别 4 篇,其中华南理工大学的 Aggregation Cross-Entropy 代码已经开源,其不仅适用于文本数据,序列数据识别均可参考。

数据增广 2 篇,文本数据是天然易于在训练时进行样本增广的,而GAN也被成功应用于这一方向。

北大的 2 篇文本风格迁移非常有意思,也许在设计领域很有用处。Facebook 将 OCR 引入视觉问答的课题中,推进了视觉问答更智能。西安交大手写签名的论文,解决好了的话在这个网络时代应该很有用。

可以在以下网站下载这些论文:
http://openaccess.thecvf.com/CVPR2019.py

如果想要下载所有CVPR 2019 论文,请点击这里:
CVPR2019 最全整理:全部论文下载,GitHub 源码汇总、直播视频、论文解读等

希望对研究开发相关方向的同学有帮助。


文本检测


利用条件空间扩展实现鲁棒弯曲文本检测

南洋理工大学、阿德莱德大学

Towards Robust Curve Text Detection With Conditional Spatial Expansion

Zichuan Liu, Guosheng Lin, Sheng Yang, Fayao Liu, Weisi Lin, Wang Ling Goh


字符区域感知的文本检测,不仅利用字符本身特征还利用字符之间的关系。在MSRA-TD500数据集上目前是最好的算法。

Clova AI Research, NAVER Corp

Character Region Awareness for Text Detection

Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, Hwalsuk Lee

https://github.com/clovaai/CRAFT-pytorch


自适应文本区域表示,用于任意形状的场景文本检测,在5个文本检测数据集上都达到了state-ofthe-art。

三星中国研究院、中科院自动化所、中科院大学、韩国三星研究院

Arbitrary Shape Scene Text Detection With Adaptive Text Region Representation

Xiaobing Wang, Yingying Jiang, Zhenbo Luo, Cheng-Lin Liu, Hyunsoo Choi, Sungjin Kim


形状感知嵌入学习用于场景文本检测

香港中文大学、约翰霍普金斯大学、腾讯优图实验室

Learning Shape-Aware Embedding for Scene Text Detection

Zhuotao Tian, Michelle Shu, Pengyuan Lyu, Ruiyu Li, Chao Zhou, Xiaoyong Shen, Jiaya Jia


渐近扩展网络,用于形状鲁棒的文本检测

南京大学、同济大学、南京理工大学、Momenta、旷视科技

Shape Robust Text Detection With Progressive Scale Expansion Network

Wenhai Wang, Enze Xie, Xiang Li, Wenbo Hou, Tong Lu, Gang Yu, Shuai Shao

https://github.com/whai362/PSENet


一种迭代的不断提精的高精度任意形状文本检测方法,在多个数据集达到了state-of-the-art。

百度、厦门大学

Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes

Chengquan Zhang, Borong Liang, Zuming Huang, Mengyi En, Junyu Han, Errui Ding, Xinghao Ding


提出场景文本检测结果度量的新协议,更加以有利于进一步识别为导向,更加注重检测结果的完整性(Completeness)、紧凑性(Compactness)、细腻度(Tightness-aware)

华南理工大学

Tightness-Aware Evaluation Protocol for Scene Text Detection

Yuliang Liu, Lianwen Jin, Zecheng Xie, Canjie Luo, Shuaitao Zhang, Lele Xie

https://github.com/Yuliang-Liu/TIoU-metric


文本识别


提出一种聚合交叉熵损失函数,用于序列数据识别,可有效替换CTC+注意力机制,实现简单、计算快速、存储要求低、方便替换CTC。

华南理工大学

Aggregation Cross-Entropy for Sequence Recognition

Zecheng Xie, Yaoxiong Huang, Yuanzhi Zhu, Lianwen Jin, Yuliang Liu, Lele Xie

https://github.com/summerlvsong/Aggregation-Cross-Entropy


数字文档中关键字检索的深度特征方法,高效、存储要求低。

NCSR “Demokritos”、希腊国立雅典理工大学、希腊约阿尼纳大学

An Alternative Deep Feature Approach to Line Level Keyword Spotting

George Retsinas, Georgios Louloudis, Nikolaos Stamatopoulos, Giorgos Sfikas, Basilis Gatos


通过迭代的图像校正进行端到端的场景文本识别

南洋理工大学

ESIR: End-To-End Scene Text Recognition via Iterative Image Rectification

Fangneng Zhan, Shijian Lu

https://github.com/fnzhan/ESIR


序列到序列的域适应网络,用于鲁棒文本图像识别

中科院自动化所、中科院大学、电子科技大学、浙江大学、阿凡题人工智能研究院

Sequence-To-Sequence Domain Adaptation Network for Robust Text Image Recognition

Yaping Zhang, Shuai Nie, Wenju Liu, Xing Xu, Dongxiang Zhang, Heng Tao Shen


文本图像数据增广


空间融合GAN进行图像合成

结合几何与表面信息的空间融合生成对抗网络,用于图像合成,其中合成的文本图像改进了文本识别的训练

南洋理工大学、新加坡A*STAR

Spatial Fusion GAN for Image Synthesis

Fangneng Zhan, Hongyuan Zhu, Shijian Lu

https://github.com/Sunshine352/SF-GAN


提出一种对抗特征变形模块(AFDM),用于训练数据匮乏的手写文本识别。

南洋理工大学、Institute of Engineering & Management, India、Jadavpur University, India、Indian Institute of Technology Roorkee, India

Handwriting Recognition in Low-Resource Scripts Using Adversarial Learning

Ayan Kumar Bhunia, Abhirup Das, Ankan Kumar Bhunia, Perla Sai Raj Kishore, Partha Pratim Roy

https://github.com/AyanKumarBhunia/Handwriting_Recogition_using_Adversarial_Learning


文本风格迁移


文本特效(风格)迁移

北京大学

Typography with Decor: Intelligent Text Style Transfer

Wenjing Wang, Jiaying Liu, Shuai Yang, and Zongming Guo

https://github.com/daooshee/Typography-with-Decor


基于样例的动态文本特效迁移

北京大学

DynTypo: Example-Based Dynamic Text Effects Transfer

Yifang Men, Zhouhui Lian, Yingmin Tang, Jianguo Xiao

https://menyifang.github.io/projects/DynTypo/DynTypo.html


OCR + 视觉问答


图像内OCR文本识别 + 基于此更准确的视觉问答

Facebook、佐治亚理工学院

Towards VQA Models That Can Read

Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, Marcus Rohrbach

https://github.com/facebookresearch/pythia


签名鉴伪


反向鉴别网络,用于手写签名验证

西安交通大学

Inverse Discriminative Networks for Handwritten Signature Verification

Ping Wei, Huan Li, Ping Hu



更多论文盘点:

CVPR 2019 论文大盘点-目标检测篇

CVPR 2019 论文大盘点-目标跟踪篇

CVPR 2019 论文大盘点-超分辨率篇

CVPR 2019 论文大盘点-人脸技术篇

微信公众号: 极市平台(ID: extrememart )
每天推送最新CV干货

本帖已被设为精华帖!
本帖由 你找不到我 于 2个月前 加精
成为第一个点赞的人吧 :bowtie:
回复数量: 0
暂无回复~
您需要登陆以后才能留下评论!