港中文周博磊发文:十年之间的 CVPR 与我们(附 CVPR2020 论文速递)

技术讨论 sophie ⋅ 于 1个月前 ⋅ 231 阅读

作者:周博磊
本文已由作者授权转载,未经允许,不得二次转载。

又是一年一度CVPR开奖日,希望各位同学都有好收成。掐指一算,这正好是我第十年投稿了。我第一次邂逅CVPR是在2010年,当时把自己的本科毕设工作整理出来投稿,可惜被拒。随后便上了这条贼船,一晃把十年大好光阴贡献给了这个领域。

这十年之间,我幸运地见证了计算机视觉领域的蓬勃发展。

从十年前的CVPR大概投稿1700篇接收将近500篇论文,到十年后的今天投稿6600篇接收将近1500篇。计算机视觉,最早作为从图像处理衍生出来的毛孩子,成为了目前人工智能方向最红火的方向之一,与之而来的是大量资源和人才涌入。研究方向的潮流从SIFT, graphical model,manifold learning,到现在的各种花式神经网络解花式研究问题。计算机视觉也与其他的研究方向,如图形学,虚拟现实,机器人,自然语言处理,认知与神经科学等,建立起了各种交叉领域。几年前我曾写过一篇文字来总结和展望计算机视觉的发展,计算机视觉是否已经进入瓶颈期?(https://www.zhihu.com/question/51863955/answer/127888709),也成了我知乎点击最高的文章之一,其中提到的几点都成了现在的热点研究问题。而每年不断涌现的新的研究问题,也如乱花迷人眼。希望后面能有时间再写篇文章来总结和憧憬下正在进行时的计算机视觉

另一方面,这十年之间,我也从最早的怀着撞大运投稿的小虾米,变成了现在靠投稿谋生的科研老油条。

从学生时候的独挑大梁,到现在作为发考题跟学生并肩作战,前后所依赖的技战术水平都很不同。以前可以坚持己见熬夜死磕写码,现在得同时跟踪和推进多个研究项目,争取在每次跟不同学生的讨论中提供有建设性的意见,也得时刻为同学换位思考,并兼职拉拉队长为他们加油鼓气。现在这个开源代码爆炸的时代,科研项目的周期被大幅缩短,研究者们不得不以半年,三个月,或者更短的工时来迭代研究,从而不得不着眼于短平快的工作。这之中又有各种利益纠纷,比如说本科生猛糙地发论文申请出国,以及各种AI相关的研究经费与资源的快速置换。我不反对刚入门的同学以短平快的工作作为练手,但是同学在完成粗暴的原始积累过后,还是得诚实地去思考下手上工作的价值以及这个研究方向的意义所在。

其实我自己作为研究生导师,最担心的是怕给同学指了个错误的研究方向,浪费了他们的时间和精力。最近几个我手把手带学生做的自以为很不错的工作,都不幸被拒。论文被拒,其实我比学生更着急。这次CVPR几个工作的投稿中,我最忐忑的其实是一两个resubmit的工作。其中一个同学说这次再不中他就要quit了,吓得我够呛 -,-。不过运气好这次都收了,瞬间放下了包袱。

在这浪打浪投稿CVPR的10年里,我确实能感觉到会议的审稿意见变得越来越随机,不负责任的审稿人越来越多。这也是滚滚AI浪潮带来的负面效应之一,“限制人工智能发展的瓶颈在于合格的审稿人不够了”。我们应该正面看待这个效应,反过来把reject & resubmit当成是把研究工作做得更上一层楼的机会。大浪淘沙,好的工作总会留下来而闪光。在所谓的AI研究确实变得越来越cheap,门槛越来越低的时候,以及大家都随地吐痰的时候,并不意味着你也可以吐。保持对科研的敬畏和好奇,这条路才能越走越宽,越走越远。另外,现在已经过了数中了多少篇paper的年代了,一年发一篇拿到出手的特别proud的工作,足以。正如我在某个知乎问答中写的那样,评价一个研究者的水平,在于看他拿出手的最好的三篇论文。而对于研究者自己,做更好的研究的目标,就是尽量使得新的工作能替代掉这三篇论文中的某一篇。

最近在看《Surely You're Joking, Mr. Feynman》这本书,我由衷感叹费曼是个如此有趣而坦白的灵魂,瞬间被圈粉。有句这本书的书评也写得挺好,我摘抄在这里:

Dr. Feynman’s delight with life shines through everything--nothing gets him down for long. The reasons for this attitude are his ever-present compulsion to learn and discover, his urge to follow his insatiable curiosity (about everything!) wherever it might lead, his willingness to simply state whatever he thinks when asked, and his refusal to always take life so seriously. It is evident that Dr. Feynman has achieved what many can only dream of--living a meaningful and accomplished life while still being able to find absolute joy and fun in so much of how we spend that life.

最后,致谢10年前带我入坑的那些id,如dodo, tyd, filestorm...又比如汤老师那篇《天下第一铭》... 不知道还有多少人记得。

江湖还是那个江湖。一壶浊酒喜相逢。古今多少事,都付笑谈中。

CVPR2020 论文速递

1. GhostNet: More Features from Cheap Operations**(超越Mobilenet v3的架构)**

论文链接:https://arxiv.org/pdf/1911.11907

开源代码:https://github.com/iamhankai/ghostnet

2. AdderNet: Do We Really Need Multiplications in Deep Learning? **(加法神经网络)**

论文链接:https://arxiv.org/pdf/1912.13200

3.CARS: Contunuous Evolution for Efficient Neural Architecture Search**(连续进化的NAS)**

论文链接:https://arxiv.org/pdf/1909.04977.pdf

开源代码:https://github.com/huawei-noah/CARS

4.Learning multiview 3D point cloud registration(3D点云)

论文链接:https://arxiv.org/abs/2001.05119

5.Multi-Modal Domain Adaptation for Fine-Grained Action Recognition(细粒度动作识别)

论文链接:https://arxiv.org/abs/2001.09691

6.Action Modifiers:Learning from Adverbs in Instructional Video

论文链接:https://arxiv.org/abs/1912.06617

7.PolarMask: Single Shot Instance Segmentation with Polar Representation(实例分割)

论文链接:https://arxiv.org/abs/1909.13226

开源代码:https://github.com/xieenze/PolarMask

8.Distribution Aware Coordinate Representation for Human Pose Estimation(姿态估计)

论文链接:https://arxiv.org/abs/1910.06278

开源代码:https://github.com/ilovepose/DarkPose

9.Suppressing Uncertainties for Large-Scale Facial Expression Recognition(面部表情识别)

论文链接:https://arxiv.org/abs/2002.10392

开源代码:https://github.com/kaiwang960112/Self-Cure-Network

10.xMUDA: Cross-Modal Unsupervised Domain Adaptation for 3D Semantic

论文链接:https://arxiv.org/abs/1911.12676

11.RoutedFusion: Learning Real-time Depth Map Fusion

论文链接:https://arxiv.org/pdf/2001.04388.pdf

12.What it Thinks is Important is Important: Robustness Transfers through Input Gradients

论文链接:https://arxiv.org/abs/1912.05699

13.Your Local GAN: Designing Two Dimensional Local Attention Mechanisms(GAN)

论文链接:https://arxiv.org/abs/1911.12287

开源代码:https://github.com/giannisdaras/ylg

14.12-in-1: Multi-Task Vision and Language Representation Learning(**多任务视觉和语言表示学习)**

论文链接:https://arxiv.org/abs/1912.02315

15.MSG-GAN: Multi-Scale Gradient GAN for Stable Image Synthesis(GAN)

论文链接:https://arxiv.org/abs/1903.06048

16.Making Better Mistakes: Leveraging Class Hierarchies with Deep Networks

论文链接:https://arxiv.org/abs/1912.09393

17.The Devil is in the Details: Delving into Unbiased Data Processing for

论文链接:https://arxiv.org/abs/1911.07524

18.In Perfect Shape: Certifiably Optimal 3D Shape Reconstruction from 2D(三维重建)

论文链接:https://arxiv.org/pdf/1911.11924

19.Improved Few-Shot Visual Classification(**改进小样本学习视觉分类)**

论文链接:https://arxiv.org/pdf/1912.03432.pdf

20.ROAM: Recurrently Optimizing Tracking Model(递归优化跟踪模型)

论文链接:https://arxiv.org/abs/1907.12006

为了方便大家阅读,小极已经将以上20篇论文全部下载并打包。关注 极市平台 公众号,后台回复 CVPR2020 即可获取 论文打包下载链接

-END-

延伸阅读

微信公众号: 极市平台(ID: extrememart )
每天推送最新CV干货

回复数量: 0
暂无回复~
您需要登陆以后才能留下评论!