• 问答
  • 技术
  • 实践
  • 资源
2021年深度学习哪些方向比较新颖,处于上升期或者朝阳阶段,没那么饱和,比较有研究潜力?精选
问答
来源:陀飞轮


回答一:

先写两个最近火热我比较看好的方向TransformerSelf-Supervised,我这里举的例子倾向于计算机视觉方向。最后再补充Zero-Shot多模态两个方向。

1.Transformer

自从去年DETR和ViT出来之后,计算机视觉领域掀起了Transformer狂潮。目前可以做的主要有两个路径,一个是魔改DETR和ViT,另一个是不同task迁移算法

魔改DETR和ViT的方法,无非是引入local和hierarchical,或者魔改算子。

不同task迁移算法主要是探究如何针对不同的task做适配设计。

其中魔改DETR的可以参考以下工作:

[Deformable DETR] [TSP-FCOS/TSP-RCNN] [UP-DETR] [SMCA] [Meta-DETR] [DA-DETR]

其中魔改ViT的可以参考以下工作:

魔改算子:

[LambdaResNets] [DeiT] [VTs] [So-ViT] [LeViT] [CrossViT] [DeepViT] [TNT] [T2T-ViT]

[BoTNet] [Visformer]

引入local或者hierarchical:

[PVT] [FPT] [PiT] [LocalViT] [SwinT] [MViT] [Twins]

引入卷积:

[CPVT] [CvT] [ConViT] [CeiT] [CoaT] [ConTNet]

不同task迁移算法的可以参考以下工作:

ViT+Seg [SETR] [TransUNet] [DPT] [U-Transformer]

ViT+Det [ViT-FRCNN] [ACT]

ViT+SOT [TransT] [TMT]

ViT+MOT [TransTrack] [TrackFormer] [TransCenter]

ViT+Video [STTN] [VisTR] [VidTr] [ViViT] [TimeSformer] [VTN]

ViT+GAN [TransGAN] [AOT-GAN] [GANsformer]

ViT+3D [Group-Free] [Pointformer] [PCT] [PointTransformer] [DTNet] [MLMSPT]

以上几个task是重灾区(重灾区的意思是听我一句劝,你把握不住)

ViT+Multimodal [Fast and Slow] [VATT]

ViT+Pose [TransPose] [TFPose]

ViT+SR [TTSR]

ViT+Crowd [TransCrowd]

ViT+NAS [BossNAS]

ViT+ReID [TransReID]

ViT+Face [FaceT]

想一想算子怎么魔改,或者还有什么task没有做的

2.Self-Supervised

Self-Supervised自从何恺明做出MoCo以来再度火热,目前仍然是最为火热的方向之一。目前可以做的主要有三个路径,一个是探索退化解的充要条件,一个是Self-Supervised+Transformer探索上限,还有一个是探索非对比学习的方法。

探索退化解的充要条件主要是探索无negative pair的时候,避免退化解的最优方案是什么。

[SimCLR] [BYOL] [SwAV] [SimSiam] [Twins]

Self-Supervised+Transformer是MoCov3首次提出的,NLP领域强大的预训练模型(BERT和GPT-3)都是Transformer架构的,CV可以尝试去复制NLP的路径,探究Self-Supervised+Transformer的上限。

[MoCov1] [MoCov2] [MoCov3] [SiT]

探索非对比学习的方法就是要设计合适的proxy task。

基于上下文 [Unsupervised Visual Representation Learning by Context Prediction] [Unsupervised Representation Learning by Predicting Image Rotations] [Self-supervised Label Augmentation via Input Transformations]

基于时序 [Time-Contrastive Networks: Self-Supervised Learning from Video] [Unsupervised Learning of Visual Representations using Videos]

刚写了基于时序,何恺明和Ross Girshick就搞了个时序的

A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning

陀飞轮:何恺明+Ross Girshick:深入探究无监督时空表征学习​zhuanlan.zhihu.com图标

3. Zero-Shot

最近因为CLIP的出现,Zero-Shot可能会引起一波热潮ViLD将CLIP成功应用于目标检测领域,相信未来会有越来越多的基于CLIP的Zero-Shot方法

陀飞轮:ViLD:超越Supervised的Zero-Shot检测器​zhuanlan.zhihu.com图标

4. 多模态

最近的ViLT结合了BERT和ViT来做多模态,并且通过增加标志位来巧妙的区分不同模态,感觉是一个非常好的做多模态的思路,相信未来会有更强大的多模态出现。

陀飞轮:ViLT:最简单的多模态Transformer​zhuanlan.zhihu.com图标

至于最近火热的MLP架构,极其不推荐,很沙雕

计算机视觉是否已经进入瓶颈期?​www.zhihu.com图标

最后,适当灌水,有能力还是要做有影响力的工作。


回答二:

回答几个我最近在研究的方向~ 我主要在做生成模型,不过乱七八糟的也有涉猎

可解释性:feature-based研究的很多了,instance-based个人感觉在上升期,从研究的角度来说缺乏benchmark/axiom/sanity check. 主流方法是influence function, 我觉得这里面self influence的概念非常有趣,应该很值得研究。当然,更意思的方向是跳出influence function本身,比如像relatIF 加一些regularization,也是水文章的一贯套路(relatIF是好文章)。

Influence function for generative models也是很值得做的。Influence function for GAN已经有人做了,虽然文章直接优化FID是有点问题的,但是框架搭好了,换一个evaluation换个setting就可以直接发paper.

6-3 update: 我最近写了Influence function for VAE, 有不少比较有意思的observation (paper: https://arxiv.org/pdf/2105.14203.pdf; code repo: VAE-TracIn-pytorch).

----------分割线----------

无监督生成学习:最近的denoising diffusion probabilistic model(DDPM)绝对是热坑,效果好,但是速度慢没有meaningful latent space限制了很多应用,有待发掘。我去年实习写了一篇DiffWave是这个方法在语音上的应用,效果很好,最近应该能看到这个模型的application井喷,比如3D point cloud生成。

6-3 update: DDPM的加速最近已经有不少paper了,目前来看有几类,有的用conditioned on noise level去重新训练,有的用jumping step缩短Markov Chain,有的在DDPM++里面研究更快的solver. 我最近写了FastDPM, 是一种结合noise level和jumping step的快速生成的框架(无需retrain, original DDPM checkpoint拿来直接用),统一并推广了目前的好几种方法,给出了不同任务(图像, 语音)的recipe (paper: https//arxiv.org/pdf/2106.00132.pdf; code repo: FastDPM_pytorch).

生成模型里的Normalizing flow模型,用可逆网络转化数据分布,很fancy 能提供likelihood和比较好的解释性但是效果偏偏做不上去,一方面需要在理论上有补充,因为可逆或者Lipschitz网络的capacity确实有限。另一方面,实际应用中,training不稳定可能是效果上不去的原因,其中initialization 和training landscape都是有待研究的问题。潜在的突破口:augmented dimension或者类似surVAE那种generalized mapping. 除此之外,normalizing flow on discrete domain也是很重要的问题,潜在突破口是用OT里面的sinkhorn network.

6-3 update: 我对residual flow这个模型有执念,很喜欢这个框架,虽然它不火。今年早些时候我写了residual flow的universal approximation in MMD的证明,很难做,需要比较特殊的假设 (paper: https://arxiv.org/pdf/2103.05793.pdf)。之后可能继续钻研它的capacity和learnability.

再补充一个

生成模型的overfitting是一个长久的问题,但是本身很难定义,很大一个原因是mode collapse和copy training data耦合在一起。我们组去年发表了data-copying test用于检测相关性质,不过这个idea还停留在比较初级的阶段,我觉得这一块需要更多high level的框架。

----------分割线----------

Meta learning + generative model方向个人十分看好,meta learning 框架可以直接套,loss改成生成模型的loss就可以了。Again, GAN已经被做了,不过GAN的paper那么多,随便找上一个加上meta learning还是很容易的。类似可以做multitask + GAN.


深度学习路线

  • 0
  • 0
  • 5577
收藏
暂无评论