• 问答
  • 技术
  • 实践
  • 资源

  • 0

    关注
  • 0

    获赞
  • 0

    精选文章
近期动态
  • 专栏文章
  • 社区提问
一文读懂 PyTorch 中 Dataset 与 DataLoader

作者 | Chenllliang@知乎(已授权) 来源 | https://zhuanlan.zhihu.com/p/105578087 编辑 | 极市平台 深度时代,数据为王。 PyTorch 为我们提供的两个 Dataset 和 DataLoader 类分别负责可被 Pytorch 使用的数据集...

  • 0
  • 0
  • 236
​ICCV 2021 丨 Oriented R-CNN:面向旋转目标检测的 R-CNN

作者丨谢星星 来源丨中国图象图形学学会CSIG 编辑丨极市平台 原文链接:https://arxiv.org/abs/2108.05699 原文代码链接: https://github.com/jbwang1997/OBBDetection 谢星星 , 程塨 , 王家宝 , 姚西文 , 韩军伟...

  • 0
  • 0
  • 270
吊打 IPT,ETH 学者将 SwinTransformer 应用图像超分,图像降噪、JPEG 压缩伪影移除,性能大幅提升

作者丨happy 编辑丨极市平台 原文链接:https://arxiv.org/abs/2108.10257 code:https://github.com/JingyunLiang/SwinIR 期待已久的SwinIR终于刊出来了,它是ETH团队在Transformer+low-level方面的最新力作,大幅...

  • 0
  • 0
  • 502
深入浅出 Yolo 系列之 Yolox 核心基础完整讲解

作者丨江大白 编辑丨极市平台 在Yolov4、Yolov5刚出来时,大白就写过关于Yolov3、Yolov4、Yolov5的文章,并且做了一些讲解的视频,反响都还不错。 而从2015年的Yolov1,2016年Yolov2,2018年的Yolov3,再到2020年的Y...

  • 2
  • 1
  • 1.6k
Transformer 向轻量型迈进!微软与中科院提出两路并行的 Mobile-Former

作者丨happy 编辑丨极市平台 VisionTransformer向轻量型迈进,微软与中科院提出两路并行的Mobile-Former 已有的Transformer对标的CNN主要是ResNet系列,鲜少有对标端侧轻量模型的Transformer。本文则从轻量模型角度...

  • 1
  • 1
  • 735
更深和更宽的 Transformer,哪个更好?NUS 团队:宽面的宽!更高效的参数部署框架 WideNet

作者丨小马 编辑丨极市平台 写在前面 Transformer-based结构最近在各项任务上取得了惊人的成果。为了进一步提高Transformer的有效性和效率,在现有的工作中主要有两种思路:(1)扩大可训练参数范围;(2)通过参数共享实...

  • 0
  • 0
  • 275
深度探讨 CrossFormer 如何解决跨尺度问题

作者丨FlyEgle ​编辑丨极市平台 论文名称: CROSSFORMER: A VERSATILE VISION TRANSFORMER BASED ON CROSS-SCALE ATTENTION 论文链接: https://arxiv.org/pdf/2108.00154.pdf 论文代码:https://github.com/cheerss/C...

  • 1
  • 0
  • 535
ICCV2021 Oral-RS Loss-拒绝调参、简化训练、显著提点,检测分割任务中的新损失函数——RS Loss

​作者丨小马 编辑丨极市平台 写在前面 目标检测和实例分割往往是一个multi-task的任务,其中包含了诸如classification,box regression和mask prediction等多个子任务,因此对于这类任务的损失函数往往是多个子任务...

  • 0
  • 0
  • 528
ICCV 2021|“白嫖” 性能的 MixMo,一种新的数据增强 or 模型融合方法

作者丨小马 编辑丨极市平台 写在前面 最近的工作提出的不用额外计算的集成方法,大多是在一个网络中同时设置不同的subnet。训练时。每个subnet只学习分类多个输入数据中的其中一个。然而,如何更好地混合这些多个输...

  • 0
  • 0
  • 464
还在魔改 Transformer 结构吗?微软&中山大学开源超强的图片位置编码,涨点显著

写在前面 由于Transformer对于序列数据进行并行操作,所以序列的位置信息就被忽略了。因此,相对位置编码(Relative position encoding, RPE)是Transformer获取输入序列位置信息的重要方法,RPE在自然语言处理任务中...

  • 0
  • 0
  • 376
CNN 终于杀回来了!京东 AI 提出最强 ResNet 变体 CoTNet:即插即用的视觉识别模块

作者丨happy 编辑丨极市平台 paper: https://arxiv.org/abs/2107.12292 code: https://github.com/JDAI-CV/CoTNet 本文是京东AI研究院梅涛团队在自注意力机制方面的探索,不同于现有注意力机制仅采用局部或者全局方...

  • 1
  • 0
  • 874
# ICCV2021 Oral-MDETR:图灵奖得主 Yann LeCun 的团队&Facebook 提出端到端多模态理解的目标检测器

作者丨小马 编辑丨极市平台 写在前面 目前,多模态推理模型大多都依赖于预先训练好的目标检测器来从图像中提取proposal。然而检测器只能检测出固定类别的目标,这使得模型很难适应自由文本中视觉concept的长尾分布,...

  • 0
  • 0
  • 393
大概是全网最详细的何恺明团队顶作 MoCo 系列解读!(上)

作者丨科技猛兽 编辑丨极市平台 本文目录 1 MoCo v1 1.1 自监督学习的 Pretext Task 1.2 自监督学习的 Contrastive loss 1.3 MoCo v1 之前的做法 1.4 MoCo v1 的做法 1.5 MoCo v1 FAQ 1.6 MoCo v1 实验 1.7 MoCo v1...

  • 0
  • 0
  • 842
无需额外参数的注意力模块!中大开源 SimAM:10 行代码快速实现解析解

作者丨happy 编辑丨极市平台 code: https://github.com/ZjjConan/SimAM 本文是中山大学在注意力机制方面的尝试,从神经科学理论出发,构建了一种能量函数挖掘神经元重要性,并对此推导出了解析解以加速计算。通过Ima...

  • 0
  • 0
  • 895
ICCV2021 最全整理:论文分类汇总 / 代码 / 项目 / 论文解读(更新中)【计算机视觉】

计算机视觉三大顶会之一ICCV2021接收结果已经公布,本次ICCV共计 6236 篇有效提交论文,其中有 1617 篇论文被接收,接收率为25.9%。 接收论文ID:https://docs.google.com/spreadsheets/u/1/d/e/2PACX-1vRfaTmsNweua...

  • 0
  • 0
  • 2.1k
视觉解析器 ViP:牛津大学&字节跳动提出 Visual Parser,显式建模高级语义信息

作者丨小马 编辑丨极市平台 写在前面 人类视觉系统能够从场景中捕获part-whole(部分-整体)的信息。在part信息方面,人类视觉系统能够将场景中的人、动物、水果、蔬菜等高级语义信息从整张图片中区分出来。在whole...

  • 0
  • 0
  • 639
视觉解析器 ViP:牛津大学&字节跳动提出 Visual Parser,显式建模高级语义信息

作者丨小马 编辑丨极市平台 写在前面 人类视觉系统能够从场景中捕获part-whole(部分-整体)的信息。在part信息方面,人类视觉系统能够将场景中的人、动物、水果、蔬菜等高级语义信息从整张图片中区分出来。在whole...

  • 0
  • 0
  • 313
视觉解析器 ViP:牛津大学&字节跳动提出 Visual Parser,显式建模高级语义信息

作者丨小马 编辑丨极市平台 写在前面 人类视觉系统能够从场景中捕获part-whole(部分-整体)的信息。在part信息方面,人类视觉系统能够将场景中的人、动物、水果、蔬菜等高级语义信息从整张图片中区分出来。在whole...

  • 0
  • 0
  • 481
搞懂 Vision Transformer 原理和代码,看这篇技术综述就够了(十四)

作者丨科技猛兽 编辑丨极市平台 本文目录 31 T2T-ViT:在ImageNet上从头训练视觉Transformer (来自新加坡国立大学冯佳时团队,依图科技颜水成团队) 31.1 T2T-ViT原理分析 31.2 T2T-ViT代码解读 32 VOLO刷新CV多项...

  • 0
  • 0
  • 745
霸榜 COCO 和 Cityscapes!新的通道和空间注意力建模结构 Polarized Self-Attention

作者丨小马 编辑丨极市平台 【写在前面】 注意力机制是一个被广泛应用在各种CV任务中的方法。注意力机制根据施加的维度大致可以分为两类:通道注意力和空间注意力。对于通道注意力机制,代表性的工作有SENet[2]、ECA...

  • 0
  • 0
  • 557
圆形的 CNN 卷积核?清华黄高团队&康奈尔提出圆形卷积,进一步提升卷积结构性能!

​作者丨小马 编辑丨极市平台 Circle Kernel:清华黄高团队、康奈尔大学提出圆形卷积,进一步提升卷积结构的性能 【写在前面】 目前正常卷积的感受野大多都是一个矩形的,因为矩形更有利于储存和计算数据的方便。但是...

  • 0
  • 0
  • 738
最新!基于深度学习的盲图像超分技术一览

作者丨happy 编辑丨极市平台 盲图像超分旨在对未知退化类型的低分辨率图像进行超分增强,由于其对于实际应用的重要促进作用而受到越来越多的关注。近来,有许多新颖、高效方案(主要是深度学习方案)已被提出。尽管经...

  • 0
  • 0
  • 638
CSWin-T:微软、中科大提出十字形注意力的 CSWin Transformer

作者丨小马 编辑丨极市平台 写在前面 本文工作的出发点和目前大多数的ViT的出发点非常相似,都是为了解决Self-Attention(SA)的计算复杂度和输入特征大小呈平方的关系,导致对于一些细粒度的任务(e.g. 目标检测、...

  • 0
  • 0
  • 906
调研了 1660 篇 CVPR2021 论文,发现了自动驾驶的研究热点

来源:高新科技 郑亮 @知乎 欢迎关注 计算机视觉领域三大顶会之一的CVPR2021已经结束了,目前已公布了所有接收论文ID,一共有1663篇论文被接收,接收率为23.7\%,虽然接受率相比去年有所增加。从国外统计的数据上...

  • 0
  • 0
  • 3.6k
Multi-Scale Densenet 续作?搞定 Transformer 降采样,清华联合华为开源动态 ViT!

作者丨小马 编辑丨极市平台 先验知识 Transformer最近在CV领域展现出了不错的效果,Vision Transformer(ViT)的大致流程可分为两步: 1)因为Self-Attention(SA)的计算复杂度是和输入特征的大小呈平方关系的,所...

  • 0
  • 0
  • 538
图神经网络常用方法的统一观点

来源:知乎@ deephub AI方向干货分享,喜欢请关注 图注意、图卷积、网络传播都是图神经网络中消息传递的特殊情况。 消息传递网络(MPN)、图注意力网络(GAT)、图卷积网络(GCN),甚至网络传播(NP)都是属于图神...

  • 0
  • 0
  • 1.4k
加载更多
的专业名片

  • NaN

    关注
  • NaN

    获赞
  • NaN

    精选文章
所获殊荣

扫描二维码,进入极市社区
找到更多CV大咖

他的专栏