• 问答
  • 技术
  • 实践
  • 资源
论文推荐 | ECCV 2020 最佳论文、小于 0.1mm 微型四脚机器人;
技术讨论
内容来源:机器之心

参与:**杜伟、楚航、罗若天**


本周值得关注的论文有康奈尔大学主导研发的小于0.1 mm 微型四脚机器人,以及ECCV 2020 各奖项论文。

目录:

1. Vid2Player: Controllable Video Sprites that Behave and Appear like Professional Tennis Players

2. AutoSTR: Efficient Backbone Search for Scene Text Recognition

3. Neural Logic Reasoning

4. RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

5. HetETA: Heterogeneous Information Network Embedding for Estimating Time of Arrival

6. Electronically integrated, mass-manufactured, microscopic robots

7. ArXiv Weekly Radiostation:CV更多精选论文


论文 1:Vid2Player: Controllable Video Sprites that Behave and Appear like Professional Tennis Players

摘要:**斯坦福大学提出的系统可将带标注的网球比赛视频转换为可交互控制的视频,其中运动员的行为和表现都和职业网球运动员相似**。该论文方法基于可控的视频纹理,以带标注的网球视频数据库作为输入,该数据库的标注为重要的比赛信息,如触球的时间和位置、击球类型等。研究人员在构建数据库时重点关注温网赛事视频,包括罗杰 · 费德勒、拉斐尔 · 纳达尔和诺瓦克 · 德约科维奇等热门选手的比赛;以及 2018 年和 2019 年温布尔登网球锦标赛上小威廉姆斯对阵西蒙娜 · 哈勒普和卡米拉 · 吉奥尔吉的比赛。

file

file

推荐:这个系统还能创建一些从未见过的「名场面」,比如费德勒自己和自己打球。


论文 2:AutoSTR: Efficient Backbone Search for Scene Text Recognition

摘要:由于文本实例的多样性和场景的复杂性,场景文本识别(Scene Text Recognition, STR)具有挑战性。然而,目前还没有任何 STR 方法可以保证主干网络在不同的多样性和复杂性环境中适用。

在这篇论文中,来自华中科技大学和第四范式的研究者受神经架构搜索(Neural Architecture Searh, NAS)的启发,提出了自动 STR(AutoSTR),它可以通过搜索数据相关的主干网络来提升文本识别性能

研究证明,运算选择和下采样路径在 NAS 的空间搜索设计中都非常重要。研究者通过一个两步搜索算法解耦了运算和下采样路径,从而在给定空间中实现高效搜索。实验表明,通过搜索数据相关的主干网络,AutoSTR 可以在标准基线上优于其他 SOTA 方法,同时使用的 FLOPS 和模型参数也更少。

file

file

推荐:本文已被 ECCV 2020 会议收录。


论文 3:Neural Logic Reasoning

摘要:在本篇论文中,来自清华大学和罗格斯大学的研究者提出以逻辑集成神经网络(Logic-Integrated Neural Network, LINN)来集成深度学习和逻辑推理的能力。LINN 是一个基于输入逻辑表达式来构建计算图的动态神经结构,它学习 AND、OR 和 NOT 等基本逻辑运算,将它们作为神经模块,并通过推理网络进行命题逻辑推理。

理论任务上实验表明,LINN 在求解逻辑方程和变量方面实现了显著效果。

file

file

推荐:本篇论文是 Shaoyun Shi 在罗格斯大学访学期间写就的。


论文 4:RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

摘要:ECCV 2020 最佳论文奖由普林斯顿大学 Zachary Teed 和 Jia Deng 摘得。这项研究提出了一种用于光流的新型深度网络架构——循环全对场变换(Recurrent All-Pairs Field Transforms,RAFT)。RAFT 提取每个像素(per-pixel)的特征,为所有像素对构建多尺度 4D 相关体(correlation volume),并通过循环单元迭代地更新流场,循环单元基于相关体执行查找。

RAFT 在多个数据集上实现了 SOTA 性能:在 KITTI 数据集上,RAFT 的 F1-all 误差是 5.10%,相比先前的最佳结果(6.10%)减少了 16%;在 Sintel 数据集(final pass)上,RAFT 只有 2.855 像素的端点误差(end-point-error),相比先前的最佳结果(4.098 像素)减少了 30%。另外,RAFT 具有强大的跨数据集泛化能力,并且在推理时间、训练速度和参数计数方面具有很高的效率。

file

file

推荐:论文二作邓嘉为 ImageNet 论文的第一作者。


论文 5:HetETA: Heterogeneous Information Network Embedding for Estimating Time of Arrival

摘要:在这篇论文中,滴滴 AI Labs 技术团队针对预估到达时间任务构建了一个异质时空图,并提出了 HetETA 框架来挖掘时空图中的丰富语义信息,有效提升了预估到达时间任务的精确度。

file

file

file

推荐:本文被收录为 KDD 2020 Oral 论文。


论文 6:Electronically integrated, mass-manufactured, microscopic robots

摘要:在最新一期的《Nature》杂志中,宾夕法尼亚大学电子与系统工程系助理教授 Marc Miskin 等人研究出一种电化学驱动设备,该设备能够推动激光控制的微型机器人通过液体,并且可以很容易地与微电子组件集成,以构建完全自主的微型机器人。该研究团队由康奈尔大学的两位教授 Itai Cohen 和 Paul McEuen 以及 Marc Miskin 共同领导。

这款微型机器人包含一个硅光伏材料制成的简单电路,该电路充当躯干和大脑的角色,而四个电化学致动器构成了机器人的腿。该微型机器人的厚度大约为 5 微米、宽约 40 微米、长度在 40 至 70 微米之间,体积大致相当于草履虫等微生物。这款机器人可以在 200MV 的低电压和 10nW 的低功率条件下移动,虽然体积很小,但依然保持牢固和鲁棒性。

file

file

file

推荐:这款机器人是由标准光刻工艺制成,所以它们可以实现大规模并行生产,4 英寸的硅片上可以容纳约 100 万个机器人。

  <br>  

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括CV领域10篇精选,详情如下:

本周 10 篇 CV 精选论文是:

1. TNT: Target-driveN Trajectory Prediction.  (from Cordelia Schmid, Dragomir Anguelov)

2. Pix2Surf: Learning Parametric 3D Surface Models of Objects from Images.  (from Niloy Mitra, Leonidas J. Guibas)

3. DeepGMR: Learning Latent Gaussian Mixture Models for Registration.  (from Dieter Fox, Jan Kautz)

4. Simultaneous Detection and Tracking with Motion Modelling for Multiple Object Tracking.  (from Mubarak Shah)

5. Every Pixel Matters: Center-aware Feature Alignment for Domain Adaptive Object Detector.  (from Ming-Hsuan Yang)

6. SoDA: Multi-Object Tracking with Soft Data Association.  (from Tsung-Yi Lin, Ming-Hsuan Yang)

7. Attribute Prototype Network for Zero-Shot Learning.  (from Bernt Schiele)

8. A review of deep learning in medical imaging: Image traits, technology trends, case studies with progress highlights, and future promises.  (from Hayit Greenspan, Christos Davatzikos, James S. Duncan, Bram van Ginneken, Anant Madabhushi, Jerry L. Prince, Ronald M. Summers)

9. Monocular Expressive Body Regression through Body-Driven Attention.  (from Michael J. Black)

10. AutoSimulate: (Quickly) Learning Synthetic Data Generation.  (from Philip H.S. Torr)

  • 0
  • 0
  • 882
收藏
暂无评论