论文推荐 | MIT 利用 AI 发现迄今最强抗生素;管轶团队穿山甲中发现冠状病毒

本周的重要论文有管轶课题组与胡艳玲课题组在穿山甲样本中发现冠状病毒以及 MIT 合成生物学中心研究人员利用深度学习方法发现新型抗生素分子 halicin。

目录:

1. Identification of 2019-nCoV related coronaviruses in Malayan pangolins in southern China

2. Fully hardware-implemented memristor convolutional neural network

3.A Deep Learning Approach to Antibiotic Discovery

4. MALA: Cross-Domain Dialogue Generation with Action Learning

5. Gradient Boosting Neural Networks: GrowNet


论文 1:Identification of 2019-nCoV related coronaviruses in Malayan pangolins in southern China

摘要:2 月 18 日,来自香港大学管轶课题组与广西医科大学胡艳玲课题组合作的研究被提交到生物学预印版论文平台 BiorXiv 上。研究人员对广西和广东反走私行动中查获的多个穿山甲样本进行了检测,并在穿山甲样本中发现了冠状病毒,属于此次新冠病毒的两个亚型,其中一个受体结合域与新冠病毒密切相关。

研究显示,穿山甲体内发现的冠状病毒与新冠病毒全序列相似性为 85.5-92.4%, 低于蝙蝠 RaTG13 的 96.2%。但穿山甲病毒的受体结合域(RBD)与新冠病毒更相似,达 97.4%,5 个关键位点完全相同。相比之下,蝙蝠 RBD 与新冠病毒的相似性只有 89.2%,5 个位点只有 1 个相同。此外,新冠病毒 RBD 以外序列与蝙蝠序列更相似,提示存在趋同进化或病毒重组。

file

通过扩增子测序等技术,研究者获得了 6 份完整或接近完整的病毒基因组序列,在系统发育分析中,这些都属于新冠肺炎(2019-nCoV)病毒的同族。

file

这些病毒的基因组结构也与 2019-nCoV 相似。

file

2019-nCoV 与广东穿山甲冠状病毒在受体结合域上表现出了非常高的序列相似性,尽管它的其余部分与蝙蝠冠状病毒 RaTG13 在病毒基因组方面的关系最为密切。

推荐:在此前华南农业大学的研究报告后,管轶等人的新论文为穿山甲作为新冠病毒中间宿主的思路提供了进一步的证据

论文 2:Fully hardware-implemented memristor convolutional neural network

摘要:基于忆阻器的神经形态计算系统为神经网络训练提供了一种快速节能的方法。但是,最重要的图像识别模型之一——卷积神经网络还没有利用忆阻器交叉阵列的完全硬件实现。此外,由于硬件实现收益小、变化大,设备特性不完善,其结果很难媲美软件实现。

不久之前,来自清华大学和马萨诸塞大学的研究者在《自然》杂志上发表文章,提出用高收益、高性能的均匀忆阻器交叉阵列实现 CNN,该实现共集成了 8 个包含 2048 个单元的忆阻器阵列,以提升并行计算效率。此外,研究者还提出了一种高效的混合训练方法,以适应设备缺陷,改进整个系统的性能。研究者构建了基于忆阻器的五层 CNN 来执行 MNIST 图像识别任务,识别准确率超过 96%。

file

基于忆阻器的硬件系统具备可靠的多级电导率状态。

推荐:研究者构建的基于忆阻器的五层 CNN 在 MNIST 手写数字识别任务中实现了 96.19% 的准确率,为大幅提升 CNN 效率提供了可行的解决方案。


论文3:A Deep Learning Approach to Antibiotic Discovery

摘要:在过去的几十年里,研发人员使用多种传统方法挖掘新的抗生素,但很多时候他们会一次又一次地发现相同的分子,因此新抗生素的发现步履维艰。在此背景下,生物医学界亟需新的方法来帮助发现新抗生素。

为了解决上述问题,来自 MIT 合成生物学中心的研究者开发了一种可以预测抗生素分子活性的深度学习方法,从超过 1.07 亿种分子中识别出了强大的新型抗生素分子——halicin。halicin 可以对抗多种细菌,如肺结核以及被认为无法治疗的菌株。而且,这种新发现的分子在结构上与已知的抗生素分子有很大不同。

虽然之前已有使用人工智能作用于部分抗生素发现的应用案例,但研究团队强调,此次最新发现是基于没有任何先前假设的情况下,完全从零开始识别出的全新抗生素种类。

file
论文的图片摘要。
file

研究者针对每一个组成部分的 SMILES 表达式建立分子图,其中 SMILES 是一种用 ASCII 字符串明确描述分子结构的规范。

推荐:这是人类首次完全使用人工智能的方法发现新抗生素。

论文 4:MALA: Cross-Domain Dialogue Generation with Action Learning

摘要:任务导向的对话系统的主要工作就是在多轮对话中提取出用户的需求,并完成其需求。过去的方法将整个任务看做一个整体来解决,使用生成模型(Encoder-Decoder)直接将对话映射到对应的回答上,但实际上,这个任务是由两部分组成的——对话规划(Dialogue planning)和外部实现(surface realization)。对话规划是指找到完成用户的需求的动作(如找到用户喜欢的食谱或是向用户推荐餐厅),而外部实现则是指将这些动作变成对话内容,这两个任务是会互相影响的,在优化动作选择时会影响到生成的对话的质量,所以直接将这两步合并成一步是不可行的。

为了完成上述任务,本文提出了一种三段式方法。首先,为了将潜在意图编码为语义隐动作,作者将一个损失定义为 VAE 重建的对话是否会像输入话语一样引起相似的状态转换。为了更有效地区分话语之间的潜在意图,作者还引入了一种比较两个系统话语之间结果状态转换相似性的正则化。本文提出的三步分别是对应有标注数据、无标注数据但可以迁移、专有领域三种情况下的模型训练方法。

file

MALA 三段式整体框架,即语义隐动作学习、跨域动作对齐和特定域动作学习。

file

完整模型(MALA-S3)的效果在两个实验中均取得 SOTA 表现。

推荐:本文主要贡献是通过将问题分解的更加精细、更加全面的模型(三段式模型)来对问题进行解决。


论文 5:Gradient Boosting Neural Networks: GrowNet

摘要:在本文中,来自普渡大学、加州大学洛杉矶分校、领英和亚马逊的研究者将浅层神经网络部署作为弱学习器,并提出一种新型梯度提升框架 GrowNet。在这种统一框架下,一般损失函数可以为分类、回归和排序学习(learning to rank)提供具体示例。此外,合并一个完全正确的步骤(fully corrective step)又能够弥补经典梯度提升决策树的贪婪函数近似的缺陷。

在本文中,研究者提出的 GrowNet 模型在多个数据集的三项任务上均取得了 SOTA 结果,控制变量研究也阐明了每个模型组件和模型超参数的影响。

file

_本文提出的 GrowNet 架构图。_在第一个弱学习器之后,根据原始输入的组合特征和前一个弱学习器倒数第二层的特征来训练每个预测器。

file

在 Higgs Bozon 数据集上的分类结果(以 AUC 计),其中研究者展示了使用所有数据、10% 数据(1M)和 1% 数据(100K)三种情况下的分类结果。

file

在音乐发布年(music release year)和出自加州大学尔湾分校机器学习库的片定位(slice localization)数据集上的回归结果(以 RMSE 计)。

file

在 NDCG@5 和 NDCG@10(NDCG,归一化折损累积增益)、微软排序学习(10K 查询)和雅虎 LTR 数据集上的排序学习结果。

推荐:研究者进一步发现,由于这种新型梯度提升框架 GrowNet 能够实现更佳性能、更短训练时间以及更方便调整,所以在分类、回归和排序学习任务上是 DNN 的更好替代方案。

本周 10 篇 CV 精选论文:

1. Recognizing Families In the Wild (RFIW): The 4th Edition.  (from Joseph P. Robinson, Yu Yin, Zaid Khan, Ming Shao, Siyu Xia, Michael Stopa, Samson Timoner, Matthew A. Turk, Rama Chellappa, Yun Fu)

2. Residual-Sparse Fuzzy $C$-Means Clustering Incorporating Morphological Reconstruction and Wavelet frames.  (from Cong Wang, Witold Pedrycz, ZhiWu Li, MengChu Zhou, Jun Zhao)

3. Automated Labelling using an Attention model for Radiology reports of MRI scans (ALARM).  (from David A. Wood, Jeremy Lynch, Sina Kafiabadi, Emily Guilhem, Aisha Al Busaidi, Antanas Montvila, Thomas Varsavsky, Juveria Siddiqui, Naveen Gadapa, Matthew Townend, Martin Kiik, Keena Patel, Gareth Barker, Sebastian Ourselin, James H. Cole, Thomas C. Booth)

4. Weakly-Supervised Semantic Segmentation by Iterative Affinity Learning.  (from Xiang Wang, Sifei Liu, Huimin Ma, Ming-Hsuan Yang)

5. Model-Agnostic Structured Sparsification with Learnable Channel Shuffle.  (from Xin-Yu Zhang, Kai Zhao, Taihong Xiao, Ming-Ming Cheng, Ming-Hsuan Yang)

6. When Radiology Report Generation Meets Knowledge Graph.  (from Yixiao Zhang, Xiaosong Wang, Ziyue Xu, Qihang Yu, Alan Yuille, Daguang Xu)

7. Directional Deep Embedding and Appearance Learning for Fast Video Object Segmentation.  (from Yingjie Yin, De Xu, Xingang Wang, Lei Zhang)

8. DivideMix: Learning with Noisy Labels as Semi-supervised Learning.  (from Junnan Li, Richard Socher, Steven C.H. Hoi)

9. Deep Learning-Based Feature Extraction in Iris Recognition: Use Existing Models, Fine-tune or Train From Scratch?.  (from Aidan Boyd, Adam Czajka, Kevin Bowyer)

10. An interpretable classifier for high-resolution breast cancer screening images utilizing weakly supervised localization.  (from Yiqiu Shen, Nan Wu, Jason Phang, Jungkyu Park, Kangning Liu, Sudarshini Tyagi, Laura Heacock, S. Gene Kim, Linda Moy, Kyunghyun Cho, Krzysztof J. Geras)



来源:
机器之心@微信公众号&ArXiv Weekly Radiostation
参与:杜伟、楚航、罗若天

推荐阅读:
2020 AI 算法岗春招汇总 & 面经大全来了!点击接收你的招聘秘籍
【美团】【北京】【实习】AI 平台 / 视觉智能中心-计算机视觉算法岗
【【中科院自动化所】【北京】 【实习】模识国重-图像与视频组

微信公众号: 极市平台(ID: extrememart )
每天推送最新CV干货