让机器 “看山是山”:脑启发的视觉计算|VALSE2018 之五

前沿资讯 Admin ⋅ 于 3个月前 ⋅ 486 阅读

原创: 张兆翔
来源: 深度学习大讲堂@微信公众号


编者按:人生之三境界的第一层,“看山是山,看水是水”,本质上展示了人“看见”的过程,以及思绪与理解在这一过程中所起的作用。

“看见”,对于人类而言,似乎是一个很简单自然的事情,其实则不然,从地球上第一个长出眼睛的生物三叶虫,走到今天的人类视觉,经历了五亿四千万年的漫长旅程。人类获得今天的视觉能力,是大自然长期进化的结果,大脑中三分之一的皮层是与视觉相关的。

因此人的视觉任务,本质上是人脑对外界视觉信号作出反应的过程,那么,研究人脑的工作机理,是否能够为计算机视觉提供一些启发,让机器“看山是山”呢?基于此,学术界开展了脑启发视觉计算领域的研究。那么过去一年中,在这一领域都取得了哪些成绩呢?

今天,来自中科院自动化所的张兆翔研究员,将带着大家回顾,脑启发视觉计算在2017年的关键进展。

文末,大讲堂特别提供文中提到所有参考文献的下载链接。
file

file
所谓脑启发的视觉计算就是从生物大脑的神经结构、认知机制、行为特性等多个层面寻求启发,引入神经科学、认知科学与心理学的先进成果,提出新的视觉计算模型与方法,克服当前模型与方法局限性,提升视觉计算的性能(准确性、鲁棒性、自适应性、可泛化性、可解释性等)。脑科学与视觉计算可以从如下两个方向加一结合,一是基于脑科学机制进行视觉计算的启发建模,二是现有服务于视觉计算的神经网络模型为脑启发机理提供分析和借鉴。
file

历史上计算机视觉的发展与脑启发的引入密切相关。很多脑机制的引入都为计算机视觉的突破提供了借鉴和创新源泉。
file

以Gabor为代表的局部特征描述子是借鉴脊椎动物视觉皮层感受野的特性而设计的,在许多计算机视觉任务上取得了很好的性能。
file

显著性注意机制从人类视觉感知的显著性注意机制中获得启发,在当前计算机视觉中的检索和检测任务中均取得了很好的性能。
file

从Neocognitron到HMAX再到当前流行的深度学习方法,都借鉴了大脑中的特征分层和处理机制。当前的主流深度学习方法甚至在识别、分割、检测等任务上取得可以媲美人类的性能。
file

机器学习专家Tom Mitchell在2017年的全球互联网大会上进一步强调了脑科学与机器智能相互交叉与借鉴的重要性。
file

下面主要从结构机制、功能机制和学习机制三个层面具体介绍2017年度脑启发视觉计算的相关研究进展。
file

在结构层面上,Boyn等人提出人工神经突触建模与硬件化方法。该方法利用神经元突触强度分布刻画记忆,通过典型的STDP实现学习,在无监督学习问题上验证了人工神经突触的可行性和先进性。这一研究为后续开展类脑器件研究奠定了坚实基础。
file

受人脑感知物体方式的启发,Hinton等提出了一种新的神经元结构Capsule。我们都知道现有卷积神经网络方法需要maxpooling操作。该操作将图像中不同基元间的结构关系完全摒弃。即便同一个人的脸,鼻子、眼睛换一个奇怪的顺序以后,maxpooling的结果也一模一样。这与人类视觉感知物体的方式有显著差别。
file

为克服上述缺陷,Hinton等提出了新的Capsule网络结构。Capsule可以看成一种新的神经元模型。 Capsule将原来神经元结构标量的输入输出转化为向量的输入和输出,并利用这些向量存储特征的不同属性,进而通过动态路由机制实现从底层到顶层的学习。该种网络结构更符合人类感知物体的方式,且具有举一反三的能力。CapsuleNet在一些视觉任务上虽然没有取得比CNN更好的性能,但作为一个尝试去探索有别于当前深度网络的新模型与新方法具有重要的研究意义。
file

在结构层面上我们课题组也进行了一系列探索。我们都知道现有卷积神经网络往往都只有一种神经元类型,但人脑中却包含多种。受此启发,我们引入多种神经元类型,并通过自主学习与选择,探索兴奋型神经元和抑制型神经元在相关任务上的有效结合。
file

我们的模型在不同任务上都获得了比单种神经元模型更好的性能。这些结果验证了模型中多种神经元的有效性,是进一步挖掘人工神经网络与生物神经网络联系的重要切入点。
file

在功能层面上,《Science》报道了一个概率生成模型,用于验证码识别。验证码识别是典型的可以测试机器视觉性能的模型,在现实中往往用于区分机器与人。现有深度神经网络往往只有前馈网络,而没有推理。该工作受系统神经科学的启发,引入递归皮试网络(RCN),以统一的框架实现验证码的检测、分割与识别。
file

RCN模型有前馈过程,有反馈过程。通过不断迭代,使得前馈和反馈同时进行,最后很好地实现验证码的识别,即使对不同形状以及噪声遮挡下的验证码依然可以获得很好的识别性能。RCN能够模仿人脑中前馈和反馈同时处理的机制,具有很好的可解释性和可泛化性,能取得举一反三的效果。虽然该模型在验证码识别特定任务上取得了比卷积神经网络更好的性能,但也存在显著局限性。该方法往往只能用于一类对基元具有明确定义的问题,而如何将之推广到更一般的感知问题,还有待进一步探索。
file

现有卷积网络同层神经元之间没有连接,而人脑中神经元之间却相互联系。受此启发,清华大学胡晓林等人提出了一种Recurrent Convolutional Network,实现了同层内神经元的连接。Recurrent Convolutional Network的局限是每个神经元的局部感受野随时间在不断扩大。这不符合生理学事实——人脑当中感受野一定是局部受限的。因此,作者引入一个机制来控制神经元的有效感受野,使其尺寸随内容自动变化。具体做法是在反馈连接上加入一个门控单元,其开闭由前馈信息和反馈信息同时决定,这种模型已经取得当前OCR识别任务最好的效果。
file

我们课题组最近在功能机制上也开展了一系列探索。我们借鉴人脑中多模态震荡整合机制来实现多模态的有效融合。传统多模态模型分别提取视觉模态和听觉模态特征,通过简单连接实现视听多模态的融合。这种方式虽然简单,但容易造成信息的混叠,往往效果不太理想。我们的研究引入了长短时记忆同步关联与记忆共享表达,通过借鉴人脑当中类似震荡机制的方式,实现视听模态的有效整合。
file

我们的工作与单模态方法,其他的多模态整合方法相比具有优越性,同时也呼应了神经科学中的多模态震荡整合机制。
file

在学习机制层面上,自动化所刘成林老师团队提出了原型学习的思想。我们都知道卷积神经网络是通过最后的softmax层实现识别,而softmax层在转换的时候已经固定了类别的个数,因此传统模型处理的识别问题往往都是封闭问题。然而很多视觉计算问题都是开放的,为实现开放环境下的识别,他们通过结构模型的方法,将结构模型识别与统计模型相结合,通过将softmax层替换成原型层,实现了概念发现与噪声拒识,进而实现开放环境下的理解。
file

人脑往往可以实现连续学习,即人在学习一个任务以后,学习新的任务并不会降低原来任务的性能。而现有的计算机模型却不能实现这样的功能,它们在执行任务1后,再执行任务2时,会直接在任务1的参数基础上进行微调来进行训练。这样使得任务2训练好后,任务1的参数被遗忘。
file

如何实现连续学习呢?受哺乳动物和人类大脑固化既往获得的技能和记忆的理论启发,Deepmind引入ProgressiveNN, PathNet, EWC来达到连续学习的目标。比如针对新的任务构建网络时,保留和旧任务相关的网络,path和重要参数,实现旧的任务和新任务之间的共生,使网络具有连续学习的能力。
file

最后总结一下今天的内容。我们认为脑科学研究从分子到行为多个层面都可以进行探索,是视觉计算理论取得突破的重要创新源泉。现有视觉计算理论与方法在鲁棒性、自适应性、可泛化性、可解释性等问题上仍然存在固有缺陷,需要以脑为参照物加以对照,寻求借鉴。向脑学习,开展脑启发的视觉计算具有十分广阔的创新空间与发展前景。

文中参考文献下载链接为:

https://pan.baidu.com/s/1ptnKvOtatbMqPImBNo0Ngw 密码: x6qr

主编:袁基睿 编辑:程一

整理:曲英男、杨茹茵、高科、高黎明

--end-

微信公众号: 极市平台(ID: extrememart )
每天推送最新CV干货

成为第一个点赞的人吧 :bowtie:
回复数量: 0
暂无回复~
您需要登陆以后才能留下评论!