MIT用神经网络重现生物视觉系统发《自然神经科学》后再中NeurIPSOral

雷锋网 AI 科技评论按:机器学习顶会 NeurIPS 2019 快要在 12 月开幕了。在 NeurIPS 2019 收到的 6743 篇投稿中,有 1428 篇被接收为会议论文,其中有 36 篇为 Oral (口头报告)论文,比例仅为 2.5%,足见 Oral 论文的含金量。

在这 36 篇 Oral 论文中,来自 MIT McGovern大脑研究院、大脑与认知科学研究部 James DiCarlo 教授团队的论文《Brain-Like Object Recognition with High-Performing Shallow Recurrent ANNs》(用高表现的浅层循环结构人工神经网络实现类似大脑的物体识别)吸引了我们的注意。他们以人类大脑的工作方式为样本,重新设计人工神经网络的结构,以浅层神经网络+循环结构在物体识别任务中取得了优秀的、类似生物视觉系统的表现。

图说:高拉特的哥哥 网络图

不过总的来说,两个领域共同达成了对神经处理的每一阶段都效果不错的预测模型。重新再来看行为模式图的话,深度CNN其实跟人类的也很像,但是总体和角落处的准确率更高;除了图中的这个Inception v3的结果外,其他CNN的表现也很像。

图说:高拉特的父亲 网络图

借助这样的方法, 关于 IT 中区域对图像的响应就可以构建非常高维的响应向量,如图中所示,大概在100到1000个神经细胞特征上测量得到的8个向量已经绘制成了图像的样子(长条),绿色表示响应高,黑色表示响应低。他们测量了2000个种类图像的向量,没有测试更多种类的原因是用类似的特征做了50次左右的反复测量以获得非常高的信噪比。

根据误识别模式矩阵,人类表现和非人的灵长类动物表现基本相同,不仅体现在总体准确率上,也体现在会把哪些东西之间认混上。这样就可以在动物身上做神经级别的测试和操控,获得数据的类别和数量都可以大幅度提高。在此基础之上就可以对信息处理的机制进行系统性的研究。

国家队生涯,高拉特唯一一次被巴西国家队征召,是2014年巴西与哥伦比亚、厄瓜多尔进行友谊赛期间,当年9月9日,他在巴西1:0击败厄瓜多尔的友谊赛中替补登场上演国家队首秀。关于巴西国家队,高拉特曾表示:“我过去总是把自己的未来交给巴西国家队,但是没有被选择。”而如今,他的国家队梦想即将在中国实现。

这项成果的意义远不在于物体识别和深度学习本身。实际上,James DiCarlo 教授团队本来做的就是大脑与认知科学研究,探索、设计工作方式相仿的人工神经网络可以帮助他们更好地理解生物大脑的原理。今年 4 月,James DiCarlo 教授团队就曾在顶级期刊《Nature Neuroscience》(自然:神经科学)上发表论文《Evidence that recurrent circuits are critical to the ventral stream’s execution of core object recognition behavior》(证据表明循环结构对核心物体识别行为中处理腹侧神经流的过程有关键影响),展现了人工神经网络对神经科学研究的帮助效果。

本文对这两篇论文的内容一并进行介绍。

人类/灵长类的大脑视觉皮层已经有了很多研究成果,人们已经知道可以分成 V1、V2、V4、IT四个区域。整个视觉系统的工作流程图画出来的话就是图中这样,把视网膜上的细胞看作像素的话,外界的视觉刺激首先组成视网膜色谱图,然后经过视网膜级别的 LGN 以后依次来到大脑皮层的 V1、V2、V4、IT 区域,每个区域都有百万级别的细胞;然后每个区域与视网膜形成不同的区域对应特性,对输入信号的表征空间也逐步发生变化,人们也就是由此进行的划分,从而把视觉系统看作是一个深度分层网络。由于 IT 区域在最后,有最高的抽象级别,所以 IT 区域与视网膜的区域对应性也是最弱的,而在物体识别任务中对不同类别物体的响应模式也是最明确的。

高拉特先前因为膝伤,而摘除了部分半月板。从伤病中恢复后,他的中国队首秀很可能放在明年三月份,届时中国男足将在世预赛迎战马尔代夫和关岛。(新民晚报记者 厉苒苒)返回搜狐,查看更多

首先要对研究对象在领域内的表现做定义和可操作化处理,尤其要关注的是现在制造出的系统相比生物大脑有哪些不足; 然后测量系统中会对表现产生重大影响的组件,比如他就需要测量一些生物特性,测量时候要谨慎地选择测量哪几个具体指标; 最后在以上的限制之下进行前向工程,构建模型,用模型把数据组织起来。对于模型而言,它不仅需要能够解释、获取数据,它还要能够预测新的数据。这样一来,建模也就是最关键的一步。

高拉特出生“足球世家”,父亲维托尔·戈麦斯·佩雷拉曾是一位职业球员,而其叔叔鲁道夫·佩雷拉则一直在当地负责青训工作。

在当时的所有研究成果中,V1 阶层左右的神经细胞功能已经有了很好的解释和模型,虽然都是只考虑了前馈的模型,但用来解释 V1的响应的时候已经可以有超过50%的符合程度;但是各种计算模型对 IT 中响应的近似都不好,最多只有20%。所以那时候的模型表现都很差。

为了继续深入研究、解析其中的原理,他们用AMT众包和猴子收集了更多数据, 这样就可以观察非常细粒度的数据,针对每一副正确识别或者没能正确识别的图像,从行为的角度进行分析。

图说:高拉特在中国迎来自己的一对双胞胎 图TP

高拉特小时候由于个子不高且长得胖,所以被称为胖子。身材曾差点成为断绝高拉特职业生涯的致命伤。2006年,15岁的高拉特到圣保罗试训却没被相中,被圣保罗拒绝后,高拉特一度很消沉,甚至想放弃。后来,高拉特又到圣卡埃塔诺等多家球队试训,但都因为又矮又胖因此都碰了壁。直到2008年,他终于被巴乙球队圣安德雷看中,并在圣保罗州U20联赛小组赛对阵圣保罗的比赛中打进了唯一进球,报了当年被拒之仇。2009年,因为在U20联赛中表现出色,高拉特被提升到一线队。

通过这三个步骤之间的互动构建好模型以后,就可以尝试拓展模型的应用领域了。

如何构建能够解释 IT 特征的计算性网络

另一方面,既然 IT 神经细胞的响应是在一个 n 维空间中的,能否算出来这个 n 维空间的基的数目是多少,也就是 IT 中表征类别所用的特征集的大小是多少呢?他们就利用线性回归的方法研究神经响应模式,得到特征集,用特征集表示神经响应向量,最后用这样的表示模式尝试对识别行为做预测,结果是特征集的大小达到500的时候就能够准确预测了。这个发现很惊人,通过不同的方法得到了同样的数字。这也同样支持了IT是支持各种物体识别任务的基础。图中几个人就是教授的研究小组中跟他一起研究了几年的几位学生。

教授的研究内容是人类的大脑,研究它是如何工作的、如何用计算的方式模拟它;而CV界的研究目标则是尝试构建出达到人类大脑表现的系统。所以在教授看来,希望CV界的人也能够从神经科学的研究中受益。

根据教授的测试,从把图像呈现给眼睛,到 IT 产生响应,其中的延迟大约100毫秒。他们测量响应的方法是在猴子大脑的不同区域植入多通道电极,测量到了神经脉冲的电极就显示为了图中测试结果中的一个亮点,很多个亮点就组成了雪花一样的测量结果。通过四张图像、IT 中三个不同区域的测量结果,可以明显看出 IT的这个约100毫秒的响应延迟。它同时也体现出,IT 中的不同区域的对同一个类别图像的响应是不一样的。

在中国的职业生涯是高拉特职业生涯的转折。昨天,在接受媒体采访时,高拉特表示,自己对目前在中国的生活感到满意。“我非常高兴入籍,我在中国广州生活了五年,孩子也出生在那里,这个国家很欢迎我。2020年充满希望,我们将在这个冬歇期竭尽全力,让球队表现得更好。”

教授的测试中用到了人和猴子

证据表明循环结构对核心物体识别行为中处理腹侧神经流的过程有关键影响 论文地址:https://www.nature.com/articles/s41593-019-0392-5  (闭源) 论文摘要: 对动物的研究表明,灵长类动物的视觉系统中有密集的循环式腹侧神经流,并最终在颞下皮层(IT Cortex)汇集,这构成了它们的核心物体识别行为。目前对这种行为建模效果最好的模型是深度卷积神经网络(CNN),但 CNN 却是不带有循环结构的。这就给研究人员们带来了一个疑问:如果动物神经系统追踪的循环结构对它们的行为如此重要,那么灵长类的识别系统就应当在同时需要前馈颞下皮层响应以及额外的循环信号处理的图像识别任务中得到高于只有前馈的深度 CNN 网络的表现。 在这项研究中,作者们首先使用行为学方法找到了数百张这样的「有挑战」的图像(能体现出循环结构的优势)。其次,借助大规模电生理学方法,作者们把其它动物中的有足够识别能力的物体识别方案和灵长类进行了行为学角度对比,发现识别有挑战性的图像时,前者的信号在颞下皮层汇集的时间要比灵长类迟大约 30ms。然而深度 CNN 的行为却很难预测这种行为学角度有显著区别的滞后颞下皮层响应。值得一提的是,非常深的 CNN 和浅一些的循环结构 CNN 对这些滞后响应的预测就要好一些,这表明额外的非线性变换与循环结构之间存在一定的功能等效性。 作者们由此提出,循环结构的信号通路对于快速物体识别起到了关键作用,这也得到了实验证实;除此之外,实验结果还为未来的循环结构模型开发提供了强有力的限定条件。

来自神经网络的新分歧

在非常细的粒度下,猴子和人类的表现仍然非常接近。但是图像间表现的稳定性/特征集方面,CNN就与人类和猴子的差别很大了。

作为神经科学家设计的模型,它不再是黑箱子,它的内部机能是和人类大脑的机能对应的。不仅是IT,V4视觉皮层的预测也达到了新高。图中的数据也不是来自网络已经见过的类别,而展示的是模型泛化后的结果,“预测”。

那么总结来说,IT 的特征空间就是生物识别能力的潜在基础,借助简单的线性分类应对多数甚至全部物体识别中的挑战。IT神经群就是一个相对固定的基础特征集,几乎不需要反向训练就可以用于完成许多物体相关的任务。

然后他们把模型里对应 IT 的部分的特征表示和真实神经的IT响应拿来做对比。首先在识别正确率上已经和人类表现相近。

下面用到的方法对 CV 界的人来说就要熟悉一些了。首先把 IT 中细胞的响应向量化,测量 n 个细胞的响应信号,对每个输入的照片可以测量到 n 个细胞的响应模式,得到 n 维特征空间中的向量表示;这个 n 维空间的基的数目就是找到的特征数目。接下来,对不同的含有脸部图片的图像/没有脸部的图像测量响应模式,就可以尝试能否为特征空间中的点找到一个线性分类器。

下面我们一起重温 AI 科技评论全文整理的演讲内容。

这样下来,获得的高质量的神经细胞响应模式就可以成为IT能够影响动物形成行为决定的有力证据。用线性解码器的方法,根据 IT 神经细胞的响应向量对误识别行为做预测,跟直接测量行为得到的结果相符程度非常高。同样的方法对视网膜级别的响应是无法达到这样的预测结果的(这也说明了 IT 细胞响应的类别相关性)。

不过神经科学家能否坐等性能越来越好的神经网络模型,期待着靠它们就能对人类的识别模式有越来越好的理解呢?其实不行,教授自己的实验室的模型是橘色点,随着模型的进步,识别性能和解释性能都得到提高;但是机器学习方面的近期模型仅仅关注图像分类表现的提升,所以随着分类表现的提高,对 IT 细胞响应的解释能力下降了。

最理想的状态是上面的 PPT 中黄色的这种,CV界的人把自己的研究看作是尝试构建系统的前向工程,不过要符合一些大脑本身和认知科学的限制。神经科学界的人就是反过来,把大脑看作已经构建好的系统,研究大脑的限制和原理、尝试模仿大脑结构的反向工程,在过程中逐步对所用的机理和例子做验证。这样,神经科学和神经网络的研究可以看作是互为表里,这样的研究成果也会给脑机互动带来更多的可能性。

教授今天要讲的就是依托这三个步骤,总结他在建立端到端的灵长类中心物体感知系统模型中的进展。

在有这些研究结果以后,教授的研究小组就开始被这一系列问题困扰:如何根据神经细胞的响应特点解释测试中出现的误识别行为?生物表现出的外在行为肯定是受到 IT 的神经响应模式影响的,那么如何找到这种关系?IT 区域的输出神经有一千万个,又如何从这一千万个神经细胞中读取信号?

教授在研究中进行测试时使用的是生成的图像,在不相关的背景下放置不同观察角度的物体。之所以这样选择的原因是,当他开始研究时,同时代的CV系统很容易被不相关的背景扰乱识别结果,但是人类就不会受到什么影响;另一方面,CV系统对于更多姿态和变化时的识别有更大困难,但是人类表现得也很好,体现出了视角无关性,所以他认为这样的图像可以更好地展现出人类视觉系统的特点。

训练猴子做识别测试很容易。教授根据人类和猴子的测试画过出了这样的识别模式矩阵,其中根据不同的复杂程度排列了各种物体。每个格子的含义是把这个类别的物体和另一个类别的物体正确区分的比例,颜色越偏红,识别准确率就越低;越偏蓝,识别准确率就越高。 

来到恒大后,高拉特已迅速成为了恒大球迷心中的宠儿。在中国生活了5年,甚至在广州迎来一对双胞胎的诞生,高拉特数次表示,广州已成为自己的第二故乡。今年1月15日高拉特租借回归到巴西,加盟帕尔梅拉斯。不过仅仅4个月之后高拉特就被召回,当时,有关高拉特归化的消息就已盛传。

在40强赛中,中国客场战平菲律宾、不敌叙利亚,艾克森在前场独木难支。高拉特的成功归化也为国足进入12强赛增添了重要砝码。相对武磊和艾克森来说,高拉特中场的组织能力更强,他可以和蒿俊闵共同串联起中国队的中前场。在如今得“中场”得天下的世界足坛,这无疑是实力上的大提升。

全体大演讲:灵长类视觉理解的反向工程

在过程中也有人尝试研究不同区域的神经是否对不同类别的物体响应强度有所区别,那么也确实发现了“面部感知神经细胞”,总体来说对人脸的响应更高,但是它们对不同的脸部图像的响应不同、对其它的类别也不是没有响应。所以这些细胞并不是严格地按照识别物体类别进行区分的细胞,它们的复杂特性也在研究中得到了一些揭示。

到了2013年的时候,当时风靡的深度神经网络AlexNet的识别表现和对 IT 神经细胞响应的解释能力都已经超过了他们的 HMO。教授这时也发自内心进行了感谢,深度神经网络方面的技术发展、建立的优秀的模型帮助神经科学家更好地了解人类大脑中的原理。

DiCarlo 教授首先感谢主办方邀请他来演讲。他来自神经科学界,这次来到CV界的会议,也是想借此机会做两个研究领域之间沟通的桥梁。

图说:高拉特归化成功 资料图 图IC

它是一个深度神经网络模型,模仿了人类视觉系统的4个级别,其中有许多计算机视觉的人非常熟悉的卷积、特征过滤器等等。别的神经科学家经常做完全的神经细胞还原仿真,而他们做的只是在已知的限制之下找到架构更高效的人造模型。HMO在这样模仿人类的IT基础上,得到了跟人类类似的正确率表现。

图说:恒大球迷很喜欢高拉特 图IC

随着高拉特的正式归化成功,国足征战世预赛的主力阵容也基本浮出水面。锋线三叉戟就是武磊、高拉特和艾克森。可以说,这三人组成的前锋线绝对是亚洲顶级。武磊在西甲西班牙多次出任首发,可以说实力进一步提升,他的跑位非常出色,突然启动的速度也不错。高拉特获得过亚冠金靴、两届中国足球先生,速度、爆发力在亚洲无敌,个人技术出色。艾克森连续两年夺得中超最佳射手,能力超强。这三人搭档,可以说任何亚洲球队都难以防住。

经过大量图像的测试,教授发现 IT 对不同类别图像的总体响应强度高低有所不同(其它神经科学家有也有研究具体某个位置的神经响应是如何变化的)。对于响应模式来说,每个IT细胞都有所不同,每次的响应也不完全相同;上一张PPT里把神经响应画成了雪花的话,那么从来就不会出现一模一样的雪花。

今天要谈的主要就是 IT 区域的信号特征。经过研究人们发现 IT 区域其实有三层特征网络,不过今天教授先按照一层的情况进行演讲。

另一方面,现有研究已经表明从 V1 开始的区域都是同时具有前馈和反馈的,教授稍后还会谈到这些。

在这里,教授再一次提到了在动物大脑内手术植入电极。通过不同区域多个电极、每个电极可以采集96个通道(96针)的信号、做大量实验的方法,对IT等部位构建了维数非常高的数据空间。获得的数据量相比以前单电极的时代也有着爆炸性的提高。

人类大脑根据视觉输入可以理解物体的类别、位置、姿态等等信息。人类的物体认知能力很强,毫不费力,很久以前就有不少关于人类的认知能力的研究成果,比如人类对物体的感知聚集在视野中心视角10度左右的范围内,然后人眼通过移动捕捉多幅画面的方式来观察完整的画面,再链接到记忆。他们把人类视觉系统这种特点称作“中心物体感知”(Core object perception)。教授研究的落脚点就是视觉对象认知任务(Object perception),重点在于类别识别。

在随后一个赛季的中超高拉特表现出色,带队卫冕中超冠军的同时还拿下了亚冠联赛冠军,同时高拉特还拿下了中国足球先生和亚冠金靴、MVP的个人荣誉。仅仅一年,高拉特就征服了所有人。

教授接下来介绍了一些研究过程中出现过的模仿灵长类视觉系统的模型,通过种种方法从输入图片形成一个特征向量,然后在最后都有一个线性分类器(可以得到物体类别)。根据脑科学研究已有的成果,大家对大脑的工程和限制已经有一些了解了,所以这些模型像大脑一样有空间局部滤波器、卷积、临界非线性、非线性池化、正则化等等,就通过这些方法来处理模型的输出。最早的神经网络是Fukushima在1980年提出的,然后经过Tomaso Poggio、David Cox、Nicolas Pinto等人的继续研究完善,来到了教授和他的学生们一起完成的HMO模型。

2015年高拉特带着巴甲冠军和巴西金球奖的荣誉转会到了广州恒大,由此开启了自己和中国之间的缘分,1500万欧元的转会费也创下当时的转会纪录。

在了解了 IT 细胞的特性以后,更实际和更深入的问也就来了:只有500个就够的 IT 神经细胞特征是如何形成的?它们是如何从视网膜信号的基础上逐步抽象的?在人类成长的过程中这些计算方法又来自哪里?如果能够研究清楚这些问题,也就对教授团队的目标有很大帮助。他们的目标就是想办法构建一个编码器模型,可以对任何一张图片、任何一个中间皮脂层都准确预测对应神经群的响应模式,刚刚的问题就是系统构成的关键问题。

然后,对于某个区域的 IT 神经细胞的具体脉冲的拟合,相比以往模型只能解释20%的变化,HMO的拟合程度得到了很大提高,大概有50%。这就说明模型中的隐含层的解释程度同样很高。

这里我们暂时不对论文做大篇幅的解读,因为 James DiCarlo 教授曾在 CVPR 2017 的特邀全体演讲中完整介绍过自己团队的研究,整个故事非常生动有趣,不仅是上述的 NeurIPS 2019 论文以及 《Nature Neuroscience》论文内容的完整、详尽的背景铺垫,更涵盖了研究的主要过程。

北京时间昨天,高拉特亲自宣布,他已经正式成为了一名中国人。而且,他还定下了一个目标:帮助国足打进卡塔尔世界杯。而伴随高拉特的归化成功,国足也拥有了艾克森、高拉特、武磊组成的世界级锋线,攻击力增强。

教授有一个有意思的发现:不需要测量太多的 IT 神经细胞特征就可以达到人类的表现,大约500个左右就够。同时代的计算机视觉模型中每个特征对模型表现的贡献就要小很多,很多的特征才能达到近似人类的表现。这说明了动物的视觉理解能力可能就是由一个维数不算高的特征集支撑的,计算模型就可以用这样的思路进行模仿。IT 大概含有一千万个输出神经细胞,但是传递的特征维数也就不到1000个。

视觉行为测试与数据特征

这时候的发展就比较有意思,虽然大脑和认知科学与计算机视觉的研究目标不同,但是他们做的事情开始有所汇合,都是想办法建立具有尽量高的性能的模型。

用高表现的浅层循环结构人工神经网络实现类似大脑的物体识别 论文地址:https://papers.nips.cc/paper/9441-brain-like-object-recognition-with-high-performing-shallow-recurrent-anns.pdf 论文摘要: 深度卷积人工神经网络是模仿灵长目生物大脑腹侧神经流的视觉信号处理机制的一类首选模型。虽然这些网络模型最早是由大脑的解剖学结构启发得到的,但在过去的几年中,这些网络早已从简单的 8 层 AlexNet 发展成为非常深非常宽的网络,在图像识别任务中的表现也越来越好;不过,它们和生物大脑还有多类似就成了新的问题。 具体来说,机器学习界提出的典型的深度模型通常都很难和人脑的解剖结构之间找到对应关系,因为它们有很多层,而且缺少循环信号通路之类的在生物结构中非常重要的连接。在这篇论文中,作者们通过实验展示了完全可以设计一个和生物结构更为相符的模型,而且让它在机器学习用的评价指标和神经科学用的指标方面都取得好成绩。 作者们设计了一个浅层人工神经网络 CORnet-S,它的结构可以直接对应到生物大脑视觉系统的四个脑区,并且带有循环信号连接。作者们也设计了一个新的评价指标 Brain-Score,用来评价人工模型还原生物视觉系统的功能保真度,其中有大量的神经和行为测试。虽然 CORnet-S 比当代的绝大多数神经网络都要浅得多,但是 CORnet-S 的 Brain-Score 分数是所有模型中最高的,而且它在 ImageNet 中的表现也要比类似规模的模型更好。除此之外,作者们对 CORnet-S 的循环连接做了大量实验分析,发现循环连接对于生物视觉系统功能保真度和ImageNet表现都有重要作用。 最后作者们还表示,CORnet-S 模型中“IT”模块的神经响应的时间变化和真正的猴子的 IT 脑区的神经响应变化非常类似。所有这些结果都表明,CORnet-S,这个紧凑的、带有循环结构的人工神经网络,是目前模仿灵长目生物大脑腹侧神经流的视觉信号处理机制的最佳模型。

2016年高拉特带队卫冕联赛锦标,他个人拿下了中超金靴,同时在足协杯中恒大也成功登顶,高拉特蝉联中国足球先生,成为首位蝉联该奖项的球员。一年之后,高拉特拿下了中超银靴,带队收获了个人第三座中超冠军奖杯。

教授展示了这样一张图,在卷积神经网络研究的过程中,网络本身的物体识别能力是重要的性能指标,而实际上识别能力越强的模型也对 IT 响应的解释能力越好;HMO这样的模型在性能表现进化的同时,对IT表现的解释能力也达到了新高峰(2012年时)。

高拉特还有一个年长两岁的哥哥儒尼尼奥,也是一名职业足球运动员。与弟弟不同的是,儒尼尼奥顺利在圣保罗出道,两人还曾在圣保罗州U20联赛中有过交手。

James DiCarlo 是 MIT 的神经科学教授,MIT 大脑和认知科学学院院长。他是 Alfred Sloan Fellow,是生物医学科学的皮尤学者(Pew Scholar),以及神经科学界的麦克白学者。他的研究目标是用计算性的方法理解灵长类视觉智能在大脑内的形成机制。

教授把对中心物体感知的反向工程分为三步: