2
第7章 人脑的概述
他们越看越惊讶,他知道得那么多,那小小的脑瓜怎能容得下。
——奥利佛·戈德史密斯的田园诗《荒芜的村庄》
(Oliver Goldsmith,The Deserted Village)
从老鼠到人类,所有的哺乳动物的神经系统犹如按照同样的设计图构建的一样,尽管它们在尺寸上有极大的差别,比如,老鼠和大象,它们脑的大小不同,各个部分的比例也不尽相同。爬行动物、鸟类、两栖类和鱼类的脑与哺乳动物的脑存在着极为明显的差别,但它们毕竟还有亲缘关系。在此我将不过多讨论。我也不打算描述在胎儿期及幼年期脑的发育过程。当然,这些都是有助于我们了解成熟脑的重要课题。一般说来,基因(以及正在发育中由基因控制的后天过程)似乎规定着神经系统主要的结构,但是还需要靠经验不断调整、精炼该结构的许多部件,这是要贯穿整个生命过程的。
身体的其他部分怎样附属于脑,又如何与之通信的,这是一个极为明显的事实问题,却很少有人问津。神经系统接收来自身体上各种不同的传感器的信息。所谓传感器就是把化学或物理的影响,如光、声或压力,转换为电信号。
有些传感器对大量来自体外的信息有响应,像眼睛作为光感受器就是对光产生响应。它们对外界的环境起着监视作用。还有一些传感器对体内的活动有响应,比如对你患有胃痛或是血液的酸性改变都很敏感。因此,它们也对体内变化起着监视作用。神经系统的运动输出就对身体的肌肉产生控制。脑还影响着机体各种化学物质的释放,比如调节某些激素。直接同所有的输入和输出有关的外周细胞仅仅占神经细胞总数的很少部分。因此,大量的神经细胞只参与系统内部的信息处理。
中枢神经系统有各种不同的分区方法,一种简单的方法是把它分为三部分:脊髓、脑干(在脊髓的顶端)以及在其上面的前脑。脊髓接受来自身体的感觉信息,并且把指令传输到肌肉。由于我们关心的是视觉,所以就不进一步讨论脊髓及脑干以下的部分。我们主要的兴趣在前脑,特别是新皮质,它是大脑皮质最大的那一部分。
大脑皮质(通常简称为皮质)分为两片分离的细胞层,分别位于脑的两侧。对人脑来说,这两片神经细胞层总的面积比手帕稍大一点儿,因此需要充分地折叠后才能容纳在头骨内。神经细胞层的厚度略有变化,一般有2~5毫米厚,它就构成了皮质的灰质。灰质主要由神经元[42]、细胞体和分枝构成,也包括许多称为“神经胶质细胞”的辅助性细胞。皮质中每平方毫米约有100 000个神经元。[43]因此,人脑的新皮质中约有几百亿个神经元,它堪比银河系中星星的数目。
神经元之间有些连接是局域的,一般延伸不到一毫米,最多也只有几毫米;但有些连接可以离开皮质的某个区域,延伸一段距离,到达皮质的另一些区域或者皮质外的地方。这些长距离的连接表面覆盖着脂肪鞘,它由一种称为髓鞘质的物质构成。脂肪鞘能够加快信号的传递速度,同时它还呈现出白色烁光的表面,因此被称为白质。脑中大约有40%是白质,也就是这些长程的连接,这生动而又简明地说明了脑中的相互连接与通信是如此之多。
新皮质是皮质中最复杂的部分。旧皮质(paleocortex)为一个薄片,主要与嗅觉功能有关。海马(有时也称为古皮质)是一个令人感兴趣的高层次结构(这意味着它与感觉系统的输入相距较远)。在信息被传送到新皮质之前,对于一些新的、长程的、系列事件中一个事件的记忆编码要在海马中储存几个星期。
在脑前部还有几个亚皮质结构与皮质有联系,如图23所示。这里面最重要的一部分叫丘脑,[44]有时也称之为皮质的入口。因为通向皮质的主要输入必须经过此处,[45]如图24所示。丘脑通常被分为24个区域,每个区域与新皮质的一些特定子区域相联系。丘脑的每个区域与皮质区域有大量连接,并且接受由那里传来的信息。这种反馈连接的真正目的还没有弄清楚。来自新皮质的许多其他连接并不都经过丘脑,这些连接还可以直接通往脑的其他部分。丘脑跨在皮质的重要入口,但不在主要出口上。
图23 人脑各个主要脑区的侧向解剖图
图24 丘脑的主要位置及与大脑皮质的连接
丘脑不远处有一个发育完善的结构,通常统称为纹状体,如图25所示。尽管它们确切的功能尚不清楚,但这些区域在运动控制中起着重要作用。丘脑的一些特殊区域(统称为层内核)主要投射到纹状体,并且更广泛地投射到新皮质。
图25 人脑主要部位的切向图
一百多年来,有关不同精神功能在新皮质上的定位一直存在着争论。一种极端的观点是整体论,认为皮质所有区域的功能大致是一样的,另一种相反的观点则认为皮质每一小块区域执行着相当不同的任务。
19世纪的早期,维也纳的解剖学家弗朗兹·约瑟夫·加尔(Franz Joseph Gall)相信脑功能的定位,他用各种富于奇异的属性来标记头骨的各部分(例如崇尚、仁爱、尊敬等),而这些属性在皮质均被认为是定位的,如图26所示。带有这些标记的像陶器的人脑模型现在依然存在。加尔认为通过研究头骨的隆起,就能推导出一个人的许多特性。当我还是一个小孩时,当地的一个算命先生为骗取我母亲的钱而要相我头骨的隆起。他宣称我的头骨隆起非常有意思,付额外的钱,他便可以更详细地研究它们。但我从未发现他推演出的有关特性。
图26 基于加尔的思想,19世纪完全虚构出的脑功能的定位图
虽然加尔是第一位重要的脑功能定位的鼓吹者,但其具体的思想是完全错误的,结果使皮质定位在医学界留下了很坏的名声。现在,通过对猕猴皮质详细的研究,同时也通过人脑资料的支持,我们认为皮质存在着某种程度上的功能定位,但具有明显不同性质的皮质区域共同参与着大多数精神活动。因此,不能把定位的思想极端化。
用一个小的有机分子的特性,比如糖或维生素C,作个可能有用的类比。每个原子的定位都与其他原子有关,每个不同的原子都有其本身的特性——例如,氧原子就极不同于氢原子。尽管有些原子通常比另一些原子更重要,而分子的整体特性又依赖于构成该分子的那些原子之间的相互作用。有时链接原子的那些电子是完全地被定位的。有些情况下,例如苯之类的芳香族化合物,其一些电子分布在许许多多原子上。
因此我们可以绘制一幅新皮质的略图,并根据它们主要的功能标记在不同的区域上,如图27所示。视觉区域定位在头的后部,如图23所示,听觉区域定位在头的两侧,而触觉区域位于头的顶部。体感区域的前面是控制随意运动输出的区域,也就是说这些区域的意欲性指令控制着肌肉的运动。前脑区的确切功能还没有定论,或许它是负责作计划的,特别是作长时间的计划以及完成一些高层次的认知任务。前脑区中的一个小区域可能参与眼睛的自主运动。
广为人知但也非常奇怪的是皮质的左边大部分与身体的右侧直接相关。[46]一束称为“胼胝体”的神经纤维,将皮质的两个区域连接在一起。在人脑中,胼胝体约有5亿条神经纤维,它们是双向传输的。
图27 人脑的四个主要的脑叶区及主要的运动区和初级感觉区的位置
人类具有独一无二的语言功能。对所有惯用右手与大多数惯用左手的人,语言区主要位于脑的左侧。至少有两个主要区域与语言有关。一个区域位于脑后侧,称为“威尼科(Wernicke)区”;另一个区域在刚刚被发现时,称为“布洛克(Broca)区”,它近于脑前方侧边,离主要运动区不远。至今,它们当中没有一个区域已得到详尽的了解,主要原因是没有动物具有如此高度发达的语言,而动物正是我们了解大脑的主要实验材料。在这两个区域附近还存在着一些其他区域,尤其是皮质的额叶区,它也参与了语言的处理(见第9章)。我确信一定能够证实,包括布洛克区与威尼科区在内每个这样的大区域都是由许多独特的小的皮质区域构成的,并以复杂的方式连接在一起。
当头的左侧受到猛击,则会导致身体右侧部分瘫痪,还会干扰言语的表达能力,然而未受损伤的右脑也许仍能发言,甚至能演唱。此外,这样的一个人也许仍然能够分辨男性与女性的声音。如果右脑受损伤,后一个功能也许会丧失。尽管演唱的能力已丧失,但讲话的能力或许依然完好无损。
这些例子说明了两点:在脑中确实存在着某种程度上的功能分区;但究竟哪些功能分区被真正解读了,或许并不如人们所猜测的那样。
在皮质外部有一个称为下丘脑的区域,如图23所示。其对身体的许多运作是至关重要的,它具有许多小的亚区,而这些小的亚区的主要功能是对饥饿、口渴、温度、性行为及类似的身体运作起调节作用。下丘脑与垂体有密切的连接。垂体是一个将各种激素分泌到血液中的微小器官。
小脑是一个较大,也很引人注意,但并不算重要的脑区,它位于头的后部。在某些鱼类中,比如电鱼、鲨鱼等,小脑高度发育。它可能参与了运动的控制,特别是一些技巧的运动。然而,天生没有小脑的人也可能正常地活着。另一个位于脑干的重要区域是网状结构。它们具有许多紧密相互作用的区域,它们的功能仅仅部分得到了了解。这个区域的神经元控制着苏醒与睡眠的各个阶段。一团团这样的神经细胞可发送信号到前脑的各个部分,也包括新皮质,例如,一小团被称为蓝斑的神经元发送信号到包括皮质在内的各个地方。这些神经纤维可以从皮质的前区延伸到后区。在这个通路上,这些神经纤维与其他神经细胞形成千千万万个连接。蓝斑确切的功能还不清楚。在睡眠的快速眼动期(REM)(我们大多数的梦发生在这期间),蓝斑的神经细胞基本上变得不活动。这种不活动有可能把一个记忆放入一个长期存储器中,也可能有助于解释为什么我们不能回忆起做过的大多数梦。
在脑干的顶端有一对结构对视觉系统是重要的。在蛙这样低等的脊椎动物中,这对结构叫作视顶盖,而在哺乳动物中称之为上丘。它们或许构成了青蛙视觉系统的主要部分。但在哺乳动物中(特别是灵长类动物中),这个角色就由新皮质担任了。在哺乳动物中,上丘主要与眼睛的运动有关,特别是与眼睛的自发运动有关。
与我们身体其他器官相比,人脑不是个单一的结构。像心脏、肝、肾、胰具有极不相同的功能一样,大脑的各个区域也具有特定的功能。然而,身体中不同的器官有非常密切的相互作用,肝是造血器官,而心脏是泵送血液的。在大脑中也存在着许多的相互作用,参与运动控制的不仅有脊髓,还有在它上面的许多区域,例如运动皮质、纹状皮质与小脑。参与视觉的有上丘、丘脑的视觉部分与视皮质,它们必须各司其职。
从广义上说,我们对身体的绝大多数器官的主要功能以及每个器官究竟是怎样实现其功能的已有相当的了解。举一两个例子就可以说明这些知识还是相当新的。当我在20世纪40年代末开始研究生物学时,胸腺的功能还不清楚,甚至没有人会猜测出它在我们的免疫系统中起着关键作用。我最初了解它是由于从小牛的胸腺中很容易获取DNA。遗憾的是我们对大脑的不同部分了解仍处在相当初级的阶段。丘脑、纹状皮质、小脑的确切功能是什么?我们只能对它们的行为作一般的概述。而获取详细的了解有待于进一步的研究。我们对海马的功能也只有一个粗略的了解,对其确切的功能没有统一的认识。这一切都有待进一步的发现。
从最高层次的角度描述了什么是大脑后,让我们进入低层次的结构,看一看视觉系统中的主要构成及单个神经细胞。
第8章 神经元
脑的功能不可能与它的基本单元——神经细胞——的功能完全没有联系。
——伊丹·赛杰夫(ldan Segev)
由于“惊人的假说”强调了“你”就是大量神经元行为的体现,因此,你应该对神经元以及它究竟做些什么有个粗略的了解。尽管神经元的种类繁多,但其大多数都好像按照同一幅蓝图构建的一样[47]。
一个典型的脊椎动物的神经元对于施加在它的胞体、枝体——它的树突(图28)——上的电脉冲刺激具有三种响应模式:有些输入使它兴奋,有些使之抑制,还有的可以对它的行为进行调制。当神经元变得相当兴奋时,它就会将一个峰形的电脉冲下行传至它的输出电缆,即轴突。这样一根轴突通常也有许多分枝。电信号将沿着各个分枝及小分枝传输直至与其他神经元相联系的轴突,它也会对其他神经元的行为产生影响。
图28 脊椎动物神经元的示意图,电信号从树突进入,然后从轴突输出。因此,在这幅图中,信息从左侧流向右侧
这就是神经元的主要工作。它通常是以电脉冲形式接收来自许许多多其他神经元的信息。实际上,它就是对这些输入进行复杂的动态加和,然后把处理后的信息以电脉冲流的形式沿着它的轴突传输到许多其他的神经元。虽然神经元为了维持这些活动及合成分子需要能量,但它的主要功能就是接收和发送信号,简而言之,就是处理信息。一个类似的情况是:一个政治家会不断地收到来自那些想让他投票赞成或反对某一项措施的人士们的信息,当他在表决时就必须考虑所有这些信息。
在没有任何信号时,神经元通常也会沿着轴突较慢、无规则地传送背景脉冲。这种发放率一般是1~5赫兹(1赫兹表示一秒中有一个脉冲或一个周期)。这种连续的“易激动”活动状态,可以使神经元处于警觉点,并随时对新的刺激做出更强烈发放的准备。由于神经元接收许许多多兴奋的信号,使它处于兴奋状态,则它的发放率就会增至一个很大的值,典型的为5~100赫兹或更高。在短时间间隔内,发放率可达到500赫兹,如图29所示。1秒钟内有500个脉冲,乍听起来觉得很快,但把它与家用电脑的处理速度一比较,它便是极慢的。如果一个神经元接收一个抑制性的信号,它的电脉冲输出就可能比正常的背景发放率更少些。但这种减少是那么小,以至于它只能传送相当少的信息。神经元只能沿着轴突下行传送一类信号,当然,没有“负”的峰电位。而且,这些电信号一般从胞体沿着轴突单向下行传输,直至这些轴突的终端。[48]
图29 单个神经元的发放模式。每条短的竖线表示单个发放脉冲。在图a中,表示神经元的背景发放;在图b中,神经元对相关刺激的平均发放率;在图c中,神经元尽可能快地发放。请注意时间尺度
神经元是什么样子的?它是由什么构成的?在许多方面,神经元类似于人或动物体内的其他细胞。它的许多基因由DNA构成,而DNA位于细胞内一个被称为“细胞核”的特殊结构中的染色体上。细胞体内还有其他一些特殊结构,它们(例如细胞的能源基地——线粒体)具有自己的DNA。体内几乎所有细胞都有两套基因信息的复制品,[49]分别来自每个母体。每一套都约有100 000个不同的基因。[50]并不是所有的基因都在所有的细胞中活动。有些在肝脏的细胞中更活跃,有些在肌肉细胞中更活跃,等等。一般认为,在脑中各个部位的基因比任何其他器官中所具有的基因都更加活跃。
这些基因的大多数对某种或另一种蛋白质合成的指令进行译码。如果把每个细胞看作一个工厂,那么蛋白质就是使这个工厂进行运转的快速而又精巧的机械工具。蛋白质一般的体积通常是细胞体积的十亿分之一,它是如此的小,以至于用光学显微镜都无法看到。但它的形状(不是其近乎原子结构的精确细节)有时还能够用电子显微镜观察到。每一种蛋白质都具有它自己极为精细的特定分子结构,它们是由成千上万个原子按照各自独特的方式连接在一起的。生命中起关键作用的分子正是以原子的精确性构筑起来的。
细胞中的所有东西被包容在有点儿流动的类脂膜内,这层膜能阻止蛋白质和它们的产物离开细胞。膜上的一些蛋白质好比灵敏的门或泵,控制各种分子进出细胞。整个细胞结构是由那些有机的分子构成的,且具有灵敏的控制部件,以便使细胞可以进行自复制,并且与体内其他细胞有效地进行相互作用。简而言之,在如此小的空间内,竟发生着如此奇迹般的化学反应,这是经历了几十亿年自然选择进化的结果。
神经元与体内的其他细胞迥然不同:成熟的神经元既不会移动,也不会聚在一起和发生正常的分裂。一个成熟的神经元死后(除极少数外),它不会由新的神经元代替。与许许多多其他细胞相比,神经元的外形更具刺突状。神经元树突的分枝随其不同的类型各异,但它通常有几个主要的分枝,而每个分枝又可分成几倍之多的小分枝。细胞体(常称为胞体)可长成各种不同大小,一般其直径约为20微米。[51]
在新皮质中最常见的一类神经元叫作锥体细胞,它的胞体稍像角锥,在顶部有大量的树突,如图30所示。其他神经元,例如星状细胞,在各个方向上都有分枝,如图31所示。
图30 一类重要的神经元——锥体细胞。这幅图由西班牙神经解剖学家卡哈尔在100年前绘制
图31 另一类神经元——星状细胞。细的线表示轴突的许多分枝,而粗的线表示树突。左边的数字表示皮质的不同层次,当我们横切皮质时,可以看到这些分层
神经元的轴突(输出电缆)可以非常长,例如,你的脊椎柱得有几英尺长,否则你就无法摆动你的脚趾(一个神经元胞体的半径很少有大于四百分之一厘米的)。没有脂肪髓鞘包着的轴突的直径通常很小,一般为0.1~1微米。轴突外面包着脂肪髓鞘,它的电脉冲传输速度要快于不带髓鞘的。
轴突中的峰电位并不像导线中的电流。在金属导线中,电流是由一团电子携带的。在神经元中,细胞绝缘膜上有蛋白质构成的分子门,电效应依赖于通过分子门进出轴突的那些带电离子。离子来来回回的运动使跨膜的局域电位发生着变化。电位的这种变化要下行传输到轴突。这个信号要不断地更新,需要补充能量。因此,沿着轴突下行传输的脉冲不会衰减,而且它的形状和幅度在终点与起始点大体相同。这样的一个特性就使得峰电位在被传送很长的距离后,还能对与轴突末端相联的神经元产生明显的作用。
在19世纪,人们错误地认为峰信号的传导速度很快,以至于无法测量,并认为或许是以光速传播。在19世纪中叶,由亥姆霍兹(Helmholtz)最终测出这个速度,才发现它很少有超过每秒30英尺的(这个速度约为声音在空气中传播速度的1/3)。当时包括亥姆霍兹父亲在内的许多人对这个结果感到非常惊讶。对没有脂肪鞘的轴突,它的速度一般为每秒5英尺,这个速度看上去相当低(实际上,它比自行车的速度还低),它等价于每毫秒行走1.5毫米。
轴突的远端需要得到来自胞体分子的给养,因为几乎所有的基因与大多数用于蛋白质合成的生物化学物质都在胞体内,而不在轴突内。沿着轴突存在着双向的系统的分子流动。观察用高倍放大的光学显微镜拍摄的这种分子的流动是极不寻常的,它展示出小的粒子彼此缓缓地行进着,有些下行到轴突,有些上行至胞体;有些行进速度稍快,有些则不然。但是,所有这些流动的速度都远远低于轴突中峰信号的传播速度。很自然,为指挥和控制这种运输,就需要有特殊的分子部件参与工作。
神经元经典的观点认为树突(输入电缆)是被动的,这意味着当电位从树突的某个位置传到另一个位置时,它是衰减的。其原因是一些离子漏过了细胞膜,就像莫尔斯电码信号沿着横穿大西洋的电缆行进了相当长的距离后,常常也会衰减一样。正是这个原因,树突一般比轴突短,通常它的长度仅有几百微米。现在有种猜测,认为有些神经元在树突中也存在着主动的过程,但是它们或许并不与轴突中发现的完全一样。
电脉冲沿着轴突向下一直传输到神经元之间的特殊的连接处——突触。每个神经元在它的树突与胞体上有许许多多突触。一个小的神经元有500多个突触,一个大的锥体细胞可多达2万个。新皮质中每个神经元平均约有6000个突触。由于峰信号是电信号,对下一个神经元的作用主要也是电的,因此,可能会认为突触也是某种电接触。其实,有些突触是电接触,但更普遍的情况是神经元之间的信号传递要比电传导复杂得多。
实际上,两个神经元不是直接连接在一起的。从电子显微镜拍摄的照片中容易看到,如图32所示,在两个神经元之间有一条明显分界的裂隙,约为四十分之一微米宽,这条裂隙被称为突触裂隙。当电脉冲到达突触前侧时,它能使一小包的化学物质(称为囊泡)释放到突触裂隙中。这些小的化学分子在裂隙中迅速扩散,其中的一些与突触后细胞膜上的分子门结合,使这些特殊的门打开,且允许带电的粒子流入或流出突触后膜,以使跨膜的局域电位发生变化。整个过程如下所示:
电→化学→电
一般说来,离子的流入或流出依赖于离子在神经元内外浓度的高低。通常,钠离子(Na+)在神经元内保持低浓度,而钾离子(K+)在神经元内保持高浓度。这是由细胞膜上特殊的分子泵来完成的。如果一个门开启,两种离子都能通过,那么钠离子将会流入,而钾离子将会流出。[52]
图32 突触的理想化的示意图。请注意小的突触裂隙
当没有峰电位时,神经元有一个跨膜的静息电位。这个电位一般是-70毫伏(指里面相对于外面)。在胞体上一个正的电位变化(例如电位到达了-50毫伏)有可能使细胞发放;而一个负的电位变化完全阻止其发放。一个神经元是否能兴奋起来,以使它在轴突上产生一个峰电位,主要依赖于这些膜电位的变化(由位于树突和胞体上的兴奋性突触产生)能否引起轴突始端附近区域电位的变化。
让我们更仔细地看一看突触的结构,如图33所示。在皮质中它主要有两种类型,称之为1型或2型。在电子显微镜下可以清楚地将它们区分开。[53]一般来说,1型突触使接受神经元兴奋,而2型使其抑制。
图33 皮质中主要两类突触。图a:第一类(兴奋性),图b:第二类(抑制性)。在每幅图中,轴突在上面,树突在下面,中间是突触裂隙。箭头表示信息流动的方向,从轴突(突触前)到树突(突触后)
在大脑中,大部分兴奋性突触不是直接位于树突的主干上,而是位于一些短小的侧枝上,如图34所示,这些侧枝称为棘(spine)。尽管有些棘上也有单个2型(抑制性)突触,但单个棘上从不会多于一个1型(兴奋性)突触。从图34中可以看到,一个棘有点儿像小烧瓶,它的颈被黏在树突上。棘有一个球形的头(通常稍有畸变)和细圆柱形的颈。突触本身位于其头部,并且在一定程度上与这个细胞在其他位置发生的活动相分离。突触有许多受体,其中也包括了离子门。如果神经递质的分子(来自突触末端与棘头之间的突触裂隙)处于这种受体分子的某一特殊位置,就能打开离子门。
图34 这是在电子显微镜下观察到一个突触附在一个棘上的超薄切片图,其中的插入图粗略显示了大图中的主要元素
棘是一个相当精巧的结构,它的功能远未被完全了解。我猜测棘是进化的关键产物,有了它,就可以对输入信号进行更为复杂的处理。
我不想去描述神经元的脂肪膜上各种类型的蛋白质分子。其中一些分子能被递质分子激活,[54]它们被称为“受体”。在大脑的新皮质中,主要的兴奋性递质是一种相当普遍的被称为谷氨酸的小有机分子。[55]虽然离子通道仅有两种主要类型(一类仅对电压敏感,另一类仅对神经递质敏感),但最令人感兴趣的是第三类被称为“NMDA通道”的离子通道。[56]它对电压与谷氨酸都敏感,更精确地说,即便存在着谷氨酸,当局部的膜电位处于静息值,该离子通道是很少打开的。如果膜电位升高(例如由于附近其他兴奋性突触的活动),那么谷氨酸可以打开这个通道。因此它仅对突触前的活动(由于轴突末端释放谷氨酸)与突触后的活动(由于其他的输入产生了跨膜电位的变化)的联合作用起反应。我们将会看到,这是脑功能的一个关键特性。
当NMDA谷氨酸通道打开时,不仅允许钠、钾离子通过,而且也有适量的钙离子(Ca2+)通过。这些流入的钙离子像是一种信息的出现,即它能引发复杂的化学连锁反应,目前对这类反应仅获得部分的了解。它最终的结果是改变了突触的连接强度,这种改变可能维持几天,几个星期,几个月,甚至更长的时间(这可能就构成了一种特殊记忆形式的基础——见第13章描述的赫布学习率)。我们现在可以从分子的水平来解释认知过程,例如记忆。一个实验的例子:用化学的方法阻断小鼠海马中的NMDA通道,小鼠就不能记住它到过的地方。
抑制性突触的性质如何?是否存在这样的神经元,它的轴突的一些末梢产生兴奋性的作用,而另一些产生抑制性的作用?令人惊奇的是,在新皮质中从未或很少存在这种现象。更确切地讲,一个特定神经元轴突的所有末梢或都兴奋或都抑制,从未有两者并存的情况。上面提到,兴奋性突触的神经递质是谷氨酸,而抑制性突触的递质是相对较小的GABA分子[57]。在新皮质中,约有1/5的神经元释放GABA递质[58]。
大多数突触传递是化学的而不是电的,这样一个事实就产生了重要的后果,即一些特殊的小分子在浓度非常低的情况下也阻断它。这就是为什么剂量只有150微克的LSD能引起幻觉的效果。这也能解释为什么一些药在一定条件下能缓减精神状态,例如沮丧——沮丧看上去是由于某些神经传递机制的功能衰退而引起的。例如,安眠药中的化学物质结合了GABA受体,增强了GABA的抑制作用功能。这种突触抑制的增强有利于促进睡眠。镇静药利眠灵与安定也是苯二氮(benzodiazepine),有类似的功效。
在新皮质中,兴奋性与抑制性不是对称分布的,但一些理论模型假设它们是对称的。从皮质的一个区到另一个区的长距离连接只能通过锥体细胞来实现。这些细胞都是兴奋型的。大多数抑制性神经元的轴突较短,仅影响它附近的神经元。[59]没有任何两个形态结构类似的神经元(可能有极少数的例外),会产生一个是兴奋的,而另一个是抑制的现象。整个分布的非对称性至少表现在两方面:一方面是神经元不能发放负的峰电位,另一方面是产生兴奋或抑制的神经元属于不同的类。然而,所有的神经元都接受兴奋性或抑制性的输入,这可能为了防止神经元总处在静息状态或永不停息的发放状态。
在新皮质中主要有两类神经递质:兴奋性的谷氨酸递质(或相近的物质)和抑制性的GABA递质。遗憾的是,事情并不那么简单,存在着许多其他的神经递质。脑干中那些投射到皮质的神经元用5—羟色胺、去甲肾上腺素、多巴胺等作为递质。脑中其他神经元用乙酰胆碱作为递质,约有1/5的抑制性神经元在释放GABA的同时,也释放一种更大的有机分子——肽。这些递质大多数产生的效应要比两类主要的快速递质(谷氨酸和GABA)慢。它们通常用于调制细胞的发放强度,而不是直接使它发放。这些递质主要可能参与更一般的过程:例如保持皮质清醒,或者要记住什么,而不是参与大量复杂的信息快速处理过程。
不仅存在有多种神经递质(尽管只有两种神经递质完成了大部分工作),而且还有多种离子通道。至少有7种不同类型的钾离子通道,且大多数还是相当普遍的。[60]有些通道能迅速打开,有些能缓慢打开;有些通道一旦打开就迅速失去活性,有些则较缓慢关闭;有些通道主要传递轴突上的电脉冲,有些则在胞体与树突上产生更精细的效应。为了计算神经元对输入信号所产生确切的行为变化,我们需要知道这个神经元所有的离子通道分布与特性。
不同的神经元有不同的发放模式。有些神经元的发放非常快,有些则很慢;有些神经元发放单个脉冲,有些则倾向于发放一簇脉冲。在有些情况下,同一个神经元可以用以上两种方式中的任意一种发放,主要依赖于它的活动状态和当前的行为。动物在慢波睡眠(无梦的深度睡眠状态)与清醒状态时,神经元发放的模式是不一样的,主要的原因是脑干中的神经元对丘脑与新皮质产生了不同的影响。我们最终是要更加深入地和更全面地了解各种类型神经元的信息处理过程。
从表面上看,神经元显得异常简单,它对众多的输入信号的响应是通过沿着它的轴突发送出一串电脉冲。只有当我们试图准确地刻画它是怎样反应的,这种反应是怎样随时间变化的,以及它又如何随着脑中其他部分的状态而变化的,这才真正会遇到神经元内在的复杂性。显而易见,我们又需要理解这些化学及电过程是怎样进行相互作用的,然后需要去掉这些过程的具体细节,用一种近似的、可操作的方式来处理它们。简而言之,我们需要建立各类神经元的简化模型,它们既不能太复杂而难以操作,也不能太简单而忽略了它的重要的特性。这可谓说起来容易做起来难。单个神经元有点儿像个哑巴,它能用很巧妙的方式表达它的意思。
神经元有一个相当明显的特性,这就是单个神经元具有不同的发放率,从某种角度来说,它具有不同的发放模式。尽管如此,在任何一段时间内,神经元只能发送出有限的信息。然而,神经元在这段时间内通过许许多多的突触而得到的潜在的信息是很大的。当我们孤立地看一个神经元时,这种输入与输出之间的转化过程必定要丢失信息。
然而这种信息的丢失可以用下面的方式得到补偿,即每个神经元对输入的特定组合的反应和传送出这新的信息形式,恰恰不是传送到一个地方,而是传送到许多地方。因此,由于单根轴突上有许多的分枝,沿着轴突下行传导的电脉冲以相同的模式被分布在不同的突触上。一个神经元在它的某个突触上接收到的信息与其他许多神经元接收到的是一样的。所有这一切表明:在某一时刻,我们不能仅仅考虑单个神经元,而必须考虑许多神经元综合的效果。
认识到这样一个事实是很重要的:一个神经元仅能简单地告知另一个神经元它的兴奋程度。[61]这些信号不给接收神经元其他的信息,例如第一个神经元的位置等。[62]该信号中的信息通常与外部世界的某些活动相联系,例如由眼睛光感受器接收的信号。
从感觉上讲,大脑所获得的通常是与外部世界或身体其他部分有关的信息。这就是为什么我们所看到的那些东西都位于我们的外部,尽管负责担任“看”的神经元位于脑中。对许多人来说,有一个根深蒂固的观念:“世界”位于他们的身体外,然而从另一种角度来看(他们所知道的),世界又完全位于他们的脑中。这个观念对你的身体来说也是正确的,你对它所了解的不是附于你的头上,而是位于你的脑中。
当然,如果我们打开头骨把某个神经元发放的信号取出来,一般能判断该神经元的位置。但是我们所研究的大脑并不知道这种信息。这就解释了在正常情况下,为什么我们不能获取感知与思考发生在脑中的确切位置——不存在这样的神经元来编码这种信息。
回忆一下,亚里士多德认为这些过程都发生在心脏中,因为他既可以知道心脏的位置,又可观察到一些精神活动过程——例如恋爱中在行为上发生的变化。如果不借助特殊的仪器,我们就不能对人脑中的神经元做类似的实验。这些及其他的有关内容将在下一章中介绍。
第9章 几类实验
研究是一门艺术,即如何设计一些方案去解决那些难题的艺术。
——彼得·梅达沃爵士(Sir Peter Medawar)[63]
严格地说,每个人所能确信的只是他自己是有意识的。比如说,我知道我是有意识的。在我看来你的行为举止与我很相似,特别是你使我相信你是有意识的,故而我很有把握地推断你也是有意识的。倘若我对自己的意识的本质感兴趣的话,我就不必仅仅把研究局限在自己身上,而完全可以在别人身上做实验,只要他们不是处于昏迷状态。
要揭示意识的神经机制,仅仅靠对清醒的被试进行的心理学实验是不够的。我们还必须研究人脑中的神经细胞、分子以及它们之间的相互作用。我们可以从死者的脑中获得关于脑结构的大部分信息。但要研究神经细胞的复杂行为,则必须在活体上做实验。实验本身并不存在什么难以克服的技术问题——更多的是基于伦理道德方面的考虑,使得许多这类实验变得不可能,或是十分困难。
大多数人并不反对在他们的头皮上放置电极来测量脑电波。但是,为了直接把电极插入活体脑组织而要移去部分头骨,即便这只是暂时的,也是众人所不能接受的。即便有人甘愿为了科学发现而接受开颅实验,也不会有医生同意实施这种手术。他会说这是违背希波克拉底誓言[64]的,或者更有可能说会有人为此而控告他。在我们这个社会里,人们会自愿参军并不惜受伤甚至牺牲,却未必会愿意仅仅为了获取科学知识而接受那些有危险性的实验。
有少数勇敢的研究者在他们自己身上做实验。英国生物化学和遗传学家霍尔丹(J.B.S.Haldane)就是一个著名的例子。他甚至写了一篇关于这方面的文章,名为《当自己的实验兔子》(On Being One’s Own Rabbit)。此外还有一些医药史上令人传颂的故事,如罗纳德·罗斯爵士(Sir Ronald Ross)在自己身上证明了蚊子传播疟疾。但除此以外,为那些可能有助于满足科学好奇心的实验去充当被试,这是不被鼓励的,甚至是被禁止的。
在某些情况下,必须对一些病人在清醒状态下做脑部手术。这样,如果病人同意,便可在裸露的脑做一些很有限的实验。由于脑中没有痛觉感受器,病人不会因为裸露的脑的表面受到轻微电刺激而感到不适。遗憾的是,在手术中可供做实验的时间通常很短,而且也很少有神经外科医生出于对脑的细微工作感兴趣而进行这种尝试。这种研究是在20世纪中期由加拿大神经外科医生怀尔德·彭菲尔德(Wildel Penfield)开创的。近一个时期西雅图的华盛顿大学医学院的乔治·奥杰曼(George Ojemann)领导进行了该领域的研究。他用短暂的刺激电流抑制电极附近的一小块区域内神经元的活动。如果电流足够微弱,去掉电流后并不会造成永久的影响。他将精力集中在与语言有关的皮质区域,这是因为当他切去患者的部分大脑皮质以降低他们癫痫病发作的可能性时,他希望尽可能少地使邻近的语言区受到损伤。
奥杰曼有一个实验结果[1]很出名:患者自幼会讲英语和希腊语,当大脑左侧新皮质表面的一些区域受到电刺激时,她暂时无法使用某些英语词汇,但这并不影响她使用相应的希腊语;刺激其他部位则会出现相反的情况。这表明两种语言的某些特征在脑中的定位有显著的差异。
在大多数情况下,我们只能从头骨外研究人脑的行为活动。[65]现在已有多种不同的扫描方法可以获得活体脑的影像,但它们在空间或时间分辨率上都有很大的局限性。大多数方法过于昂贵,并且出于医学上的考虑被限制使用。
因此,神经科学家们优先选择在动物身上做实验便不足为奇了。虽然我并不确信一只猴子也像你一样有意识(consciousness),但我有理由认为它并非完全是一个自动机,即那种行为复杂但完全缺乏觉知(awareness)的机器。这并不是说猴子与人一样具有自我觉知(self-awareness)。一些实验,如镜中识别的实验等,表明某些类人猿(如黑猩猩)可能具有一定程度的自我觉知。而对猴子而言,即便有自我觉知,那也很少。但仍有理由大胆断言猴子具有一种与人类相似的视觉意识,只不过它无法用语言来表达而已。例如,可以训练猕猴让它鉴别两种非常相近的颜色。这些实验表明,猕猴的表现与我们人类是可以相比的,差距大约在2倍以内。对于主要在夜间活动的猫则远非如此,大老鼠则相差更大。黑猩猩和大猩猩过于昂贵,因而很少用它们做伤害性实验。如果我们主要关心的是哺乳动物脑中的分子特征,那么作为实验动物大老鼠和小白鼠是最好且最便宜的。虽然它们的脑的特征在许多方面比人类要简单,但是脑的分子可能与我们非常类似。
用猴子和其他哺乳动物而不用人做实验还有个优越之处,即目前它们更适于用来进行神经解剖学研究。原因很简单:几乎所有现代的关于脑中长程连接的研究方法都利用了神经元中分子的上行和下行的主动运输。为此需要把某种化学物质注射到动物活体脑中的某个部位。该物质在脑中沿着神经元之间的连接被运送到与注射点直接相连的脑的其他部位。这一过程通常需要几天时间。此后,实验动物将被无痛苦地杀死,而后检测注射物质所到达的部位。用人做这种实验显然是不可能的。由于这种局限使得我们对猕猴脑的长程连接的了解远比对我们自己的了解丰富得多。
人们或许认为,这种知识上的明显的空白会使神经解剖学家忧心忡忡;由于人脑与猕猴的脑并不完全相同,他们会特别要求研究人体神经解剖学的新方法。事实并非如此[2]。其实,现在是改变我们在人体神经解剖学上的缺陷的时候了,那些有远见的基金会应当立即着手从事有关的新技术的发明。
即使我们设计出可以在人身上进行神经解剖学研究的新方法,仍有许多关键性实验只能在动物身上进行。这些实验有时会持续几个月。尽管大多数实验没有什么痛苦,或只有很少的痛苦,但实验结束后常常需要把实验动物杀死(仍旧是无痛苦的)。动物保护组织坚持要求善待实验动物,这无疑是对的。由于他们的努力,实验室中的动物现在得到的照顾比以前要好一些。但是,倘若把动物理想化,那就太多愁善感了。与被捕捉的动物的生活相比,野生的食肉和食草动物通常过着严酷的生活,寿命也较短。有一种观点宣称由于动物和人都是“自然的一部分”,因而应当完全平等地对待它们。这是没有道理的。难道一只大猩猩真的应当享受大学教育吗?一味坚持完全像对待人类那样对待动物,会贬低我们人类所独有的能力。动物应当受到人道的待遇,但若将它们置于同人平等的地位,则是一种扭曲的价值观。
作为神经解剖学和神经生理学的实验对象,猴子有什么局限性呢?训练机灵的猴子完成一些简单的心理学测试是可能的,但这很费力。有个实验要求猕猴保持凝视(即注视同一点)。当它看到水平线段时按动某一控制杆,而看到垂直线段时按动另一控制杆。这样的训练通常需要几周甚至更长的时间。让大学毕业生来做这个实验则多么简单!此外,人作为被试可以用语言来描述他们所看见的一切。他们还能告诉我们他们所想象到的或是梦见的情景。要从猴子身上得到这种信息则几乎是不可能的。
看来只有一种策略是可行的。这就是分别在人和动物上做某些不同类型的实验。这需要假设猴子的脑与人脑的相似程度(以及差异性),但这尚有一定的风险。没有风险就不能取得大的进展。因此,我们既要大胆地按此方法进行研究,又应足够谨慎,尽可能地经常检查我们的假设是否合理。
研究脑波的一种最古老的方法是脑电图(EEG)。它将一个或多个粗电极直接放在头皮上。脑中有大量的电活动信号,但是头骨的电学特性干扰了对电信号的提取。单个电极将提取多至上千万个神经元产生的电场信号,因而单个神经元对电极贡献的信号湮没在它临近的大量神经元的活动中。这就好像试图从1000英尺高度(约300米,译者注)上研究城市中人们的谈话一样。你能听到足球赛场中人们的叫喊声,却无法判断那里人们在用何种语言交谈。
脑电图最大的优越性在于其时间分辨率相当高,大致在1毫秒。这样便可相当好地记录到脑波的上升和下降。人们尚不太清楚这些波意味着什么。处于清醒状态与处于慢波睡眠状态的脑波有非常显著的差异。快速眼动睡眠时的脑波与清醒很相似,因而它又有个别称——反常睡眠,即人处于睡眠状态,但他的脑看上去却是清醒的。我们的梦幻大多出现在睡眠的这一阶段。
有一种常用的记录脑波的技术是在某种感觉输入(如耳听到的一声尖锐的咔哒声)之后立刻记录。与背景的电噪声相比,由刺激引起的反应通常很小(即信噪比很低)。因此,从单独一次反应中几乎看不出什么,实验必须重复多次,并以每次事件的开始作为基准对所有信号进行平均。因为噪声总是被平均掉,所以这样可以提高信噪比,并通常可得到一条可完全重复的典型的脑电波曲线,它是与脑的活动相关联的。例如,反应中常存在着一个被称为P300的尖峰,其中P表示正电位,300代表给刺激信号与尖峰之间有300毫秒的时间间隔(图35)。它通常与某些令人吃惊并需要注意的事件有关。我猜测它大致是从脑干传向记忆该(刺激)事件的高层脑区的一种信号。
图35 平均诱发电位体现出的不同组分。P300组分被标志为P3。图中给出了三种类型的刺激事件得到的结果:不跳出(实线),非目标跳出(虚线)和目标跳出(点线)。注意后者有大的P300组分
遗憾的是,要确定产生这种事件相关电位的神经活动的位置是件困难的事。问题在于,如果我们知道每个神经元的电活动,从数学上讲就能计算出放置在头皮上任意位置的电极上的效果。反之,从电极上得到的电活动却无法计算出脑中所有部位的电活动。从理论上讲,可以在头皮上产生同样的信号的脑活动分布几乎有无穷多种。尽管如此,即便我们不可能恢复出神经活动的全部细节,但仍希望对大部分这些活动发生的部位有所了解。通过在整个头皮上放置一定数目的电极,我们可以对大部分神经活动的定位有较好的了解。如果一个电极记录到较大的信号而其他电极的信号都较小,那么大部分神经活动可能发生在记录到大信号的电极附近。遗憾的是,实验中情况要复杂得多[66]。
从这些事件相关电位中能获得一些很有限但非常有用的信息。举例子说,皮质的听觉部分主要位于脑的颞叶附近。如果一个人生来就双耳失聪的话,那里的情形会是怎样的呢?有一项研究选择了那些双亲也耳聋的聋人。这样几乎可以肯定他们的天生的缺陷是遗传引起的,该缺陷可能是在于耳的构造上而不是在脑中。心理学家海伦·内维尔(Helen Neville)和她的同事们通过观察事件相关电位发现[3],这些患者对视野外周信号的某些反应与听觉正常者相比有一个大得多的尖峰(延迟时间大约150毫秒)。这些增强现象出现在通常与听觉有关的前颞叶及额叶的一部分。
人们对这种由视野外周的信号引起的增强反应并不感到惊奇,因为当聋人相互打手势时,他们的目光主要固定在打手势者的眼睛和脸上。因此,大部分手势信息来自凝视中心的边缘区域。作为对照,内维尔还研究了那些双亲耳聋但本身听觉正常且学习过美国手语的被试。他们并没有像天生耳聋的被试表现出神经活动的增强现象。这表明学习美国手语并不能引起上述的增强效果。
内维尔推测,因为完全耳聋者缺乏正常的与声音有关的神经活动,在脑的发育过程中部分视觉系统通过某种方式取代了部分听觉系统。对于具有听觉的人,可能是正常的听觉输入阻止了任何视觉区域取代皮质的听觉区域。目前的动物实验表明这种想法是有道理的[4]。
一种近代技术研究了脑产生的变化的磁场。这种磁场极为微弱,仅为地球磁场的极小一部分。因此,使用了一种称为squids(超导量子相干装置,superconducting quantum interference devices的缩写)的特殊检测器,并小心地把环境中变化的磁场屏蔽,使得整套装置不受干扰。最初仅使用了一个squids,但现在使用一组共37个这种探头。它通常比脑电图具有更好的空间定域性。此外,它的优越性和局限性都与电场相似,只是头骨对磁信号的干扰要小得多。磁探头所响应的偶极子源垂直于产生脑电图的电偶极子,因而能检测到脑电图所丢掉的信号,反之亦然。
虽然squids探头并不便宜,但进行研究脑波的实验并不十分昂贵。而其他主要扫描方法不仅需要昂贵的仪器,运行的开销也很大。这些扫描设备数目极少,并几乎都归医学机构所有。它们每次只能产生脑的一个片层的活动影像。因而要覆盖某个人们感兴趣的区域,通常需要好几个片层的成像。
大致来说,扫描技术有两种,分别探测脑的静态结构和动态活动。最早的一种技术称为CAT扫描,即计算机辅助X射线断层照相,它利用了X射线。另外一种较现代的技术——磁共振成像(MRI)技术,能产生极好的高分辨率图像。就目前所知,它对实验者的脑不产生伤害。通常的使用中,它记录质子(即氢原子核)的密度,因而对水特别敏感。它得到的图像具有很好的对比度,但该图像是静态的,并不记录脑的活动(图36)。除此之外,两种方法都清晰地呈现出不同的大脑之间的大致结构的差异。在各自适合的环境下,两种方法均能探测到脑受到打击、枪伤等伤害引起的结构损伤。只不过不同的技术所容易探测到的伤害的种类各不相同。采用一种特殊技术之后,MRI扫描可以产生活体人脑的三维重建,包括外观。图37是神经哲学家帕特丽夏·丘奇兰德的脑的一个侧面。
图36 一个典型的磁共振成像(MRI)扫描显示了头部被打击的结果
正电子发射X射线断层照相术(PET)是一种不同的方法。它可以记录脑的局部活动,但记录的是这些活动在一分钟左右时间内的平均值。实验者被注射一种无害的放射性原子(如15O)标记过的化学物质,通常是水。该放射性原子在衰变时会发射一个正电子。[67]被标记过的水进入血液。15O的半衰期很短,这意味着它从回旋加速器产生到注射入体内必须在很短的时间内完成。但它有两个优点:氧衰变非常快,因而大约十分钟以后就可做第二次实验;放射性物质寿命很短,这意味着为了取得所需信号而使实验者所受的辐射总剂量非常少,造成的伤害是可以忽略的。因而该方法可以用于健康的志愿者,而不必仅限于体弱的病人。
图37 汉娜·达马西欧(Hanna Damasio)通过MRI扫描合成的神经哲学家帕特丽夏·丘奇兰德的活体脑图
当脑中一部分的神经活动比平时加强时,供给它的血液也增加。实际上,计算机生成的图像对应于扫描得到的各个部分脑区的血流水平。其他的实验扫描了处于控制状态被试的情况。两幅图之间的差异与脑处在被刺激状态和控制状态时神经活动的变化是大体一致的。
这项技术已经得到了大量有趣而又具有挑战性的结果。特别值得一提的是圣路易斯的华盛顿大学医学院马库斯·雷克尔(Marcus Raichle)领导的研究小组。在早期的实验中,他们研究了对一小组视觉模式的反应。这些模式是经过选择的,可以在皮质的不同的、相当宽的区域中产生最大反应。新皮质的初级视觉区域的血流变化与通过早期对人脑的损伤研究中所预料的结果大致相同。此外他们还发现皮质其他视觉区域的血流也有变化,但它们是否有价值目前尚不清楚。
他们研究了被称为“斯特鲁普干扰效应”(Stroop interference effect)时血流的变化[5]。这是一种更复杂的视觉任务。在实验中要求被试尽可能快地识别一个单词的颜色。比如说,被捕捉的目标可能是用绿色印刷的红色这个词。词的颜色(绿色)与词义(红色)之间的差异会引起被试反应时间增加。将这种任务下的血流分布与另一种直接情况(即单词红色被印成红颜色)相比较,他们发现,在斯特鲁普(Stroop)条件下,有几个皮质区域出现了血流增加的现象,其中增长最大的区域是“右前扣带回”,它在脑的中部,靠近额部。他们认为这与完成任务所需注意的程度有关。他们由此得出结论:“这些资料表明,前扣带回参与了下述的一种选择性过程,即,以先前形成的一些内部的有意识的计划为基础,在这两种情况中进行竞争性的交替处理。”我感觉这种说法更接近于我们考虑的自由意志,而不是通常意义下的注意(见本书的附言)。很显然,我们需要更多地了解有关的不同处理过程的神经机制。
PET扫描可以获得一些其他方法很难得到的结果,但它也有若干局限性。除了昂贵以外,其空间分辨率并不很高(虽然它也随多数现代仪器一起逐步改进),目前通常大约为8毫米。它的另一个不足之处是时间分辨率相当差。为了获得好的信号需要大约一分钟,而EEG的工作在毫秒范围。
一些居主导地位的研究中心目前把PET扫描与MRI扫描二者结合使用。PET记录脑的活动,而MRI得到脑的结构,这样便可把PET扫描结果影射到同一个人的脑上,而不是像过去做的那样影射到一个“平均”的脑上去。然而,不久以后对这些结果的解释就会遇到上述由于缺乏详尽的神经解剖学知识而产生的局限。
现在又发展出一些使用MRI扫描的新方法。其中一种方法对类脂化合物特别敏感[6]。扫描得到的图像可以用来帮助定位某个人的一些不同的皮质区域(不同人的这些区域的准确位置有所不同)。这是由于某些皮质比其他部位具有更多的有髓鞘的轴突,含有更多的类脂。
其他一些新的MRI方法试图探测各种新陈代谢及其他脑活动,而不仅仅探测其静态结构,但它们的信噪比似乎都比常规的MRI低。因而,人们期待看到这些新方法的发展。
关于人脑的研究就先叙述到这里。有什么方法可以观察到动物脑中神经元的行为呢?有一种方法是用较细的电极获取最为详细的信息。用一根尖端暴露的绝缘导线,将动物麻醉后,移去部分头骨,并将电极正好放置在神经组织内。由于脑中没有痛觉感受器,因而该电极并不会使动物感到痛苦。只要微电极的尖端离某个细胞非常近,它就可以在该细胞外探测到它在什么时候发放。它还能收集从较远的细胞传来的较为微弱的信号。将电极尖端沿它的长度方向在组织内移动,就可以一个接一个地检测神经细胞的活动。实验者可以选择将电极置于动物脑中的位置,但从某种意义上说他记录的究竟是哪种类型的细胞完全要看运气了。现在人们常使用一组电极进行记录,这样就可以同时探测不止一个神经元的活动。
另一种技术是对从动物脑中得到的神经组织的一层很薄的切片进行研究。在这里使用的电极是一种非常小的玻璃管,它的尖端逐渐变细。小心地放置电极,使它的尖端刚好在一个神经细胞内部。这样可以得到关于该神经元的活动的更为详细的信息(这项技术也可用于麻醉的动物且不会损伤其脑部,但用于清醒的动物则要困难得多)。如果浸泡在合适的培养液中,脑片能维持许多小时。在脑片中很容易灌流不同的化学物质来考查它们对神经元行为的影响。
在某种情况下,从非常年幼的动物的脑中提取的神经元能够在碟子中生长并向四周扩展。这样的神经元在生长时会与周围临近的神经元接触。这种条件与活着的动物体的环境相差更远,但它可以用来研究神经元内部连接的基本行为。这些连接的膜上有通道。当通道打开时,允许带电原子(即离子)流过。
最令人吃惊的可能是,当前有可能研究单个离子通道中单个分子的行为。这是通过一项称为“膜片钳”技术[7]实现的。欧文·内尔(Erwin Neher)和伯特·萨克曼(Bert Sakmann)因为发展并应用这项技术而荣获1991年诺贝尔奖。他们使用了一种小型玻璃吸液管,它具有一个特殊的倾斜尖端,直径为1~2微米,能从类脂膜中吸起其中的一小片。如果运气好的话,这一小片中至少会包括一个离子通道。经过电放大器及记录装置可对穿过该膜的电流进行研究。在这一小片膜的两侧,相关离子的浓度保持着不同的值。当通道打开时,即使只有很短暂的时间,也有大量带电离子奔涌穿过。这种汹涌的离子流产生了可测量的电流。即使只打开一个通道也是如此。这样人们便可研究神经递质及其他药物制剂(通常为其他的一些小的有机分子)的效果,以及膜电压的作用。
膜片钳也被用来进行另一项关于离子通道的研究。该通道的基因被人工引入未受精的蛙卵中。在这些外来基因的引导下,卵母细胞(即未受精卵)会合成这种通道的蛋白并将其放置于外膜。这样就可以利用膜片钳将它吸取出来。这种技术对于发现某种特别的离子通道的基因很有帮助。
现在作一下总结。目前有许多种方法研究人和动物的脑,其中一些方法从头颅的外面进行研究,另外一些方法则直接深入脑的内部。所有的方法都有这样或那样的局限性,或者时间分辨率不足,或者空间分辨率不足,或者过于昂贵。有些结果非常容易解释,但仅能提供相当有限的信息;另外一些测量做起来很容易,结果却很难解释。我们只有综合不同的方法才有希望揭开大脑的奥秘。
第10章 灵长类的初级视觉系统
我眯起一只眼睛偷偷地看,事情原来是这样……
——儿童游戏
“看”本身是一个相当复杂的过程。因此,脑中的视觉部分并不那么简单也就不足为奇了。它们是由一个庞大的初级系统、次级系统和许多更高级系统构成的。各个系统都要接收来自上百万个神经元的输入。这些神经元位于眼睛的后部,称之为神经节细胞。初级系统通过丘脑的侧膝体与新皮质相连接。次级系统要投射到前面提及的四叠体上丘。
眼睛的一般结构如图38所示,它具有一个可自由调焦的晶状体,至少四十五岁以下的人是可以自由调节的。还有可改变孔径大小的瞳孔。在较强的光照下,孔径就会变小。晶状体把视场内的图像聚焦到位于眼睛后部的一片细胞之上,这薄薄的层称为视网膜。在其中一层上有四种不同的光感受器,它们对于入射的光量子有响应。其由各自的形状命名,如,视杆细胞和视锥细胞。每只眼睛里视杆细胞的数量超过十亿,它们对于微弱的光有响应,且仅有一种类型。视锥细胞的数目约有七百万,它对强光有响应,且具有三种类型,每种对入射光的不同波长范围有响应。正因为这样,我们才能看到各种颜色。这一点在第4章中已作过介绍。
图38 眼睛的结构,并与照相机的比较
当输入信息经过视网膜时,须进行第一步加工。事实上,视网膜本身就是脑极其微小的一部分,与新皮质相比研究它就更容易些。美国生理学家约翰·道林(John Dowling)把它称为通往脑的窗口。它也许就是能够完完全全了解脊椎动物脑的第一步。尽管它的结构也许是很值得研究的,但我仍把它看作一个“黑箱”,并仅仅介绍有关它的输入与输出之间的关系。所谓输入就是指射入眼睛的光线,而输出就是指神经节细胞的发放。[68]
用于明视觉或日间视觉的锥体细胞在眼睛中央凹附近的分布密度极高。因此,我们才能够看到极其微小的细节。这也就是当你为了看清楚某个感兴趣的东西时,你就会注视它的原因。与此相反,当你在黑暗中能够把某个物体看得清楚,这正是由于视网膜上具有很多的视杆细胞。
眼睛能以不同方式移动,它可以跳跃或移动,称为扫视,一般每秒钟为3~4次。灵长类动物的眼睛可以跟踪某个运动目标,这是一个“平滑追踪”的过程。令人难以理解的是当你要使你的眼睛沿着静止的场景做平滑移动时,这几乎是不可能的。如果你一定要试图这样做时,你的眼睛将会做跳跃式的移动,还可以做各种连续的微小移动。不管用什么办法使视网膜上的图像完全保持平稳,在1~2秒钟后这种视感觉依然会消失(这个问题将在第15章作更加详尽的讨论)。
把信号从眼睛传送到大脑的细胞称为神经节细胞。任何一个特定的神经节细胞只能对视场中某一特定位置上的小光点开启与关闭有响应,如图39所示。由于晶状体把这个光点聚焦到视网膜上该神经节附近的地方,因此它一定要在那个特定的位置上。但这也依赖于眼睛聚焦点的位置(就像在照相机中,底片上某一特定点的反应既与它在底片上的位置有关,还与照相机聚焦的方向有关)。视场中能够对一个单细胞活动产生影响的区域称为感受野。
在完全黑暗时,神经节细胞的发放常常是很低且无规则的。这种发放称为背景发放。有一类神经节细胞叫作ON中心型,即当一个光点投射到感受野中心时,它的发放骤然增加。在这个小的中心以外,围绕它们有一个圆形范围。在这个区域上,如果同样用小光点刺激它时,则发生与之相反的作用。如果光点完全落在环形区域上,则背景发放就完全停止。而当撤走光点时,将有一丛脉冲发放,见图39左侧。
图39 典型神经节细胞的发放记录。左边的神经元是“ON中心”类型的,右边的是“OFF中心”类型。每根短的竖线表示一个脉冲发放。刺激显示在两个黑的长方形中。最上面的示意图表示当没有光照到视网膜上,神经元的背景发放;下面三幅示意图分别表示当一个小光点、一个大光点和一个光环刺激时,神经元的背景发放
假定视网膜上放置各种大小的光点,使它们的中心位于该细胞感受野的中间区域,正如我们所见,当用小光点刺激时,该细胞就强烈发放,而光点的直径越大其响应越小。当这个光点大到足以覆盖中心及围绕它的环形区域时,该细胞根本就不发放了。换句话说,感受野中心区域的响应与周边是相反的。这就意味着任何一个特定神经节细胞对在恰当位置上的光点刺激具有强脉冲发放,而对其整个区域的均匀光刺激并没有响应。视网膜就是要去掉部分传入眼睛里的冗余信息。它传送到脑中的正是在视野中的感兴趣的信息,在那里光分布是不均匀的,而要忽略的正是几乎不变的部分。
与ON中心型细胞数目差不多的另一类细胞是OFF中心型细胞。大略地讲,它们与第一类细胞性质正好相反,即当在感受野中心把光点撤走时,它会有强烈的发放(图39的右图)。这就说明了许多神经元相当一般的性质,即它们可以把这些峰电位下行传送到轴突。一个神经元不会产生负向的峰电位。那么,它们又怎样传输负信号呢?在丘脑或皮质中要找出一个快的背景发放率,比如说200赫兹,这是相当不容易的。如果这样一类细胞存在的话,通过增加其发放率到400赫兹,则产生一个正的响应,通过降低其发放率至零则产生一个负的响应。通常,替代这种神经元的有另外两类相当类似的神经元,它们都具有很低的背景发放率,一类是当某一参数增加产生发放,另一类则对其减少而有响应。当没有施加任何刺激时,神经元通常也不作出任何反应,更不是200赫兹,这大概是为了保存能量。
如果大脑要传送在某点按正弦形变化的神经活动,那么当信号为正的时候则某个神经元发放,当它为负时,则另一个神经元发放。但需告诫的是不能用太简单的数学函数去描述所发生的一切。而且,一个真实的神经元常常对输入的突然变化以初始阶段的一丛发放作出响应。而这种时间上的发放模式随神经元而异,神经元并不是为了数学家的便利而进化的。
神经节细胞的感受野大小是相当不同的。位于眼睛中心区域的要比外周的感受野小。节细胞之间相距是比较近的,因此,它们的感受野是相互重叠的。在视网膜上一个光点通常会引起一组相邻神经节细胞的兴奋,即便它们发放程度并不一样。
神经节细胞并不仅仅只有两种主要类型,即ON中心型或OFF中心。它们实际上还有好多类别,且每类又包含其亚型。在哺乳动物中这样的分类方法在各物种间也稍有不同。对于猕猴来说,有两个主要分类,[69]有时称为M细胞和P细胞(M细胞是指Magno,意思为大;P细胞是指Parvo,意思为小)。人眼的神经节细胞与其极为相似。在视网膜的任何地方,M细胞都比P细胞大,而且也具有大的感受野。它们还具有粗厚的轴突,这就使信号的传导速度加快。同时,M细胞对光强分布中的微小差别敏感,因此它能够很好地处理低对比度。但是它们的发放率在高对比度时会达到饱和,它们主要用于对视觉场景中的变化发出信号。
P细胞的数量更多,与多数M细胞相比它们的反应具有更好的线性,即正比于输入。而且它们对细节、高反差及颜色更感兴趣。例如P细胞感受野的中心对绿色波长反应很强,但环绕中心的外周区对红色波长更敏感。正是由于这个原因,中心与外周具有对不同颜色光的敏感性,则可以把P细胞分成几类亚型,每种亚型对不同颜色的反差有敏感。在这里,我们再次看到,视网膜不只是传输落到光感受器上的原始信息,实际上,它已经开始通过多种方式对信息进行处理。
神经节细胞主要包括M细胞和P细胞,每一类都具有ON中心和OFF中心的感受野。它们通过轴突将信号传导到丘脑的侧膝体,然后将信息传输到新皮质。而且,视网膜也还要将信号投射到上丘(superior colliculus),但P细胞并不投射到那里,尽管一些M细胞和其他各种非主要类型的细胞可以投射到上丘。由于缺乏P细胞的输入,上丘是色盲的。
在大多数脊椎动物中,右眼的神经节细胞几乎全部投射到左脑的视顶盖(大致相当于哺乳动物的上丘),而左眼与此相反。在灵长类动物中,各种投射更加复杂。每只眼睛投射到大脑的两侧,但脑的左中侧仅接受与视野中右半部分有关的输入。
因此,用你右眼中央凹看到的东西,被送到左边的侧膝体,然后再达到左边的视皮质,如图40所示,并且也可以到达左边的四叠体上丘。当然,正常的大脑两半球通过几处神经纤维束相互联系在一起,最大的纤维束是胼胝体。如果出于医学的原因,把它切掉(这在第12章将会讨论),这个人的左脑只看视野中的右边的部分,右脑只看到视野中的左边。这会产生某些令人很奇怪的结果,就好像有两个人在一个脑里。
图40 初级视觉系统通路的简图(从下往上看)。请注意,右边的视野影响大脑的左边,反之亦然。连接右边视野的用虚线表示
让我们先扼要地介绍一下投射到上丘的次级系统。这是低等脊椎动物(如蟾蜍)主要的视觉系统;对哺乳动物来讲,它的许多功能已被新皮质等完成,而其余的主要功能似乎如眼动的控制,也可能还包括视觉注意的一些方面。
上丘是一个分层结构,主要有三层,分别称之为上、中、下。上层接收来自视网膜的各种输入,同时也接收来自听觉系统和其他传感系统的输入。各种输入具有粗略的映射关系,尽管这种映射的细节物种各异。下层的输入就更具多样性了。
很重要的一点是下层中的一些神经元与大脑对侧的上丘相连接,这条通路被称为顶盖间连合(它在第12章描述的裂脑手术中保持完好)。下层的神经元也连接到脑干上的神经元,控制着眼或颈部的肌肉活动。
这些神经元具有什么样的特性呢?上层中的许多细胞对运动具有选择性。在猕猴中它们是色盲的,即对入射光的波长没有选择性。它们对微弱的刺激很感兴趣,但对刺激的细节不怎么敏感。不管是给光或撤光,它们对光的变化都会作出瞬时性反应。这些大概都是无意识的注意产生的关键。它们发出类似于“注意!有什么东西在那儿”的信号。
作过演讲的人可能有这样的经验,当突然发生变化时,例如,演讲者的左边或右边的门打开了,所有的听众的眼睛同时朝向那个方向,这种即刻的反应在很大程度上是无意识的。我认为上丘是产生这类眼动的主要因素。
眼睛究竟怎样知道该往哪里跳跃呢?这就要感谢戴维·斯帕克斯(David Sparks)、戴维·罗宾逊(David Robinson)和其他一些人设计的精巧实验[1]。现在我们对眼动有了更好的了解。其实上丘的上层也许可以看作感觉的投射,中间与下层对应于运动系统的投射。在这些区域中,神经元的发放对眼睛变化的方向与振幅进行编码,以便使眼睛以跳跃的方式跟随靶目标。在跳跃之前那一刹那这个信号或多或少与眼睛的位置无关。这个信号被送到脑干以决定需要作出多大且在什么方向上的跳跃。
这种信号并不能用工程师所猜测的那种方式来表达。一个神经元也许对特定的跳跃方向编码,而它的发放率可能对跳跃的距离进行编码。因此,用这种方法,一个神经元的小集合就可以对所有的方向和距离编码。另一种方法是每个神经元就可以对跳跃的向量,即方向和距离进行编码。实际上并不是这样的。为了产生一个跳跃,上丘中一片神经元就开始快速发放。从广义上讲,它是确定跳跃向量的运动映射图的活动中心。这样一个特定的上丘神经元也许会参加到许多极为不同的跳跃中。正是这些激活的神经元作为一个整体以便确定跳跃向量特性。简言之,一次眼动都将受到许多神经元的控制。[70]
眼动的速度究竟由什么来控制呢?这可能与激活区域内神经元的发放率有关。它们发放得越强,眼睛移动得越快。因此,最终的跳跃方向不仅依赖于有关的神经元发放有多么快,而且依赖于这群活动的神经元的有效中心在运动系统定位图上的位置。
你可能会发现这种排列方式很独特,但它是个极好的例子,可以说明一群神经元怎样对相关的参数如眼动的速度与方向进行编码的。它的优点是,如果一些神经元不参与活动了,整个系统也不会停止工作,没有一个工程师能够设计出这样一个系统,除非他已经了解了脑是怎样工作的。当这些信号到达脑干时,必须以不同的信号集合去传递,以便控制眼睛的肌肉。究竟怎样恰当地做到这一点还有待进一步研究。
现在我们考虑通过侧膝体投射到视皮质的初级视觉系统。侧膝体是丘脑的一小部分。当我1976年去索尔克研究所时,我继承了属于已故的布鲁诺·布鲁诺夫斯基(Bruno Bronovski,电视连续剧“The Ascent of man”的制作者)可以鸟瞰海洋的办公室,以及一个两倍于真实脑的彩色塑料模型。我开始着手干的就是找出侧膝体在模型上的位置。我很容易地找到了丘脑,但花了好多时间才找到了一个上面标着侧膝体的小突起。但这也没有什么可惊讶的,因为它只不过是由150万个神经元构成的。
了解侧膝体需要抓住两点:第一点,它仅仅是一个中转站;第二点则与前一点相反,它还干了许多到目前为止我们还未曾了解到的更加复杂的工作。
侧膝体中为主的神经元是主细胞(principal cell),它产生兴奋性反应。此外,还有一小部分具有GABA受体的抑制性细胞。侧膝体被称为中转站有解剖上和生理上的原因。主细胞直接接收来自视网膜的输入,并且经轴突传送到皮质V1区。这条通路上再没有其他神经元。因此,称其为“中转站”。这些轴突很少有侧枝连接到其他主细胞上或侧膝体的其他部分。换句话说,这些神经元倾向于保持孤立而不愿与同伴进行交流。另外,视网膜的输入被映射到侧膝体,以使侧膝体上每一层对来自视野的映射稍有畸变。侧膝体的神经元的感受野比视网膜细胞的要大一些,且二者间是极其相似的。乍看起来,侧膝体仅仅是把视网膜接收的信息原原本本地传递到视皮质。
“map”这个词在视觉系统中有两种稍微不同的解释。它的一般意思来源于那些在供体中相距不太远的神经元,直接连接到受体域中彼此靠近的轴突的终点。这就要在接受域中产生供给域的粗略的映射。更严格的意思是指“视网膜映射”,即在某一特定的视域中彼此相邻近的神经元趋向于对视网膜上相邻点上的活动反应,也就是将视网膜上相邻点从视域上三维信息转换成二维投射。当对视觉系统的更高层次作进一步探索时,视网膜映射由于许许多多步的近似映射会越来越变得杂乱无章。但是,从一个区域到下一个区域的映射仍然保存得相当完好。
猕猴的侧膝体共有六层,如图41所示,其中两层是由大细胞(称之Magno cellular)构成的,它们分别接收右眼或左眼的输入,但彼此间几乎没有什么相互作用。而且输入主要来自视网膜的M细胞。很自然也会联想到,视网膜的P细胞也是按照类似的方式投射到另外两层具有许许多多的小细胞上(称为Parvo cellular)。但是,它恰恰并不是只有两层,而是共有四层。它们的输入是分别来自两只眼睛,且总是保持分别输入的。
大细胞层与小细胞层究竟起着什么不同的作用呢?在两个实验室用训练过的清醒的猴子完成各种视觉任务,然后在其侧膝体上做了局部的小损伤。这些实验大致能表明:小细胞层中的神经元主要携带有关颜色、纹理、形状和视差的信息,而大细胞层的神经元主要检测运动和闪烁目标(见参考文献2)。
到目前为止,我们仅讨论了兴奋性的主细胞。抑制性细胞主要分为两类,它包括侧膝体本身与丘脑的网状核团中的细胞。网状核团是在丘脑中一薄层,千万不要与脑干中的网状结构相混淆。这一薄层的细胞围绕着丘脑的大部分,且神经元都是抑制性的。它们接收的兴奋性输入来自传入新皮质或由此传出的轴突,而且它们彼此存在着相互作用。它们的输出又被立即映射到在它们下面的丘脑部分。如果把丘脑看成通向皮质的大门,那么这些网状核团就好像看守大门的卫兵。
侧膝体中的神经元还可以从皮质V1区获得反馈输入。令人奇怪的是,从V1区反馈的轴突比上行到皮质的轴突更多,但这些下行的轴突与远离胞体的树突形成突触。因此,它们的影响会大大被削弱。我们对这些反向的连接确切的功能还不甚清楚(有关它们功能的一些猜测请看第16章)。
当然,它也有来自脑干的输入,调制着丘脑的行为,尤其是网状核团的联系。这意味着动物清醒时,侧膝体中的神经元可以自由地传送视觉信息。但是,当动物处在慢波睡眠时,这种传送就被阻断。这里已较详细地叙述了一些与丘脑有关的神经元以及各种类型的突触联系,然而有关侧膝体的特性应能表达那种既简单又复杂的令人难以理解的组合。
图41 图中为猕猴侧膝体的6个层。这个切片是细胞体被染色后的结果,表示为一个小黑点。最下两层是大细胞(M细胞),被称为“大细胞层”,上四层有小细胞(P细胞),被称为“小细胞层”。每一层仅从一只眼睛得到输入
侧膝体中的主细胞投射到视觉皮质(如图40)。猫的轴突可以到达几个视觉区,但猕猴与人的轴突几乎都连接到视觉的第一区[71](在猴的皮质中,它与其他区域的联系较弱,这个问题与第12章讨论的盲视有关)。如果人或猴的V1区全部受到严重损伤,他(它)的视野的一半会几乎变盲。
乍一看,大脑皮质的任何部分都是那么杂乱无章。每一平方毫米大约有10万个神经元。轴突与树突相互交错,还有许多起支撑作用的胶质细胞与微血管都混杂在一起,完全处于混沌状态。它们可不像计算机的芯片上晶体管和其他结构的布线有着整齐的排列。如果进一步仔细观察,也会发现它确有部分结构是有序的。在大脑皮质的许多不同区域中,神经元的一般排列还是具有好多相同之处。让我们首先看看这些共同点究竟是什么。
大脑皮质就是一片薄薄的层,它的垂直厚度比平行于该层表面的长度要小很多。神经元的排列与外观是非对称的。与这一薄层表面相垂直的方向称之为垂直方向(这如同把皮质在桌面上展平一样)。另外两个方向称之为水平方向。例如,几乎所有的锥体细胞都有沿垂直方向上升到皮质表面的树突。与之相比,皮质水平方向上的细胞彼此有着相当类似的特性。这与森林中的树木的排列类似,垂直方向与水平方向有明显的不同。
皮质最引人注目的特性就是层状的。了解这些层以及各层中神经元不同的功能是很重要的。为描述上的方便,可以把它分为六层。实际上在层中也还包含有几个亚层,如图42所示,最上面的一层为第1层,它具有很少的细胞体,主要是由位于它下面层中的锥体细胞向上延伸形成的树突末梢及末梢间的相互连接的轴突构成。因此,它都是这些神经布线而很少有细胞体。在它的下面是第2~第3层,常常被统称为上层。在这些层中有许多锥体细胞。第4层是由许多兴奋型的星状细胞组成,而几乎没有锥体细胞。它的厚度在不同的皮质区变化是相当大的,在一些皮质区几乎没有这一层。第5~6层称为下层,它包含有许多锥体细胞,其中一些细胞的树突末梢一直可到达第1层。
图42 猕猴初级视皮质(V1)的纵切面。类似上图,每个点代表一个细胞体。注意层状的结构。层的标号在左边(白色的块是血管)
在不同层中的神经元不仅是相当不同的,更重要的是这些神经元的连接方式也极不一样,如图43所示。
上层(第2~3层)的细胞仅与其他皮质区相联系。尽管它们中的一些神经元通过胼胝体可与大脑另一侧的皮质区连接,但它们的投射作为一个整体未超出皮质区。虽然第6层的一些神经元具有与第4层连接的侧向轴突,但它们当中神经元主要反向投射到丘脑或屏状核,它是位于皮质下的附属于皮质的核团,并通向脑的中部。第5层是皮质中很特别的一层,只有这层的神经元完全投射到皮质以外的地方,也就是说,它们不投射到丘脑和屏状核,尽管也有一些神经元投射到其他的皮质区。因此,从某种意义上讲,第5层把在皮质中处理完的信息传送到大脑其他部分和脊髓。所有这些远离皮质的连接,甚至包括反向的连接都是兴奋性的。
当然,皮质也具有许多抑制性的细胞。但在数量上占多数的是产兴奋性的锥体细胞,用GABA作为神经递质的抑制性细胞大约占了整体的1/5,剩下的主要是刺星状细胞。这些可产生兴奋的刺星状细胞的轴突相当短(100~200微米),仅仅能够与水平方向上相近的细胞联系。所有抑制性细胞都具有这种特性,但也有些例外。[72]
有一类抑制性的细胞好像不存在。锥体细胞的轴突经常向下延伸到离皮质相当远的区域。在此之前,它通常会伸出几个分枝,这称为侧枝。在某些情况下,这些侧枝又形成许多局部分叉,而且它们就在同一皮质区域内沿水平方向伸展相当长的距离,约几个毫米。
如果我们认为皮质能够实现计算功能,它就应该具有一种类似“门”的特殊类型的抑制性突触。在把结果沿主要轴突的分枝传送到其他区域的目的地之前,它要能够允许信息通过轴突离开胞体,并在皮质区域内循环好几次。也就是说,它需要实现几次循环计算。为此,我们需要一个强抑制的突触集合,但它不在该轴突的起始端,而是位于轴突就要离开皮质之前的地方。尽管有一位理论家为了使他的模型能够工作,需要构建这样一类突触,但实际上还没有证据说明它们的存在。在轴突各个分叉点上也没有发现这类突触。但这些显示出皮质区总像是没有做任何循环的处理就急急忙忙地将信息发送出去。这也意味着,当大脑需要通过反复迭代运算建立一种活动的共同体时,各个皮质区的连接与单皮质区内的连接是同样重要的。
信息究竟在皮质的各层之间是怎样传递的?这是一个极其复杂的问题,我们可以从下面粗略的框图获得一些了解(图43)。
进入皮质区的主要的,但不是唯一的入口位于它的第4层。但当它很小或不存在时,就直接进入第3层的下部。第4层主要连接到上部的第2~3层,然后,又依次与第5层形成一个很大的局域连接,一直到达位于它下面的第6层。第6层又依次通过短的垂直联系返回到第4层。第1层还接收来自其他皮质的一些主要的输入。这些与来自低层的高锥体细胞的树突末梢相联系。
图43 皮质V1区内一些主要通路的示意图。在图中,未标出许多横向连接
关于小片皮质中的许多轴突连接的复杂性质,特别是某一层到其本身的许多连接惊人得长,以上这些都未作介绍。很显然,在所有这些规律性的后面也还存在着一些必然的联系。然而,在我们对皮质有较深了解之前,要讲清楚这些规律太困难了。新皮质可能是人类无上的荣耀,故它不会轻易地将其秘密公诸于世。
最后将谈到大脑的分区。最初,皮质的分区是根据在高倍光学显微镜下,观察切片染色后的形状(这类学术研究称为结构学)划分出的。纹状皮质正是由于它具有着明显的水平方向纹理而得名,这些纹理是从大的轴突末端沿各个方向水平伸展出而形成的。这些纹状足够大,可以从染色的显微镜切片中,用肉眼观察到纹理,如图44所示。这些纹理突然在一大片皮质区域的边缘上消失了。因此,很自然地,会把这样一块相当一致的区域起个名字或排个序号。皮质其他区域稍微不同。例如,纹状皮质具有很厚的第4层,而初级运动皮质即便有也是很少的。遗憾的是,相邻的区域的差别如此细微,以至于神经解剖学家之间也无法达成一致的见解。20世纪初,德国的解剖学家科比尼安·波罗德曼(Korbinian Brodmann)把包括人在内的各种哺乳动物的皮质分成几个不同区域,并给每个区域排序。他把纹状皮质叫作17区,与它相邻的区域定为18区,与18区相邻的区域称为19区,把初级运动皮质标为第4区。其他一些神经解剖学家,如奥斯卡和赛西勒·沃格(Oskar and Cécile Vogt)把皮质分为更多的区域。[73]
图44 猕猴视皮质的切片,被标记的是细胞体。V1区有一些很明显的条纹(因此被命名为纹状皮质)。箭头表示V1区与V2区的分界线,那儿条纹少得多。小长方形中的东西被放大显示在图42中
虽然波罗德曼的划分基本上是正确的,但总的说来这种划分太粗略了。比如说,17区、18区,特别是19区都与视觉有关。在下一章将会涉及17区可以被看作单个区域,18区和19区还包括许多重要的亚区。因此,这样一些术语就不再使用了。当然在某些医学文章中,他们对人的皮质还沿用这样的划分。
总而言之,视觉系统的初级部分是高度平行的,即许多类似的但不同的神经元在同一时刻都处在活动状态。位于眼后部的视网膜是处理视觉输入的前端,它沿着两条主要通路将这些信息传送到通往皮质通路上的侧膝体及与眼动有关的上丘,还有脑干上几个较小的视觉区,它们与眼动、瞳孔的调节有关:与颜色有关的信息传送到侧膝体,但不到达上丘。这些初级部分的信息都是相当局域和简单的。我们要是能看到任何东西,就说明这些视觉信息都必须在视觉系统的不同区域被作了进一步处理。
第11章 灵长类的视皮质
我们应当尽可能把事情简化,但又不能过分。
——阿尔伯特·爱因斯坦
灵长类的大脑皮质由左右两片薄板构成,而每片薄板又可分成许多各异的皮质区域。如何确定皮质上一块特定的区域是否同属于一个皮质区呢?可能有效的判断标准有很多种。第一种方法是在显微镜下观察其剖面的结构形状——比如说,它是否具有延伸的第4层。我们已经观察到明确限定17区的条纹。这种简单的差异只在少数情况下是有用的,尽管可使用的分子探针更多时情况会有所改变。另一种方法是通过检测一个视觉区域的视觉映射的细节来寻找它的边界。但这种方法通常不太适用,尤其是在高层视觉区域,那里大多数几乎没有视网膜区域对应组织——它们没有简单的视觉投射。目前最有效的手段是寻找每个假定区域的连接(包括输入和输出)的特征模式。应用现代生物化学方法可使这种方法得到相当可靠的结果。不过正如我们在第9章所看到的,这些方法大多不适用于人脑。
许多科学家对大脑皮质(特别是猫和猕猴的大脑皮质)的功能划分作出了贡献。即便如此,我们的知识仍然是不全面的,这些只能看作一种初步的结果。
让我们从纹状皮质(17区)开始讨论。它现在称作V1区(即第一视区)。V1区相当大,每平方毫米表面下有将近25万个神经元。在大脑皮质中该数目通常大约是10万,V1区则是个例外。猕猴脑一侧的V1区总共有大约2亿个神经元。这可与来自侧膝体的大约上百万个轴突相比。从这些数字中我们马上能看出对从侧膝体到V1的输入必定有大量的处理。V1区并不比邻近的V2区更厚,而V2区的表面密度要低。这意味着,平均而言V1区神经元的体积相当小。这让人们产生了一种印象,进化过程在合理的范围内尽可能多地将神经元塞进了V1区。
来自侧膝体的兴奋性输入主要进入第4层,同时也有一些传到第6层。第4层有若干子区。来自侧膝体P层和M层的输入大多分别进入第4层的不同亚层。所有输入的轴突都广泛分叉,因此一个轴突可能与上千个不同的神经元接触。与之相应,第4层的每个神经元从许多不同传入的轴突接受输入。尽管如此,一个典型的棘状星形细胞只有部分突触(可能是20%)直接接受来自侧膝体的输入。其他突触接受来自其他地方的输入,这主要来自邻近的其他神经元的突触。这样,第4层神经元不仅聆听侧膝体的诉说,彼此也进行广泛的交谈。
就像视网膜的输入映射到侧膝体一样,侧膝体的输入也映射到V1区。当然,这是一种对侧视野的映射。但这种映射并不是均匀的(图45)。对应于凝视中心附近的空间比视野外周要大得多。它使我回想起几年前流行的一幅幽默地图,这幅地图描述的是一个纽约人眼中的美国,其中大部分是曼哈顿地区,新泽西被严重地缩小了,加利福尼亚和夏威夷则仅在远处被附带标记上。
图45(展开的)枭猴左侧视皮质的示意图。图中仅显示了V1和V2区。左侧的小图表示右侧视野。注意其各个部位的符号。这些符号在右侧映射图中又重复使用。视野的中心(大约是最近的10°)占据的皮质区与外周(从60°到90°)相比更大。同样,请注意V2区的表达被如何分开
此外,在小尺度上,皮质的映射极其杂乱无章。在双眼除了盲点及远离外周的所有地方,具有通过侧膝体向皮质的投射,这两条到达第4层的连接通路分离成指纹一样的无规则条纹(图46)。[74]在第4层以上和以下各层中,沿条纹中央有一系列“斑点”(用细胞色素氧化酶染色可显示出来)。这里的神经元对颜色和亮度特别敏感。
一般而言,皮质V1区的不同神经元对不同的物体敏感。回想一下,侧膝体向皮质投射的神经元具有中心外周拮抗的小感受野。猕猴第4层的一些神经元仍保持着这种特性,只是感受野稍大。在20世纪60年代,戴维·休伯(David Hubel)和托斯滕·威塞尔(Torsten Wiesel)(他们后来都在哈佛医学院工作)发现,对于V1区第4层以外其他层的大部分神经元而言,最佳刺激是细的亮棒(或暗棒)或者边缘,而不是一个光点(因为这项发现以及其他一些工作,休伯和威塞尔获得了1981年的诺贝尔奖)。它们对运动棒的反应比亮暗闪烁的棒更好。对于任何特定神经元而言,它对具有某一特定朝向的线或棒状刺激的发放最剧烈。如果棒的朝向仅偏了15°,通常细胞的发放率也会变得很低。不同的神经元具有不同的最佳朝向,然而除了第4层某些部位以外,在垂直于皮质表面方向上直接相邻的神经元趋向于对同一朝向反应。这常被称作“柱状”排列。此外,如果沿水平方向穿过皮质,可以发现最佳朝向的变化相当平缓,仅偶尔会有突变。在皮质任意一个直径大约1毫米的小区域内,所有的各类神经元的感受野常常具有某种程度的重叠,并具有所有可能的朝向。这种排列被描述成“超柱”和“皮质模块”,不过不要过分地从字面上理解这种观点。遗憾的是,这种提法对于理论家来说过于流行。他们当中有些人应当理解得更好些。
图46 重建的一部分猕猴皮质V1区[1]。图中黑区从一只眼获得输入,白区则从另一只眼输入。这使得图45所示的投射在小尺度上有些凌乱
休伯和威塞尔发现了两大类朝向选择细胞,他们称之为“简单细胞”和“复杂细胞”。简单细胞感受野的兴奋区和抑制区很容易定义,这种布局使它对棒或边缘的反应最佳。一些感受野的尺度比其他的更为精细,因而能反映更细微的特征。[75]
复杂细胞与简单细胞的区别在于它们的感受野并不能简单地分成兴奋区和抑制区。要让它们发放,同样需要位于其感受野内的具有其最优朝向的一根棒或边缘,但它们对刺激在感受野内的位置并不敏感。其感受野常比邻近的简单细胞稍大。此外,一些复杂细胞可对更复杂的刺激(如沿相同方向运动的一个光点图案)有反应。
简单细胞或复杂细胞是如何设置输入连接从而产生了所观察到的行为的呢?应当清醒地认识到,在经过近30年的研究之后,我们仍然不能确切地知道答案。从逻辑学的角度看问题显得很简单。对于简单细胞而言,只有当刺激点集的大多数总合起来形成最佳反应的棒,足以产生一个反应,它才会发放。它们进行一种“与”操作,但需要超过某个输入阈值才能引起发放。与之相反,当这根或那根直线(它们具有相似的朝向)在一个复杂细胞感受野内某处呈现时,细胞会发放。这就好像复杂细胞接受来自一个由相似的简单细胞构成的完整集合的输入,并对其执行“或”操作。看来复杂细胞在处理上确实比简单细胞做了进一步加工,但深入的研究表明这种简单的观点导致了困难,因为许多复杂细胞具有直接来自侧膝体的输入。此外还有一个问题,就是最佳反应通常是对运动直线作出的。有时一个神经元对(垂直于直线的)一个方向的运动的反应比相反方向要大得多。
特别遗憾的是这个问题尚未解决。至少有这样一种可能,即简单细胞执行“与”操作,随后再由复杂细胞执行“或”操作,这是大脑皮质的所有区域所使用的一般策略。倘若真是如此,那么了解它就是非常重要的。
皮质V1区的神经元的反应形式有多种。正如我们看到的那样,第4层的许多神经元是中心周边型的。斑点中的神经元也同样如此。其他大多数神经元具有朝向选择性,只不过有些神经元对不太长的直线(常指端点抑制)反应最佳[76],而其他的神经元,如第6层的许多神经元,对非常长的直线反应最佳。
另一种类型的神经元从双眼接收输入,只有这种输入来自视网膜上位置不完全对应的神经元时,它的发放最强。这在提取视野中目标的距离信息时是必要的,因为不同距离上的物体产生的视差不同(这在第4章解释过)。我们已经看到,某些神经元对特定方向的运动敏感,对相反方向的运动则没有反应。许多这样的细胞位于一个称作4B的薄层内。许多神经元对所有波长的可见光具有相同的反应,而其他有些神经元,特别是在斑点中的神经元,其感受野中央和外周的反应可对波长有选择敏感性。简而言之,它们对颜色敏感。所有这些都表明了V1区的不同神经元按不同的方式处理输入的视觉信息。
感受野是视野的一部分,在其内部光的变化会引起细胞发放。然而,感受野外有大得多的周边区域,在该区域内光的变化本身不会引起细胞发放,但能调节由感受野产生的原有的效果。这个区域现在被称作“非传统”感受野。它引入了一种关于局部环境背景的重要观点。这个环境可以具有特定的特征。一个细胞不仅对一个特定的特征敏感,同时也受邻近的相似特征的影响。这种神经行为的重要特性有可能出现在视觉等级的所有层次。它可能具有重要的心理学含义,因为心理学家发现在许多条件下环境是重要的。
为什么皮质V1区具有视野的映射(尽管这种映射比较粗糙并有扭曲)?是因为有一个小矮人观看它?——我们的惊人的假说反对这种观点。最可能的原因是这样能保持脑的连线更短些。V1区的神经元主要关心的只是视野内一个小区域中发生的事情,它需要与其他一些神经元相互作用以提取它们表达的信息,一种大致的映射使得它们彼此保持相当近。理论家们指出,这种最短接线要求也可以解释在皮质发现的各种类型的分块现象,因为它允许在一个整体的主要映射中存在多个子映射[2]。一个子映射中的一小块可能在内部有强相互作用,同时与同一子映射内的邻近部分有稍长一些的连接。这样的小块还可能与邻近的其他类型的子映射的部分有较弱的局部连接。按照同样的方式,有时把一座城市考虑成由许多具有共同利益的相互作用的地方社团组成,这是有好处的。如何布置这些团体,部分是为了使交流更便利。因此整个城市散布着许多超级市场,而每个居民都离其中某一家不太远。
最终需要在所有层次上确定这个连接线的经济学问题。将该问题与新皮质神经元总数保持在一个合适的最小值的需要联系在一起,可以很好地解释皮质(特别是视觉系统)组织的一般规律。
V1区以及其他各区的映射的构造形式是这样的:它的大尺度特性(比如,V1区中哪个区域对应于黄斑)可能是在有关基因的指导下随着脑的发育过程固定下来的。映射的具体细节则是由来自眼睛的输入的调节产生的,它仿佛依赖于大量输入突触的发放是否相关。其中某些发育甚至可能在出生以前就开始了。在动物幼年早期有一个临界期,其间可能很容易实现这种接线的改变,但映射的某些改变可在此后的生活中发生。
有些习惯用语表征了神经元的反应特性(如V1区许多神经元对朝向的反应),它们是有用的。一个常用词是“特征检测器”——它确实抓住了事实,即有些神经元对朝向敏感,有些则对视差或波长敏感,等等。但它有两个缺点。首先,它暗示神经元仅对它名字前的“特征”反应(有些人或许认为它是唯一对该特征反应的神经元,但这远非事实)。这忽视了该神经元也可能对其他特征(通常是相关的特征)反应这个事实。例如,一个对朝向敏感、具有端点抑制反应的细胞对(适当位置适当朝向的)短线有很好的反应;但由于感受野的子结构,它也会对部分在其感受野内部的长得多的直线的曲率敏感。
对特征检测器的第二种误解是它暗示神经元被脑用于产生那种特定特征的觉知。这不一定是事实。例如,一个对不同波长有不同反应的神经元并不一定是使你看到颜色的系统的一个核心部分。它可能属于另一个系统,仅仅将脑的注意引向颜色差异,而并不产生关于该颜色的觉知。
另外,由特征检测器编码的特征很少像工程师们设计的那样分成精巧的类型。现在很少提及这一点。例如,人们会认为一种“简单”类型的朝向选择细胞有两种方式设置其兴奋区及抑制区,一种沿感受野长轴方向是对称的,另一种则是反对称的。[77]这些类型确实存在,同时还有许多其他相关但混乱的设置形式。我们在第13章将会看到,人们可以预料,这种结果恰恰是使用固有学习算法的神经网络演化发展而来的,而非严格地由设计者事先设置的。
为了理解一个神经元在脑的操作中所起的作用,我们至少需要知道它的感受野以及它的输出投射到何处,即与其轴突有突触接触的所有神经元。索尔克研究所的特里·塞吉诺斯基(Terry Sejnowski)称之为“投射野”,其与“感受野”这个术语相对应。在讨论(神经元在脑中的)“含义”时投射野可能扮演了重要角色。如果一个神经元的轴突被切断,那么它的活动对脑来说不会有多大意义。
皮质V2区(视觉第2区)也很大。它也像V1区那样具有对侧视野的映射。从黄斑到周边V1区的映射的局部尺度(称为“放大因子”)有所变化,如果因此说它显得有些不寻常的话,那么仔细检查图45就可以看出,V2区的映射甚至更为奇特。映射基本上分为两部分,大致对应于对侧半个视野的上、下部分。[78]同样,专用于黄斑附近部分的区域比视野外周部分更大。
整体而言,V2区的神经元所敏感的一般特征与V1区大致相同,如朝向、运动、视差和颜色等,但也有差异。几乎所有V2区神经元接受双眼输入。它们的感受野常比V1区的神经元大,并能以更精细的方式作出反应。例如,有的神经元对某些主观轮廓[79]有反应。虽然在V1区也发现了有些神经元对线段端点型主观轮廓(图15)有发放[3],但对其他类型(如直线连续型,见图2)敏感的神经元确实只出现在V2区[4],而在V1区没有发现。不只一位哲学家在得知存在这种对主观轮廓反应的神经元后感到吃惊,但我们并不以为奇。当我们清清楚楚地看到了一些视觉特征(而不仅仅是推断出它)时,在我们脑中确有某些区域的神经元对它们发放。这或许是一个好的普适规律。果真如此的话,它将是一个很重要的规律。
皮质V2区也是分块的。使用可以显示V1区斑点的酶,可以看到相当粗糙的条纹,走向大致垂直于V1/V2的边界。每类条纹对一般视觉特征的敏感并不相同。看来有若干条不同的信息流通过V2区。有一条处理的主要是颜色信息,另一条则主要是视差,等等。科学家对所有这些细节很感兴趣,因为这些问题正与不同亚区的各种神经元精确的分类方式以及它们如何使我们能够看见物体密切相关。即便在单个区域内,神经元的行为也被分成部分分离的类别,这对我们来说是重要的,尽管对于这种分离的清晰程度尚有争议。
至此我只谈论了V1区具有向V2区投射的神经元。V2区是否有神经元反向投射[80]到V1区呢?答案是,具有反向投射的V2区神经元与有前向投射的V1区神经元几乎一样多,但有一个重要的差异。前向投射多集中在V2区第4层,而到V1区的反馈完全避开了第4层。
以前认为只存在3个视觉皮质区域,即17区、18区和19区。我已经详细地描述了其中的2个区域,即V1区(等价于17区)和V2区(早先定义的18区的一部分)。此外到底还有多少区域呢?令人吃惊的是,现在至少已经识别出了20个不同的视觉区,另外还有7个区域部分与视觉有关。这个事实本身清楚地体现了视觉处理的复杂性。各个区的神经元具有不同的输入输出集合,因此它们的行为极为不同。图47是戴维·范·埃森(David Van Essen,现在在西雅图的华盛顿大学)构建的猕猴展平的皮质的模型。由于皮质是弯曲和折叠的,图示必然有所扭曲[81]。为了减少扭曲,在皮质薄板上有选择地进行了切割,得到了一个几乎隔离的V1区,插入在图的左侧。将该图与图48相比较,那里略去了表示皮质折叠的标志,并在相应位置上画了许多皮质区域。视觉区域以及那些具有部分视觉的区域都用阴影表示。对猕猴而言,它们总计占有总皮质略多于一半的区域(要记住猴子是视觉功能非常强的动物)。
这张图远非结论。例如,右上方的46区仍可被细分。许多区域具有奇怪的名字,但它们通常是其全称的缩写,如MT代表中颞叶(middle temporal),VIP代表背侧内顶叶(ventral intraparietal),等等。其他有些区域具有数字编号(在此省略),它们通常是波罗德曼所定义的,其中一些已经被细分(如7a和7b)。
图47 这张图[来自费里曼(Felleman)和范·埃森[5]]显示了折叠的猕猴皮质如何展开(通常使用脑的切片,通过数学手段得到)。这样更容易掌握它的布局。图中给出了两张小比例的展开图。左上方是猕猴脑右手侧视图(从外部观看)。左下方是脑被切成两半后从里面看到的。曲线标出了各种折叠,旁边是它们名字的缩写[例如,PS代表主沟(principal sulcus)]。主图显示了皮质薄板展开的结果。深的虚线表示每个沟的深度。阴影则表示那些折叠在内部而并不在脑的整个表面上的区域。为了减少展开这些薄板所引起的扭曲,在薄板上进行了某些切割。一处切割是环绕着V1区(附加在左侧),此外还有两处刀割
图48 猕猴脑的一侧(此处是右手侧)的许多不同皮质区域的主要示意图。左侧的两张小图(按小比例尺)显示了脑被切成两半时从外面(上图)及里面(下图)所看到的。皮质薄板已经被展开(如图47所述)。许多与视觉有联系的区域用阴影标志。图中显示了它们各自的名称,大多数情况下按首字母简写。它们的相互作用见图52。主要的信息流大致从V1区(左侧)到图的右侧区域,特别是右下的那些区域
我将简要描述其中的两个区域:MT区和V4区,因此对已知的关于全部视觉区的所有情况不作叙述。这主要是由于对许多视觉区的了解还相当缺乏。皮质MT区比较小,有时也称为V5区。它具有视野半区与视网膜区域相当好的对应,但其神经元的感受野一般比V1或V2区大。MT区神经元对刺激的运动(包括运动的方向)特别敏感。每个神经元对一定速度范围内的刺激产生发放。有些对高速运动发放最佳,其余的则对应于低速运动。
最初人们没有想到这些神经元的反应通常依赖于目标与背景的相对运动。加利福尼亚理工学院的约翰·奥尔曼(John Allman)意识到了这一点。因为与许多神经科学家不同,他对猴子以及它们的野生生活方式非常感兴趣。至今他仍在家中养猴子。他曾数次出国在猴子的自然栖息地对它们进行研究。因此他具有关于猴子的典型视觉环境的第一手资料。他试图在实验室中以一种大大简化的形式再现这种环境。他和同事们使用电视屏幕上由随机点组成的棒作为刺激[6]。通常一个神经元可能对其感受野内沿垂直于它的长度方向向上(或向下)运动的斑点组成的棒有很好的反应。然而他发现,如果由斑点组成背景也沿相同方向运动,神经元的发放会下降。如果背景沿相反方向运动,那么该神经元对运动棒的发放将会提高。这样,神经元主要检测的是局部特征与邻近背景的相似特征间的相对运动。这正是前面提及的非经典感受野的最简单形式。虽然事情并不总是这样明了,[82]看来这样的神经元组成的集合能够学会不仅对一个物体的一个特征反应,也能对物体的某些环境特征反应。
MT区的某些神经元对更复杂的运动方式反应。它们的行为与所谓的小孔问题有关。考虑图49:想象在一个屏上有一个小圆孔,通过它来观察一根没有特征的直线。它是一根很长的直线的一部分,这根长的直线的大部分被屏掩盖。如果这根直线沿任何方向运动,你通过小孔所能看到的一切只是一小段直线沿垂直于它长度的方向运动。图49的注解中有更加详细的解释。
图49 小孔问题。考虑一个正方形的四条边一起作刚性运动。它们或者向右(如图49a所示),或者向下(如图49b所示),每种情况用一个大箭头表示。每个小圆圈表示一个有限的孔,神经元通过它“观看视野”。视觉系统低层次上的单个神经元通过小孔无法看出正方形向哪个方向运动。它只能感受到其视野内部的一小段直线的垂直方向的运动,如图中在每个圆圈内用小箭头表示。通过使用多个神经元的信息,即比较图a和图b中的那些小箭头的方向,就可以找出正方形的运动方式
V1区中对运动方向敏感的神经元的行为便是如此。它所能感受的只是垂直于该直线方向的运动分量,而不是整个物体的真实运动。然而,MT区的某些神经元确实能对实际运动反应,特别是当信号是由若干个线段集合组成的。实验表明MT区的神经元可简单地分为两类,一类能解决小孔问题,另一类则不能,就像V1区的神经元那样。如果真是这样的话,那太好了。事实则要复杂得多。神经元表现出了这两类之间整个范围内的各种行为[8,9]。尽管如此,这给出了一个例子表明视觉系统较高层次神经元的反应如何变得更加精细。
如果输入信息被误解,脑就会作出错误的解释。一个大家所熟悉的例子是理发店的柱状旋转招牌形成的错觉——这个柱子实际上是绕着它的长轴旋转,但条纹看起来像是沿柱子方向向上运动[83]。红、白条纹边界上的任意点的实际运动方向垂直于柱子的长度方向。但脑看到的是条纹沿柱子方向运动。图50解释了这个现象。
图50 这里给出了理发店的旋转招牌错觉的实质图解。图中仅显示了招牌上的一根线。一个点的真实运动用标志T的箭头表示。招牌是沿着它本身的轴旋转的。通过一个很小的圆孔在该点看到的将是箭头A表示的运动。脑对所有的A型运动信息进行了错误的综合并感觉出沿箭头P所示方向的运动。理论家的一个任务就是要对脑究竟怎么会犯这个错误作出恰当的解释
皮质MT区的神经元几乎不对颜色敏感。不过其中一些对照度相同而仅由颜色差异形成的边界的运动有反应。这与皮质V4区的神经元形成了鲜明对照。V4区的神经元对波长的反应很复杂,但对运动几乎不敏感。[84]它们的感受野通常很大,但在某些情况下神经元能对感受野内任意位置上具有恰当视觉特征的小物体作出反应。这个映射具有复杂的视网膜区域对应,但不像V1区那样简单。
许多颜色反应是颜色视觉理论引导我们所期待的“双拮抗反应”。更重要的是,伦敦大学学院神经生理学家赛米尔·泽奇(Semir Zeki)表明[10],它们的行为具有兰德效应(见第4章)。它们的反应不仅仅取决于感受野中央和外周的光的波长,还受邻近表面的光的波长的强烈影响。大致说来,它们不是只对波长反应,而是对感受颜色反应。猕猴V4区的一个神经元对由不同颜色的长方形组成的图案中的一个红色色块反应。而泽奇自己也认为它是红色的。即使有照明光波长的干扰,从该色块到达视网膜的光的实际波长已有很大差别,该神经元仍能有反应。这显然是环境影响神经元行为的另一个例子。对于心理学家来说,认识到在某种程度上对环境的反应专门由单个神经元来加以表达,这一点很重要:他们应当在他们的理论模型中考虑这一点。
图48给出了目前已知的视觉区域的示意图,但并未涉及它们之间的连接方式。一般而言,主要的信息流从左侧的皮质V1区开始,流向右侧远端靠近脑前部与皮质非视觉区交界处的那些区域。通常用一个粗略的映射大致代表这些投射,它意味着在接受区彼此邻近的轴突终端一般来自与发送区相距不太远的神经元。这也会出现在没有视网膜区域对应的区域,比如在等级中较高层的区域。
范·埃森和同事们试图采纳由神经解剖学家凯瑟琳·洛克兰(Kathleen Rockland)和迪帕克·潘德亚(Deepak Pandya)最早提出的观点,把所有视觉区按照大致的等级作一排列。洛克兰和潘德亚特别指出,如果从A区到B区的投射集中在第4层,那么,从B到A的反馈一般避开第4层而通常与第1层有强连接。我们已经看到在V1和V2之间的连接出现过这种情况。如图51所示,可以相当简单地表示这种观点。从眼到脑的投射(主要集中于第4层)称为“向前投射”,反方向的则称为“反向投射”。
这个关于第4层的连接的规则总是成立的吗?事实比较复杂。不过已经证明,使用图51的约定,有可能将已知的大部分连接用单个等级图表示。最新的一种形式见图52(别忘了图中每根连线代表沿两个方向的大量轴突)。你不必因这张连接示意图的复杂细节望而生畏,只需注意到它体现了视觉处理的复杂性(如果你看不出其他东西的话)。极少有人会想到他们的脑是以这种方式构建的。
关于第4层约定的协议有一些例外是值得重视的,例如在相同层次的皮质区之间有许多互连接。简单的第4层规则并不包括它们,因而在构建该图时使用了更为精细的规则。现在还不清楚真实的布局是否只是拟等级排列的,或者对这些更复杂规则的例外是否主要是由实验误差引起的。不管怎样,毫无疑问各个区域可以粗略地按一个近似等级的方式排列。如果存在例外的话,它是否具有特殊的意义呢?只有进一步的工作才能回答这个问题。
请注意,尽管大多数与其他区域的连接或者到同一层,或者到高一层或低一层,但有一个已验证的例外——这种连接可能跳过一些层。一个例子是从V1区到MT区的直接连接,到达高4层的区域。所有连接是双向的,这个规则几乎总是对的,但也有例外。[85]随便说一句,图52并不打算显示连接强度(例如,每根直线代表多少轴突),这主要是因为这方面信息太少。图52中某些线代表着上百万个轴突,其他的可能只有十万个,或者更少。
图51 本图说明了图52使用的一些约定。此处仅用了标着A和B的两个皮质区域。它们之间有许多双向连接(如图51a所示)。也可以用两条线表示,一条从A到B,另一条则方向相反(如图51b所示)。简化起见,我们可以略去第二根线而仅用一根线,如图51c所示。它表示了主要信息流的方向,也暗示了另一个方向的流动。图51c中的箭头可以略去,使问题更加简化,如图51d所示。这意味着主要的信息流(所谓的正向)在图中总是向上的,因此B必须画在A上面,而不是相反
图52 本图显示了不同皮质区域间的众多连接。它使用了图51解释的约定,即每条线代表沿两个方向的许多轴突。图的底端标志的RGC是眼睛的视网膜神经节细胞。侧膝体是丘脑的一部分。它投射到V1(显示分为四部分),而V2(也是四部分)正好在V1上方。对不同区域的命名相当随意,读者不必留意它们。在顶端,HC代表海马,ER代表内嗅皮质。这个布局是近似等级的,正如文中所解释的那样。图48显示的许多其他非视觉皮质区并未在此图画出[铃木(Suzuki)和阿马拉(Amaral)按费里曼和范·埃森修改得到]
皮质中邻近区域总是互相连接在一起吗?通常如此,但也有少量例外。
等级排列也得到了不同来源的证据的支持。它是不同区域神经元活动的一般规律。当我们沿着该等级上升时,其行为大致遵循两条规律:感受野的大小不断增加,因而在最高层区域的感受野通常覆盖整个半侧视野,甚至还部分地或全部包括了另外一半视野(这主要经过胼胝体连接来实现的)。此外,引起神经元反应的特征变得越发复杂。V2区的一些神经元对某些主观轮廓有反应,而MT区的一些神经元对略微简单的运动图案有反应(我们已经看到,它们能够解决或部分解决小孔问题)。MST区的神经元对整个视野内的运动有反应,有的发放对应于物体正在逐渐靠近并变大,有的则对应于物体在后移。V4区的神经元对颜色感受有反应,而不仅仅是光的波长。
在较高的皮质中,我们发现了对脸的正面有反应的神经元。它对脸相对于凝视中心的位置并不敏感,甚至当脸略微倾斜也不受影响。这样的神经元对由眼、鼻、嘴等随意组合成的图像几乎不反应。另外一些神经元对脸的侧面最敏感。另外,7a区的神经元主要对一个物体与头或身体的相对位置敏感,而不那么关心该物体是什么。后者是下颞叶(那些缩写中间是IT的区域,如CITd)的主要任务,这些已在识别脸的描述中提到过。几乎可以肯定还可以发现许多更复杂的反应。
由此可知,一般每个区域从更低层区域接受若干输入(这些低层区域提取的特征要比V1区所反应的相当简单的特征更复杂)。然后它对这些输入的组合进行运作,以便产生更为复杂的特征,并把它们传到等级中的更高层次上。同时,信息分成若干相互作用的流顺着等级向上流动。我们已经看到了一些例子,如来自视网膜的部分分离的M信号和P信号,从V1到V2来的三支信息流,以及更高层次上的“是什么”和“在哪里”。但必须强调这些流之间常常有某些信息交换。
反向通道又是怎样的呢?这也迫切需要更详细的研究。人们可以想象它们的各种功能。它们也许能帮助形成前面提到的非传统感受野,从而允许高层次的行为影响较低的层次。它们也可能属于这样一个高层次系统:当较低层区域的操作已在略为全局的层次上获得了成功时,则向它们发回信号,表示应当对其突触进行修正,以便将来能更容易地探测出这个特征。它们还可能与注意机制和进行视觉想象的机制紧密相关。它们或许对神经振荡同步(见第17章)有作用。这些仅仅具有一定的可能性,但其中哪些是事实尚有待进一步考察。
此外,整个系统看起来并不像一个固定不变的反应装置。它更像是由许多以相当高的速度传导的瞬间动态相互作用控制的。最后,我们不要忘记我所描述过的一切是应用于猕猴而不是我们人类的。当然我们有理由假设我们自己的视觉系统与猕猴相似,但这仅仅是个假设。从我们目前知道的而言,差异可能不仅在细节上,而且可能在其复杂性上。
如果新皮质有某些秘密的话,这就是它有能力在处理等级上进化出新的层次,在那些等级较高的层次更是如此。这些额外层次的处理可能是区别人或高级动物与刺猬这样的低级动物的特征。我猜测新皮质使用了一些特殊的学习算法,使得尽管每个皮质区域包含在复杂的处理等级上,但它们各自都能从经验中提取新的类型。这种能力可能使大脑皮质区别于其他形式的神经结构,如小脑和纹状体(它们并没有这种复杂形式的等级)。
这些观点都只是推测,但有一件事情相当清楚:虽然有许多不同的视觉区域,每一个区域以不同的复杂的方式分析视觉输入,但是,迄今为止无法定位出单个区域,其神经活动精确对应于我们看到的眼前的世界的生动图像。看着图52,人们也许会想,这一切或许发生在某些更为高级复杂的结构(如海马)以及与之相关的皮质结构(标记为HC和ER)当中。它们位于等级的顶端。但是我们在第12章将会看到,一个人可能会丧失脑的两侧的所有这些区域,但仍报告说他能很好地看到外界事物,而且他的行为表现似乎也是如此。简而言之,虽然我们知道脑如何分解视觉图像,但我们仍不知道它是如何将它们整合在一起的。它又是如何构建出视野中所有物体及其行为的组织良好的详细的视觉觉知呢?
第12章 脑损伤
巴比伦所有的废墟看上去远不如人类的思想的毁灭那样可怕。
——斯克罗普·戴维斯(Scrope Davies)
近些年来,神经病学家对脑部受到损伤的病人进行了研究。可能造成这些损伤的方式有多种,如中风、头部受到打击、枪伤、感染等。许多损伤改变了病人的视觉意识的某些方面,但病人的其他一些机能(如语言或运动行为)则基本未受影响。这些证据表明皮质具有显著的功能分化,而这种分化的方式通常是相当令人吃惊的。
在许多情况下,脑受到的损伤并不是单一的、专门化的。一粒高速射入的子弹对各皮质区域一视同仁(活的皮质组织是相当柔软的胶体,用移液管吸吮能很容易地移去其中一小部分)。通常情况下,损伤可能包括几个皮质区域。对头部两侧对应区域同时造成伤害的后果最为严重,不过这种情况非常罕见。
许多神经病学家对病人做简短的检查——仅够作出一个关于损伤的可能部位的合理猜测。后来,甚至连这种形式的检查工作也大部分被脑扫描取代了。近来,描述一个单独的、隔离的脑损伤被认为是不科学的,因此习惯上同时报告许多相似的病症。遗憾的是,这导致了将一些实际不同的损伤形式混为一谈。
当前的趋势在某种程度上纠正了这种做法。有少数病例中病人的感觉或行为的某个特定方面发生了改变,而其他大部分方面未受伤害。现在往往特别注意这些病例。这些病人受到的伤害很可能比较有限,因而更加专门化。人们还努力通过脑扫描来定位这些损伤。[86]如果病人合作的话,他将在清醒状态下进行完整的一组心理学及其他一些测试,用来发现哪些是他所能或不能看到或做到的。在某些情况下,这种测试会进行好几年。由于关于视觉处理的理论变得越来越深奥,检验这些观点的实验也变得更加广泛和精细。现在,它们可以和脑扫描技术相结合。该技术可以记录脑在完成这些不同任务时的行为。这些结果可以在具有相似损伤或相似病症(或者二者皆有的)病人之间进行比较和对照。
对V1区(条纹皮质)的损伤是一个明显的例子,现就以此作为开始进行讨论。如果脑一侧的V1区被完全破坏,病人的表现是看不见对侧的半个视野。在本章的结尾我将详细讨论一个被称作“盲视”的奇怪现象。在这里让我们先看一下对视觉等级最高层部分损伤的结果,并将损伤局限在头的右手侧。这是人们所知的单侧忽略。损伤区域大致对应于猕猴的7a区(图48)。这通常由大脑动脉血管疾病(如中风)引起的。
在早期阶段,症状可能非常严重——病人的眼睛和头会转向右侧。在最严重的病例中,损伤的范围可能很大,以致病人失去了左侧的控制和感觉。他会否认他自己的左腿是属于他的。有一个人对于“别人的腿”出现在他的床上感到极度愤怒,于是他把它扔到了床外。结果他惊讶地发现他自己躺在了地板上。
大多数情况并没有这么严重。通常几天以后严重的病症就会减轻或消失。例如,这时病人可能无法拿起盘中左侧的食物。如果让他画一个钟,或者一张脸,他通常只画其中的右侧。在几周以后,随着脑得到部分恢复,他对半边的忽略程度进一步下降,但他对左侧的注意仍显得比右侧弱。如果让他平分一条直线,他会将中点画到右边。不过他对左侧并不完全是盲的。如果那里有一个孤立的物体,他会看见它。但如果在右侧也有某个明显的物体,他就无法注意到左侧的物体。此外,他经常否认有什么东西是斜的,而且不承认看到了视野左侧的没有物体的空间。
单侧忽略并不限于视觉感知。它也会出现在视觉想象中。意大利的埃德瓦尔多·比西阿奇(Edoardo Bisiach)和同事们报告了一个典型的例子[1]。他们要求病人想象自己站在米兰市的一个主要广场的一端,面对教堂,叙述他们所回忆起的景象。他们描述的主要是从该视点看到的右侧的建筑的细节。随后病人被要求想象站在广场的对侧,教堂则在他们身后,再重复上述过程。此刻他们讲述的主要是先前他们叙述时忽略的那一侧的细节,此时仍是视野的右侧。
另一种显著的脑损伤形式造成了颜色视觉部分或全部丧失。患者看到的所有物体仅具有不同浓淡的灰色。这是众所周知的“全色盲”——早在1688年,被称为“化学之父”的罗伯特·波义耳(Robert Boyle)就报告过。1987年,奥立佛·萨克斯(Oliver Sacks)和罗伯特·瓦赛曼(Robert Wasserman)在《纽约书评》中讲述了这样一个病例[2],病人是纽约的抽象派画家乔纳森(Jonathan I.)。他对颜色有特殊的兴趣,以致他听音乐时会产生了“丰富的内部颜色的一阵激发”。这被称作联觉。在一次事故后他的这种联觉消失了,因而音乐对他的感染力也大大消失了。
损伤是一次相当轻微的车祸造成的。乔纳森·艾可能受到了撞击,但除此以外他好像并未受伤。他能够向警察清楚地叙述事故的原因。但后来他感到头疼得很厉害,并经常忘记这次事故。昏睡之后,次日清晨他发现自己不能阅读了。不过这种障碍在五天后就消失了。虽然他对颜色的主观感觉并未改变,但他很难区别颜色了。
这种情况在第二天又进一步发展。尽管他知道那是一个阳光灿烂的早晨,在他驱车前往工作室时,整个世界看上去像是在雾中。只有当他到达那里并看见自己的那些色彩绚丽的绘画现在变得“完全是灰色而缺乏色彩”时,他才被自己有这样缺陷惊呆了。
这种缺陷是残酷的。萨克斯和瓦赛曼形象而具体地解释了这种心理效应。虽然可以判断他的问题并不比看老式的黑白电影更糟,但是艾先生并不这样认为。大多数食物让他感到厌恶——例如,土豆看上去是黑的。在他看来他妻子的皮肤就像白鼠的颜色,他无法忍受同她做爱。即使他闭上眼睛也无济于事。他那高度发达的视觉想象力也变得色盲了。连他的梦也失去了往日的色彩。
艾先生所感受的灰度尺度被压缩了,特别在强光下更严重。因此他不能辨别细微的色调等级。他对所有波长的光的反应是一样的,只在光谱的短波区(“蓝色”)有一个额外的敏感峰。这可以解释他为什么看不见蓝天上的白云。他在识别面孔时也遇到了困难,除非他们离得很近他才能认出来。但由于突出来的物体具有显著的对比,十分清晰,几乎像剪影一样,因此他的视觉显得更敏锐了。他对运动异常敏感。他报告说:“我可以看到一条街区外的一条虫在蠕动。”在夜间他声称自己能看得非常清楚,能读出四条街区外的车牌。因此,用他自己的话说,他成了一个“夜行者”。在夜间徘徊时,他的视觉并不比别人差。
艾先生失去的颜色意识对视觉的其他方面影响极小,这种丧失只改变了他对灰度浓淡的敏感性并使他对运动更敏锐。这种损伤显然是双侧的,因为两侧视野都受到了影响(有些情况下全色盲仅对一侧有影响)。这种损伤还是一种延迟过程,因为对颜色意识的完全丧失是在两天内发展起来的。如果不是他对短波长的光(蓝光)有增强反应的话,这很像是P系统有缺陷(P系统对形状和颜色更敏感),而大部分视觉任务由未受损伤的M系统(对运动更敏感,见第10章)来完成。
艾先生的脑也进行了MRI扫描和CAT扫描(尽管后者尺度较粗糙),但未发现任何损伤,因而尚不清楚损伤的部位是否在皮质上。不管怎样,上述情况表明全色盲通常包括了人视觉系统中相当高层次皮质的损伤(枕叶的腹侧正中部分)。
另一种损伤造成的缺陷非常惊人,这就是面容失认症(pmsopagnosia)。19世纪的一位英国首相就遇到了这种困难。他甚至认不出自己的长子的脸。面容失认症有多种不同的形式,这可能是因为不同病人的脑损伤的实质各有不同。问题通常不是他们认不出那是一张脸,而是识别不出那是谁的脸,不知那是他的妻子的、孩子的还是一个老朋友的脸。病人常常认不出照片上他自己的脸。他甚至不能认出镜子中的自己,尽管他知道那肯定是他的脸,因为当他眨眼时镜中的像也在眨眼。他常常能从妻子的声音或走路的样子中认出她来,但只看她的脸时却不能。
除非损伤很严重,否则他能描述一张脸的特性(如眼睛、鼻子、嘴,等等)以及它们的相对位置。此外,他的目视扫描机制也正常。在一些情况下,让他辨认某些在不同光照下拍摄的不熟悉的照片时,他能区分这些不同的面孔。但即便他和他们早就很熟悉,他也不能说出哪张照片是谁的脸。
双侧全色盲患者常常同时患有面容失认症。但应当记住,没理由认为损伤(通常由中风引起)只影响单个皮质区。事实上,面容失认症可以和其他几种缺陷一同出现。
神经病学家安东尼奥·达马西欧(Antonio Damasio)对面容失认症的研究作出了不少重要的贡献[3]。情况并不局限于面孔识别困难。在一个病例中,一个农夫再也不能识别他的牛,虽然原先他能叫出其中每一头牛的名字。但达马西欧的研究更深入一步。他和同事们表明,许多病例中病人不能在一组相类似的物体中识别出单个成员,例如,病人可能很容易认出一辆小汽车,但无法说出它是福特牌轿车还是劳斯莱斯轿车;不过他能识别救护车或消防车,可能是因为它们与典型的汽车有显著差异。他能认出一件衬衫,但不知道那是不是礼服衬衫。
达马西欧和同事们还发现,尽管有些病人不能分辨面孔,他们能识别面部表情的含义并能估计年龄和性别[4]。其他面容失认症患者则没有这种能力。这些结果表明面孔不同方面特征的识别是在脑的不同部位完成的。
目前对如何准确描述面容失认症及其内在机制尚有争议。达马西欧强调这不是一种普通的记忆疾病,因为这种记忆可以通过其他感觉通道(如听觉)激发出来。每种情况下的准确机理尚有待发现。
心理学家约瑟夫·齐尔(Joseph Zihl)和同事们报告了一个令人吃惊的病例[5]:病人对大多数形式的运动没有意识。病人所受的损伤是双侧的,位于皮质的多个区域。第一次接受检查时,病人处于非常惊恐的状态。这并不令人奇怪,因为她看见在一个地方的人和物体突然出现在另一个地方,而她并未感觉到他们的运动。当她想过马路时就感到特别沮丧,因为原先在很远处的汽车会突然离她很近。当她试图把茶倒入杯子时,她只看到了一道凝固的液体弧的反光。她注意不到杯子中茶的上升,因而茶经常溢出来。她所体验的世界与我们某些人在夜总会中看到的频闪灯光下的舞池的地板很相似。
在极慢的时间尺度上我们也遇到过这个问题。钟的时针看上去并不动,但是过一段时间后我们再看时,它已在另一个位置上。我们对这样一种观念很熟悉:一个物体可能是动的,即便我们并不能直接感受到它的运动。但在日常生活的一般时间尺度上我们通常没有这种困难。显然我们必定有一个特殊的系统自行来检测运动,而不必由时间分隔的两次不同的观察中从逻辑上推断它。
仔细的测试表明病人可以检测某些形式的运动,可能是一种严重受损后残存的短时机制作用的结果,而形成关于运动的更为全局的联系机制则已被破坏。她的视觉还有其他一些缺陷,大多数都与运动有关。但她能看见颜色并能识别面孔,也未表现出有本章前面描述的各种类型的忽视的征兆。
还有许多其他种类的脑损伤引起的视觉缺陷。报道中有两个病例,患者失去了深度感知,看到世间万物和人都完全是平的,因而“由于人的身体仅由轮廓线表示,最胖的人看上去也只是运动的纸板人形而已”。其他病人仅从通常的正对方向看物体时才能识别出它来,而从非常规角度观看,如从正上方看一个平底锅,无法识别[6]。
英国的两位心理学家格林·汉弗莱斯(Glyn Humphreys)和简·里多克(Jane Riddoch)用了五年时间研究一个病人。他有多种视觉缺陷,如,他失去了颜色视觉,也不能识别面孔[7]。他们表明他的主要的视觉问题在于,当他看见一个物体的局部特征时,他不能把它们组合在一起。因此,尽管他能很好地复制一幅地图,能清晰地发音,并流利地用语言描述他中风前所知道的事情,却不能认出物体是什么。这些病例很重要,它表明一个人失去了部分高层视觉后仍会有低层次上的视觉意识。它支持这样一种主张:没有一个单独的皮质区标记了我们能看到的所有事物。
有一种视觉缺陷是那么令人惊异,以致知道此事的人都怀疑它是否可能存在。这就是安通综合征(Anton’s syndrome),或称“失明否认症”。病人显然看不见东西,但并不知道这个事实[8]。当让他描述医生的领带时,病人会说那是一条有红色斑点的蓝色领带,而事实上医生根本没戴领带。进一步追问病人,他会主动告诉你房间的灯显得有些暗。
最初,这种情况显得不可能是真的。医学诊断其是歇斯底里症,但这并没有多大帮助。不过考虑如下的可能性。我经常发现,当我与从未见过面的人通过电话交谈时,我会在脑海里自然而然地形成他(或她)的外貌的粗略影像。我和一个男子进行过多次电话长谈,我想象他有五十来岁,相当瘦,戴着度数很高的眼镜。当他终于来看我时我发现他只有三十多岁,明显发胖。我对他的外貌感到很惊讶,这才使我意识到我原来把他想象成别的样子了。
我猜想那些失明否认症患者产生了这种影像。或许是由于脑损伤导致这些影像不必与来自眼睛的正常视觉输入竞争。此外,在正常人脑中可能有某些重要机能可以提醒它们某些影像是错的,而这些患者由于其他部位的损伤而丧失了这些机能。这种解释是否正确尚有待研究,但它至少使得这种情况显得并不完全难以理解。
在不同的皮质区域对损伤的反应中是否有某些趋势呢?达马西欧指出,在人的颞区(头的两侧)靠近头后部的脑损伤与更靠近前部损伤的特点不同[9]。靠近颞叶后部(或是其后的枕叶,见图27)的损伤与概念性东西有关。如果损伤靠近前部,对概念的影响逐渐变小,直到海马附近,主要丧失的是与特定事件有关的记忆。这样,概念与事件记忆间的区别[87]非常显著。可能在处理一般物体和事件的区域与仅仅处理其中一种的区域间有一种逐渐的转变。
达马西欧的建议与我对单个皮质区的功能的描述是一致的。对于每个皮质区而言,其他区域(通常是等级更低的)有输入到达它的中间各层;该皮质区把这些区域提取的特征组合构造成新的特征。
例如,当你沿视觉等级向上走时,你会从皮质V1区出发。V1区处理相当简单的视觉特征(如有朝向的直线)。这些特征无时不出现。然后你到达处理诸如脸这类不那么频繁出现的复杂目标的区域,直到与海马相联系的皮质(图52的顶端),这里检测的组合信号(包括视觉及其他信号)大多对应于唯一的事件。
至此,我们之前的讨论足以撑起两个普适要点:这些受损坏的视觉系统以一种奇怪而神秘的方式工作,它的行为与科学家所发现的关于猕猴和我们自己的视觉系统的连接方式和行为并不矛盾。
然而我们的任务是理解视觉意识。它是构建视觉影像所必需的许多复杂处理的结果。是否有某些形式的脑损伤对意识本身有更直接的影响呢?现已发现确实有一些。
其中一种现象通常被称为“裂脑”。其最彻底的形式是胼胝体(连接大脑两侧皮质区的一大束神经纤维)以及称作“前连合”的一小束纤维被完全切除。在对癫痫病人的一般治疗失败后,为减轻其发作,会进行这种外科手术。其他形式的脑损伤也会导致病人失去胼胝体,但此时通常在脑其他部位也有额外损伤,因而无法像这样直截了当地解释结果。也有些人生来就没有胼胝体,但脑在发育过程中常能在某种程度上补偿早期的缺陷,因而结果并不如手术情况那样明显。
这个主题的历史十分奇特,因而值得作一简要叙述[10]。一位著名的美国神经外科医生在1936年报告说,胼胝体被切除后并无症状。20世纪50年代中期,另一位专家在回顾实验结果时写道:“胼胝体几乎不能与心理学功能联系到一起。”卡尔·拉什利(Karl Lashley,一位聪明而有影响的美国神经科学家。奇怪的是,他几乎总是错的)则走得更远。他曾开玩笑说,胼胝体的唯一功能是防止两个半球坍塌到一起(胼胝体显得有些硬,因此得名。胼胝有硬皮的意思)。我们现在知道这些观点是完全错误的。造成这种错误部分是由于胼胝体并不总被完全切除,但主要是因为检测手段不敏感或不恰当。
罗杰·斯佩里(Roger Sperry)和同事们在20世纪五六十年代的工作使得情况明显改善。由于此项工作,斯佩里获得了1981年的诺贝尔奖。通过仔细设计的实验,他们清楚地表明,当一只猫或猴子的脑被分成两半时,可以教它的一侧半球学会一种反应,另一侧半球则学会另一种、甚至是对相同情况的完全矛盾的反应[11]。正如斯佩里所说:“这就好像动物有两个独立的脑。”[88]
为什么会这样呢?对大多数习惯于用右手的人而言,只有左半球能说话或通过写字进行交流。对于与语言相关的大多数能力也是如此,尽管右半球能在很有限的程度上理解口语,或许还能处理说话的音韵。当胼胝体被切除后,左半球只能看到视野右边的一半,而右半球则只能看到左边的一半。每只手主要是由对侧半球控制的,但同侧半球能控制手或手臂做某些比较简单的运动。除了特殊情况,每个半球都能听到说话。
刚进行完手术的病人可能经历各种瞬时效应。例如,他的两只手所做的目的正好相反,一只手扣上衬衣的扣子,另一只手则随后将其解开。这种行为通常会减弱,病人显得比较正常。但更细致的检查揭示了更多的东西。
在实验中,病人被要求把凝视点固定在一个屏幕上。屏幕上会有一个图像在他的凝视点的左侧或右侧闪烁。这样可以保证视觉信息仅到达两个半球中的一个。现在有更加精心设计的方法可以做到这一点。
当一个闪烁的图片到达能使用语言的左半球,他就能像正常人一样描述它。这种功能并不仅限于语言表达。病人也能按要求不说话而用右手指向目标(右手主要由左半球控制)。他还能不看一个物体而用右手识别它。
然而,如果闪烁图片到达了不能使用语言的右半球,结果则大不一样。左手主要由这个不能使用语言的半球控制,它能指向物体,也能通过触摸识别没看见的物体,这和右手所能做的是一样的。但当病人被问及为什么他的左手有这种特殊方式的行为时,他会依照能用语言表达的左半球所看见的场景虚构一个解释,但这并不是右半球所看见的。实验者知道真正闪烁进入那个不能使用语言的半球以产生行为的物体是什么,因而可以看出这些解释是错误的。这是一个解释“虚构症”[89]的很好的例子。
简单地说,看来脑的一半几乎完全忽略了另一半所看见的。只有极少的信息有时会泄露到对侧。在给一位妇女的右半球闪现一系列照片时,迈克尔·伽扎尼加(Michael Gazzaniga)加入了一张裸体照片。这使得病人有些脸红。她的左半球并不能察觉那些照片的内容,但知道它使她脸红,因此她说:“医生,你是不是给我显示了一些很有趣的照片?”过了一会儿,病人学会了向另一侧半球提供一些交叉线索:例如,用左手以某种方式发信号从而使能用语言的半球能够识别该信号。对于正常人而言,右半球的详细的视觉意识能够很容易地传到左半球,因而能用语言描述它。胼胝体被完全切除后,这些信息无法传到能使用语言的半球。该信息无法通过脑中的各种低层次的连接传到对侧。
请注意,除了提到语言通常在左脑外,我并未涉及脑的两半有什么差异。我不必关心右侧脑是否有某些特殊能力,例如它十分擅长识别面孔。我也不必考虑某些人的一种极端的观点。他们认为左侧具有“人”的特性,而右侧仅仅是自动机。显然右侧缺乏发展完善的语言系统,因而从某种意义上说不那么具有“人类”的特点——因为语言是唯一标志人类的能力。事实上我们需要回答右侧是否高于自动机这个问题,但我觉得应该稍作等待,直到我们更好地理解了意识的神经机制,否则我们不能很好地作出回答,更不必说解答自由意志问题了。折中的职业观点强调,除了语言外,两侧的感知和运动能力虽不完全相同,但一般特征是一致的。
大多数切开脑的手术并不切断两侧上丘的顶盖间连合(在第10章叙述过)。脑无法利用这个未触及的通路从一侧向另一侧传递视觉意识信息。因此,尽管上丘参与了视觉注意过程,它似乎不像是意识的位置。
另一个引人注目的现象被称为“盲视”。牛津的心理学家拉里·威斯克兰兹(Larry Weiskrantz)在这方面作了广泛的研究[12]。盲视病人能指出并区分某些非常简单的物体,但同时又否认能看见它们[90]。
盲视通常是由于初级视觉V1区(纹状皮质)受到大面积损伤而引起的,在许多病例中损伤仅出现在头部的一侧。在实验中,一行小灯呈水平排列,使得病人在凝视这些灯光的一端时,它们全部落在视野的盲区。在一声警告的蜂鸣声之后,有一盏灯会短时间点亮,而此时病人不能转动眼睛或头。要求病人指出哪盏灯被点亮了,此时,病人通常对此表示异议,说既然他看不见那里的东西,没必要做这个实验。经过短暂的劝说之后,他会打算试一下并作“猜测”。实验会重复多次,有时这盏灯被点亮,有时则是另一盏被点亮。结果令病人大感惊讶,尽管他否认看见了任何东西,却能相当准确地指出亮的那盏灯,误差一般不超过5°~10°。[91]
有些病人还能区分简单的形状,比如X和O,只要它们足够大。有些人还能鉴别直线的朝向和闪烁。有人声称有两个病人能调节手的形状,使之与即将触摸到的目标的形状和大小相匹配,同时却否认看到了这个物体。某些情况下病人的眼睛能跟踪运动条纹,但这个任务或许是由脑的其他部分(如上丘)完成的。病人的瞳孔也能对光强作出反应,因为瞳孔的大小不是随意的,而是由另一个小的脑区控制的。
因此,尽管V1区受到了严重损坏,病人会坚决否认察觉到了这些刺激,但脑仍能探测到某些相当简单的视觉刺激,并能采取相应的行动。
目前还不清楚其中涉及的神经通路。最初猜测信息是通过“古脑”(old brain)的一部分即上丘传递的。现在看来远不止于此,因为最新的实验表明眼视锥细胞参与了盲视对光波长的反应。它们对不同波长的反应与正常人相似,只是所需的光更亮些[13]。在上丘没发现对颜色敏感的神经元,因此它不会是唯一的通道。
这个问题很复杂,因为皮质V1区的损伤最终会导致侧膝体(丘脑的中继站)对应部位的细胞大量死亡,继而又将杀死大量的视网膜P型神经节细胞,因为就像隐士一样,它们没有可以交谈的对象[92]。然而,某些P型神经元保留了下来,就像侧膝体相关区域的一些神经元一样,可能是因为它们投射到了某些未受损害的部位。从侧膝体有直接但弱的通路到达V1区以上的皮质区,诸如V4区。这些通路可能保持足够完好,足以产生运动输出(例如,能够指出目标),但尚不足以产生视觉意识(参见第15章讨论的里贝特的工作)。有些启发性的证据表明在V1区损伤的部位中有一些未被触及的组织形成的小岛,因而V1区在这些区域仍能起一定作用,虽然这种作用可能比较小[14]。或者最终发现由于别的原因,一个完整的V1区对意识是必需的,而不仅仅是因为通常它产生了到高级视觉区域的输入。不管这个理由是什么,病人在否认看见任何东西的同时确实能利用一些视觉信息。
另一种让人感兴趣的行为形式是在一些面容失认症患者身上发现的。当病人与测谎仪连起来并面对一组熟悉的和不熟悉的面孔时,他们无法说出哪些面孔是他们熟悉的,但是测谎器清晰地显示出脑正在作出这种鉴别,只是病人不知道罢了[15]。这里我们再次遇到了这种情况,脑可以不觉察一个视觉特征却能作出反应。
海马是脑的一部分,实际上它并不仅限于视觉,而是与一种记忆类型有关。它在图52的顶端,标志为HC[93]。图中还画出了它与皮质的一部分称作“内嗅皮质”(图中标为ER)的连接。它的层数比大多数新皮质少。因为它的位置靠近感觉处理等级的顶端,人们禁不住猜测这里终于是视觉(及其他)意识的真正位置。它从许多更高的皮质区接受输入并投射回去。这种复杂的单向通路是再进入的——它返回到离出发点很近的地方——这或许也暗示着它是意识的所在之处,因为脑可能使用这条通路去反映它自己。
这种假设看来很吸引人,但是遭到了实验证据的强烈驳斥。海马损伤可能由一种病毒性疱疹脑炎感染造成,这种病会造成相当严重、但有时很有限的损坏。看来病毒易于攻击海马及与其相联系的皮质。损伤的边界会很清晰。由于损伤可用MRI扫描定位且不再发展,病人在感染严重期过后数年均可进行复查。
如果你碰巧遇到一个失去两侧海马以及邻近皮质区域的人,你并不会马上意识到他有何异常。看了这样一盘录像带你一定会感到吃惊:其中讲述了一个人,他能谈话,微笑,喝咖啡,下棋,等等,他几乎只有一个问题,那就是他不能记住大约一分钟以前发生的任何事件。在相互介绍时他会和你握手,复述你的名字,并进行交谈。但如果你暂时离开房间,过几分钟后再返回,他会否认见过你。他的运动技巧均被保留,还能学习新技术,并通常能保持数年甚至更长时间,只是他记不起来是什么时候学会这些技艺的。他对分类的记忆是完好的,但他对新事物的记忆仅能维持极短的时间,随后就几乎完全丧失了。他在回忆脑损伤前发生的事情时也有障碍。简而言之,他知道早餐一词的含义,也懂得如何吃早餐,但他对吃过什么东西几乎没任何印象。如果你问他,他或许会告诉你他不记得了,或者跟你瞎聊,并描述他认为他可能吃了些什么。
虽然从某种意义上说他失去了全部人类“意识”,但看来他的短时视觉意识并未改变。如果它受到了损伤,也只会是一种实验尚未揭示的细微方式。因此海马及其紧密相关的皮质区域并不是形成视觉意识所必需的。然而,流入和流出的信息通常有可能到达意识状态,因而有理由留意一下其中的神经区域和通路。这或许对找出脑中意识的位置有所帮助。[94]
对脑损伤的研究能得到一些其他方式无法得到的结果。遗憾的是,由于大多数情况下损伤是极复杂的,这些知识时常变得很模糊,令人着急。尽管有这些局限性,在顺利的情况下信息是明确的。脑损伤的结果至少能对脑的工作提供暗示,而这些可以用其他方法在人或动物身上探测到。在某些情况下,它证实了某些在猴子身上进行的实验所得到的结果在人身上也适用。
第13章 神经网络
……我相信,对一个模型的最好的检验是它的设计者能否回答这些问题:“现在你知道哪些原本不知道的东西?”以及“你如何证明它是否是对的?”
——詹姆斯·鲍尔(James M.Bower)
神经网络是由具有各种相互联系的单元组成的集合。每个单元具有极为简化的神经元的特性。神经网络常常被用来模拟神经系统中某些部分的行为,生产有用的商业化装置以及检验脑是如何工作的。
神经科学家究竟为什么那么需要理论呢?如果他们能了解单个神经元的确切行为,他们就有可能预测出具有相互作用的神经元群体的特性。令人遗憾的是,事情并非如此轻而易举。事实上,单个神经元的行为通常远不止那么简单,而且神经元几乎总是以一种复杂的方式连接在一起的。此外,整个系统通常是高度非线性的。线性系统,就其最简单形式而言,当输入加倍时,它的输出也严格加倍——输出与输入呈比例关系。[95]例如,在池塘的表面,当两股行进中的小湍流彼此相遇时,它们会彼此穿过而互不干扰。为了计算两股小水波联合产生的效果,人们只需把第一列波与第二列波的效果在空间和时间的每一点上相加即可。这样,每一列波都独立于另一列的行为。对于大振幅的波则通常不是这样。物理定律表明,大振幅情况下均衡性被打破。冲破一列波的过程是高度非线性的:一旦振幅超过某个阈值,波的行为完全以全新的方式出现。那不仅仅是“更多同样的东西”,而是某些新的特性。非线性行为在日常生活中很普遍,特别是在爱情和战争之中。正如歌中唱的:“吻她一次远不及吻她两次的一半那么美妙。”
如果一个系统是非线性的,从数学上理解它通常比线性系统要困难得多。它的行为可能更为复杂。因此对相互作用的神经元群体进行预测变得十分困难,特别是最终的结果往往与直觉相反。
高速数字计算机是近50年来最重要的技术发展之一。它时常被称作冯·诺依曼计算机,以纪念这位杰出的科学家、计算机的缔造者。由于计算机能像人脑一样对符号和数字进行操作,人们自然地想象到脑是某种形式相当复杂的冯·诺依曼计算机。这种比较,如果陷入极端的话,将导致不切实际的理论。
计算机是构建在固有的高速组件之上的。即便是个人计算机,其基本周期,或称时钟频率,也高于每秒1000万次操作。相反,一个神经元的典型发放率仅仅在每秒100个脉冲的范围内。计算机要比它快上百万倍。而像克雷型机那样的高速超级计算机速度甚至更高。大致说来,计算机的操作是序列式的,即一条操作接着一条操作。与此相反,脑的工作方式则通常是大规模并行的。例如,从每只眼睛到达脑的轴突大约有100万个,它们全都同时工作。在系统中,这种高度的并行情况几乎重复出现在每个阶段。这种连线方式在某种程度上弥补了神经元行为上的相对缓慢性。它也意味着即使失去少数分散的神经元也不大可能明显地改变脑的行为。用专业术语讲,脑被称作“故障弱化”(degrade gracefully)。计算机则是脆弱的,哪怕是对它极小的损伤,或是程序中的一个小错误,也会引起大灾难。计算机中出现错误,会是灾难性的(degrade catastrophically)。
计算机在工作中是高度稳定的。因为其单个组件是很可靠的,当给定相同的输入时通常产生完全同样的输出。反之,单个神经元则具有更多的变化。它们受可以调节其行为的信号支配,有些特性边“计算”边改变。
一个典型的神经元可能具有来自各处的上百乃至数万个输入,其轴突又有大量投射。计算机的一个基本元件——晶体管,则只有极少数的输入和输出。
在计算机中,信息被编码成由0和1组成的脉冲序列。计算机通过这种形式,高度精确地将信息从一个特定的地方传送到另一个地方。信息可以到达特定的地址,提取或者改变那里储存的内容。这样就能够将信息存入记忆体的某个特定位置,并在以后的某些时刻进一步加以利用。这种精确性在脑中是不会出现的。尽管一个神经元沿它的轴突发送的脉冲的模式(而不仅仅是其平均发放率)可能携带某些信息,但并不存在精确的由脉冲编码的信息。[96]这样,记忆必然将以不同的形式“存储”。
脑看起来一点儿也不像通用计算机。脑的不同部分,甚至是新皮质的不同部分,都是专门用来处理不同类型的信息的(至少在某种程度上是这样的)。看来大多数记忆存储在进行当前操作的那个地方。所有这些与传统的冯·诺依曼计算机完全不同,因为执行计算机的基本操作(如加法、乘法等)仅在一个或少数几个地方,而它的记忆存储在许多很不同的地方。
最后,计算机是由工程师精心设计出来的,脑则是动物经过自然选择一代又一代进化而来的。这就产生了如第1章所述的本质上不同的设计形式。
人们习惯于从硬件和软件的角度来谈论计算机。由于人们编写软件(计算机程序)时几乎不必了解硬件(回路等)的细节,所以人们——特别是心理学家——争论说没必要了解有关脑的“硬件”的任何知识。实际上想把这种理论强加到脑的操作过程中是不恰当的,脑的硬件与软件之间并没有明显的差异。对于这种探讨的一种合理的解释是,虽然脑的活动是高度并行的,在所有这些平行操作的顶端有某些形式的(由注意控制的)序列机制。因而,在脑的操作的较高层次,在那些远离感觉输入的地方,可以肤浅地说脑与计算机有某种相似之处。
人们可以从一个理论途径的成果来对它进行判断。计算机按编写的程序执行,因而擅长解决诸如大规模数字处理、严格的逻辑推理以及下棋等某些类型的问题。这些事情大多数人都没有它们完成得那么快、那么好。但是,面对常人能快速、不费气力就能完成的任务,如观察物体并理解其意义,即便是最现代的计算机也显得无能为力。
近几年,在设计新一代的、以更加并行方式工作的计算机方面取得了重要进展。大多数设计使用了许多小型计算机,或是小型计算机的某些部件。它们被连接在一起,并同时运行。由一些相当复杂的设备来处理小型计算机之间的信息交换并对计算进行全局控制。像进行预测天气等类似处理时,其基本要素在多处出现。此时超级计算机特别有用。
人工智能界也采取了行动设计更具脑的特点的程序。他们用一种模糊逻辑取代通常计算中使用的严格的逻辑。命题不再一定是真的或假的,而只需是具有更大或更小的可能性。程序试图在一组命题中发现具有最大可能性的那种组合,并以之作为结论,而不是那些它认为可能性较小的结论[2]。
在概念的设置上,这种方法确实比早期的人工智能方法与脑更为相像,但在其他方面,特别是在记忆的存储上,则不那么像脑。因此,要检查它与真实的脑在所有层次上行为的相似性可能会有困难。
一群原先很不知名的理论工作者发展了一种更具有脑的特性的方法。如今它被称为PDP方法(即平行分布式处理)。这个话题有很长的历史,我只能概述一二。1943年沃仑·麦卡洛克(Warren McCulloch)和沃尔特·皮兹(Walter Pitts)的工作是这方面最早的尝试之一。他们表明,在原则上由非常简单的单元连接在一起组成的“网络”可以对任何逻辑和算术函数进行运算[3]。因为网络的单元有些像大大简化的神经元,它现在常被称作“神经网络”。
这个成就非常令人鼓舞,以致它使许多人受到误导,相信脑就是这样工作的。或许它对现代计算机的设计有所帮助,但它的最引人注目的结论对于脑而言则是极端错误的。
下一个重要的进展是弗兰克·罗森布拉特(Frank Rosenblatt)发明的一种非常简单的单层装置,他称之为感知机(perceptron)。其意义在于,虽然它的连接最初是随机的,它能使用一种简单而明确的规则改变这些连接,因而可以教会它执行某些简单的任务,如识别固定位置的印刷字母。感知机的工作方式是,它对任务只有两种反应:正确或者错误。你只需告诉它它所作出的(暂时的)回答是否正确。然后它根据一种感知机学习规则来改变其连接。罗森布拉特证明,对于某一类简单的问题——“线性可分”的问题——感知机通过有限次训练就能学会正确的行为[4]。
这个结果在数学上很优美,因而吸引了众人的注目。只可惜时运不济,它的影响很快就消退了。马文·明斯基(Marvin Minsky)和西摩·佩伯特(Segmour Papert)证明感知机的结构及学习规则无法执行“异或问题”(如,判断这是苹果还是橘子,但不是两者皆是),因而也不可能学会它。他们写了一本书,通篇详述了感知机的局限性[5]。这在许多年内扼杀了人们对感知机的兴趣(明斯基后来承认做得过分了)。其间大部分工作将注意力转向了人工智能方法。[97]
用简单单元构建一个多层网络,使之完成简单的单层网络所无法完成的异或问题(或类似任务),这是可能的。这种网络必定具有许多不同层次上的连接。问题在于,对哪些最初是随机的连接进行修改才能使网络完成所要求的操作。如果明斯基和佩伯特为这个问题提供了解答,而不是把感知机“打入死牢”的话,他们的贡献会更大些。
下一个引起广泛注意的发展来自约翰·霍普菲尔德(John Hopfield),一位加利福尼亚州理工学院的物理学家,后来他成为分子生物学家和脑理论家。1982年他提出了一种网络,现在被称为霍普菲尔德网络[6](图53)。这是一个具有自反馈的简单网络。每个单元只能有两种输出:-1(表示抑制)或+1(表示兴奋)。但每个单元具有多个输入。每个连接均被指派一个特定的强度。这个网络在每个时刻单元把来自它的全部连接的效果[98]总和起来。如果这个总和大于0则置输出状态为+1(平均而言,当单元兴奋性输入大于抑制性输入时,则输出为正),否则就输出-1。有些时候这意味着一个单元的输出会因为来自其他单元的输入发生了改变而改变。
计算将被一遍遍地反复进行,直到所有单元的输出都稳定为止。[99]在霍普菲尔德网络中,所有单元的状态并不是同时改变的,而是按随机次序一个接一个进行。霍普菲尔德从理论上证明了,给定一组权重(连接强度)以及任何输入,网络将不会无限制地处于漫游状态,也不会进入振荡,而是迅速达到一个稳态。[100]
图53 霍普菲尔德网络(有时又称之为交叉线网络——crossbar network)的连线示意图。每个小圆圈代表一个“单元”,它是神经元的一种过于简化的形式。在这里,连接被标志为“突触”。改变这些连接的强度可以使网络存储特定的记忆
霍普菲尔德的论证令人信服,表达也清晰。他的网络对数学家和物理学家有巨大的吸引力,他们认为终于找到了一种他们可以涉足脑研究的方法。虽然这个网络在许多细节上严重违背生物学,但他们并不对此感到忧虑。
如何调节所有这些连接的强度呢?1949年,加拿大心理学家唐纳德·赫布(Donald Hebb)出版了《行为的组织》一书[7]。当时人们就像现在一样普遍相信,在学习过程中,一个关键因素是神经元的连接(突触)强度的调节。赫布意识到,仅仅因为一个突触是活动的,就增加其强度,这是不够的。他期望一种只在两个神经元的活动相关时才起作用的机制。他的书中有一个后来被广泛引用的段落:“当细胞A的一个轴突和细胞B很近,足以对它产生影响,并且持久地、不断地参与了对细胞B的兴奋,那么在这两个细胞或其中之一会发生某种生长过程或新陈代谢变化,以至于A作为能使B兴奋的细胞之一,它的影响加强了。”这个机制以及某些类似规则,现在被称为“赫布律”。
霍普菲尔德在他的网络中使用了一种形式的赫布规则来调节连接权重。对于问题中的一种模式,如果两个单元具有相同的输出,则它们之间的相互连接权重都设为+1。如果它们具有相反的输出,则两个权重均设为-1。大致地说,每个单元激励它的“朋友”并试图削弱它的“敌人”。
霍普菲尔德网络是如何工作的呢?如果网络输入的是正确的单元活动模式,它将停留在该状态。这并没有什么特别的,因为此时给予它的就是答案。值得注意的是,如果仅仅给出模式的一小部分作为“线索”,它在经过短暂的演化后,会稳定在正确的输出即整个模式上。在不断地调节各个单元的输出之后,网络所揭示的是单元活动的稳定联系。最终它将有效地从某些仅仅与其存储的“记忆”接近的东西中恢复出该记忆。此外,这种记忆也被称作按“内容寻址”的——它没有通常计算机中具有的分离的、唯一用于作为“地址”的信号。输入模式的任何可察觉的部分都将作为地址。这开始与人的记忆有些相似了。
请注意记忆并不必存储在活动状态中,它也可以完全是被动的,因为它是镶嵌在权重的模式之中的即在所有各个单元之间的连接强度之中。网络可以完全不活动(所有输出置为0),但只要有信号输入,网络突然活动起来并在很短时间内进入与其应当记住的模式相对应的稳定的活动状态。据推测,人类长期记忆的回忆具有这种一般性质(只是活动模式不能永久保持)。你能记住大量现在一时想不起来的事情。
神经网络(特别是霍普菲尔德网络)能“记住”一个模式,但是除此以外它还能再记住第二个模式吗?如果几个模式彼此不太相似,一个网络能够全部记住这几个不同模式,即给出其中一个模式的足够大的一部分,网络经过少数几个周期后将输出该模式。因为任何一个记忆都是分布在许多连接当中的,所以整个系统中记忆是分布式的。因为任何一个连接都可能包含在多个记忆中,因而记忆是可以叠加的。此外,记忆具有鲁棒性,改变少数连接通常不会显著改变网络的行为。
为了实现这些特性就需要付出代价,这不足为奇。如果将过多的记忆加到网络之中则很容易使它陷入混乱。即使给出线索,甚至以完整的模式作为输入,网络也会产生毫无意义的输出。[101]有人提出[8][9]这是我们做梦时出现的现象(弗洛伊德称之为“凝聚”——condensation),这是题外话。值得注意的是,所有这些特性是“自然发生”的。它们并不是网络设计者精心布置的,而是由单元的本性、它们连接的模式以及权重调节规则决定的。
霍普菲尔德网络还有另一个性质,即当几个输入事实上彼此大致相似时,在适当计算网络的连接权重后,它“记住”的将是训练的模式的某种平均。这是另一个与脑有些类似的性质。对我们人类而言,当我们听某个特定的声调时,即便它在一定范围内发生变化,我们也会觉得它是一样的。输入是相似但不同的,而输出——我们所听到的——是一样的。
这些简单网络是不能和脑的复杂性相提并论的,但这种简化确实使我们可能对它们的行为有所了解。即使是简单网络中出现的特点也可能出现在具有相同普遍特性的更复杂的网络中。此外,它们向我们提供了多种观点,表明特定的脑回路所可能具有的功能。例如,海马中有一个称为CA3的区域,它的连接事实上很像一个按内容寻址的网络。当然,其是否正确尚需实验检验。
有趣的是,这些简单的神经网络具有全息图的某些特点。在全息图中,几个影像可以彼此重叠地存储在一起;全息图的任何一部分都能用来恢复整个图像,只不过清晰度会下降;全息图对于小的缺陷是鲁棒的。对脑和全息图两者均知之甚少的人经常会热情地支持这种类比。几乎可以肯定这种比较是没有价值的。原因有两个:详细的数学分析表明神经网络和全息图在数学上是不同的[10];更重要的是,虽然神经网络是由那些与真实神经元有些相似的单元构建的,但是没有证据表明脑中具有全息图所需的装置或处理过程。[102]
后来,一本书产生了巨大的冲击力,这就是戴维·鲁梅尔哈特(David Rumelhart)、詹姆斯·麦克莱兰(James McClelland)和PDP[103]小组所编的一套很厚的两卷著作《平行分布式处理》[11]。该书于1986年问世,并很快至少在学术界成为最畅销书。名义上我也是PDP小组的成员,并和浅沼智行(Chiko Asanuma)合写了其中的一个章节。不过我起的作用很小。我大概只有一个贡献,就是坚持要求他们停止使用神经元一词作为他们网络的单元。
加利福尼亚州立大学圣迭戈分校心理系离索尔克研究所仅有大约1.5千米。在20世纪70年代末80年代初,我经常步行去参加他们的讨论小组举行的小型非正式会议。那时我时常漫步的地方如今已变成了巨大的停车场。生活的步伐越来越快,我现在已改为驱车飞驰于两地之间了。
研究小组当时是由鲁梅尔哈特和麦克莱兰领导的,但是不久后麦克莱兰就前往东海岸了。他们俩最初都是心理学家,但他们对符号处理器感到失望并共同研制了处理单词的“相互作用激励器”的模型。在克里斯托夫·朗格特希金斯(Christopher Longuet—Higgins)的另一位学生杰弗里·希尔顿(Geoffrey Hinton)的鼓励下,他们着手研究一个更加雄心勃勃的“联结主义”方案。他们采纳了平行分布式处理这个术语,因为它比以前的术语——联想记忆[104]——的覆盖面更广。
在人们发明网络的初期,一些理论家勇敢地开始了尝试。他们把一些仍显笨拙的小型电子回路(其中常包括老式继电器)连接在一起来模拟他们的非常简单的网络。现在已发展出了复杂得多的神经网络,这得益于现代计算机的运算速度得到了极大的提高,并且得益于计算机变得很便宜。现在可以在计算机(主要是指数字计算机)上模拟检验关于网络的新思想,而不必像早期的研究那样仅靠粗糙的模拟线路或是用相当困难的数学论证。
1986年出版的《平行分布式处理》一书从1981年底开始经过了很长时间的酝酿。很幸运,它是一个特殊算法的最新发展(或者说是它的复兴或应用),在其早期工作基础上,它很快给人留下了深刻的印象。该书的热情读者不仅包括脑理论家和心理学家,还有数学家、物理学家和工程师,甚至有人工智能领域的工作者。不过后者最初的反应是相当敌视的。最终神经科学家和分子生物学家也对这本书有所耳闻。
该书的副标题是“认知微结构的探索”。它是某种大杂烩,但是其中一个的特殊的算法产生了惊人的效果。该算法现在被称作“误差反传算法”,通常简称为“反传法”。为了理解这个算法,你需要知道一些关于学习算法的一般性知识。
在神经网络有些学习形式被称作“无教师的”。这意味着没有外界输入的指导信息。对任何连接的改变只依赖于网络内部的局部状态。简单的赫布规则具有这种特点。与之相反,在有教师学习中,从外部向网络提供关于网络执行状况的指导信号。
无教师学习具有很诱人的性质,因为从某种意义上说网络是在自己指导自己。理论家们设计了一种更有效的学习规则,但它需要一位“教师”来告诉网络它对某些输入的反应是好、是差还是很糟。这种规则中有一个称作“δ—律”。
训练一个网络需要有供训练用的输入集合,称作“训练集”。很快我们在讨论网络发音器(NETtalk)时将看到一个这样的例子。这有用的训练集必须是网络在训练后可能遇到的输入的合适的样本。通常需要将训练集的信号多次输入,因而在网络学会很好地执行之前需要进行大量的训练。其部分原因是这种网络的连接通常是随机的。而从某种意义上讲,脑的初始连接是由遗传机制控制的,通常不完全是随机的。
网络是如何进行训练的呢?当训练集的一个信号被输入网络中,网络就会产生一个输出。这意味着每个输出神经元都处在一个特殊的活动状态。教师则用信号告诉每个输出神经元它的误差,即它的状态与正确之间的差异。δ这个名称便来源于这个真实活动与要求之间的差异(数学上δ常用来表示小而有限的差异)。网络的学习规则利用这个信息计算如何调整权重以改进网络的性能。
Adaline网络是使用有教师学习的一个较早的例子。它是1960年由伯纳德·威德罗(Bernard Widrow)和霍夫(M.E.Hoff)设计的,因此δ—律又称作威德罗—霍夫规则。他们设计规则使得在每一步修正中总误差总是下降的。[105]这意味着随着训练过程网络最终会达到一个误差的极小值。这是毫无疑问的,但还不能确定它是真正的全局极小还是仅仅是个局域极小值。用自然地理的术语说就是,我们达到的是一个火山口中的湖,还是较低的池塘、海洋,还是像死海那样的凹下去的海(低于海平面的海)?
训练算法是可以调节的,因而趋近局域极小的步长可大可小。如果步长过大,算法会使网络在极小值附近跳来跳去(开始时它会沿下坡走,但走得太远以致又上坡了)。如果步子小,算法就需要极长的时间才能达到极小值的底端。人们也可以使用更精细的调节方案。
反传算法是有教师学习算法中的一个特殊例子。为了让它工作,网络的单元需要具有一些特殊性质。它们的输出不必是二值的(即1或0,或者+1或-1),而是分成若干级。它通常在0和+1之间取值。理论家们盲目地相信这对应于神经元的平均发放率(取最大发放率为+1),但他们常常说不清应该在什么时候取这种平均。
如何确定这种“分级”输出的大小呢?像以前一样,每个单元对输入加权求和,但此时不再有一个真实的阈值。如果总和很小,输出几乎是0。总和稍大一些时,输出便增加。当总和很大时,输出接近于最大值。图54所示的S形函数(sigmoid函数)体现了这种输入总和与输出间的典型关系。如果将一个真实神经元的平均发放率视为它的输出,那么它的行为与此相差不大。
这条看似平滑的曲线有两个重要性质。它在数学上是“可微的”,即任意一处的斜率都是有限的;反传算法正依赖于这个特性。更重要的是,这条曲线是非线性的,而真实神经元即如此。当(内部)输入加倍时输出并不总是加倍。这种非线性使得它能处理的问题比严格的线性系统更加广泛。
现在让我们看一个典型的反传网络。它通常具有三个不同的单元层(图55):最底层是输入层;下一层被称作“隐单元”层,因为这些单元并不直接与网络外部的世界连接;最顶层是输出层。最底层的每个单元都与上一层的所有单元连接。中间层也是如此。网络只有前向连接,而没有侧向连接,除了训练以外也没有反向的投射。它的结构几乎不能被简化。
训练开始的时候,所有的权重都被随机赋值,因而网络最初对所有信号的反应是无意义的。此后给定一个训练输入,产生输出并按反传训练规则调节权重。过程如下:在网络对训练产生输出以后,告诉高层的每个单元它的输出与“正确”输出之间的差。单元利用该信息来对每个从低层单元达到它的突触的权重进行小的调整,然后它将该信息反传到隐层的每个单元。每个隐层单元则收集所有高层单元传来的误差信息,并以此调节来自最底层的所有突触。
图54 神经网络中的一个单元的一条典型的输入输出曲线。该曲线是非线性的(虚线显示了线性曲线的一个例子)
从整体上看,具体的算法使得网络总是不断调节以减小误差。这个过程被多次重复(该算法是普适的,可以用于多于三层的前向网络)。
经过了足够数量的训练之后网络就可以使用了。此时有一个输入的测试集来检验网络。测试集是经过选择的,它的一般(统计)特性与训练集相似,其他方面则不同(权重在这个阶段保持不变,以便考察训练后网络的行为)。如果结果不能令人满意,设计者会从头开始,修改网络的结构、输入和输出的编码方式、训练规则中的参数或是训练总数。
图55 一个简化的多层神经网络。每个单元都与上一层的所有单元连接。这里没有侧向连接或反向连接。其中的“内部表达单元”常被称为“隐单元”
所有这些看上去显得很抽象。举个例子或许能让读者清楚一些。特里·塞吉诺斯基和查尔斯·罗森堡(Charles Rosenberg)在1987年提供了一个著名的演示[12]。他们把他们的网络称为网络发音器(NETtalk)。它的任务是把书写的英文转化成英文发音。英文的拼法不规则;[106]这使它成为一门发音特别困难的语言,因而这个任务并不那么简单易行。当然,事先并不把英语的发音规则清楚地告诉网络。在训练过程中,网络每次尝试后将得到修正信号,网络则从中学习。输入是通过一种特殊的方式一个字母接一个字母地传到网络中。NETtalk的全部输出是与口头发音相对应的一串符号。为了让演示更生动,网络的输出与一个独立的以前就有的机器(一种数字发音合成器)耦合。它能将NETtalk的输出变为发音,这样就可以听到机器“朗读”英语了。
图56 NETtalk网络结构的示意图。它是图55所示的普遍模式的一个例子。一个移动窗口从文章中选取连续7个字母(在这里是“a cat”,即一只猫)传送到输入层的203个单元中。信息由此传递到中间层的80个隐单元,并最终形成了26个输出单元的活动模式
由于一个英语字母的发音在很大程度上依赖于它前后的字母搭配,输入层每次读入一串7个字母。[107]输出层中的单元与音素所要求的21个发音特征[108]相对应,还有5个单元处理音节分界和重音。图56给出了它的一般结构。[109]
他们使用了两段文字的摘录来训练网络,每段文字都附有训练机器所需的标音法。第一段文字摘自梅里亚姆—韦伯斯特袖珍词典。第二段摘录则多少有些令人奇怪,它是一个小孩的连续说话。初始权重具有小的随机值,并在训练期内每处理一个词更新一次。他们编写程序使得计算机能根据提供的输入和(正确的)输出信息自动地完成这一步。在对真实的输出进行判断时,程序会采纳一个与真实发音最接近的音素作为最佳猜测。通常有好几个“发音”输出单元对此有关系。
聆听机器学着“读”英语是一件令人着迷的事情。[110]最初,由于初始连接是随机的,只能听到一串令人困惑的声音。NETtalk很快就学会了区分元音和辅音。但开始时它只知道一个元音和一个辅音,因此像在咿呀学语。后来它能识别词的边界,并能发出像词那样的一串声音。在对训练集进行了大约10次操作之后,单词变得清楚,读的声音也和幼儿说话很像了。
但实际结果并不完美。在某种情况下英语发音依赖于词意,而NETtalk对此一无所知。一些相似的发音通常引起混淆,如论文(thesis)和投掷(throw)的“th”音。把同一个小孩的另一段例文作为检测,机器完成得很好,表明它能把从相当小的训练集(1024个单词)中学到的推广到它从未遇到的新词上。[111]这称为“泛化”。
显然网络不只是它所训练过的每一个单词的查询表。它的泛化能力取决于英语发音的冗余度。并不是每一个英语单词都按自己唯一的方式发音,虽然首次接触英语的外国人容易这样想(这个问题是由于英语具有两个起源造成的,即拉丁语系和日尔曼语系,这使得英语的词汇十分丰富)。
相对于大多数从真实神经元上收集的资料而言,神经网络的一个优点在于在训练后很容易检查它的每一个隐单元的感受野。一个字母仅会激发少数几个隐单元,还是像全息图那样它的活动在许多隐单元中传播呢?答案更接近于前者。虽然在每个字母发音对应中并没有特殊的隐单元,但是每个这种对应并不传播到所有的隐单元。
因此便有可能检查隐单元的行为如何成簇的(即具有相同的特性)。塞吉诺斯基和罗森堡发现“……最重要的区别是元音与辅音完全分离。然而在这两类之中隐单元簇具有不同的模式。对于元音而言,下一个重要的变量是字母,而辅音成簇按照了一种混合的策略,更多地依赖于它们声音的相似性”。
这种相当杂乱的布置在神经网络中是典型现象,其重要性在于它与许多真实皮质神经元(如视觉系统中的神经元)的反应惊人地相似,而与工程师强加给系统的那种巧妙的设计截然不同。
他们的结论是:
NETtalk是一个演示,是学习的许多方面的缩影。首先,网络在开始时具有一些合理的“先天”的知识,体现为由
实验者选择的输入输出的表达形式,但没有关于英语的特别知识——网络可以对任何具有相同的字母和音素集的语言进行训练。其次,网络通过学习获得了它的能力,其间经历了几个不同的训练阶段,并达到了一种显著的水平。最后,信息分布在网络之中,因而没有一个单元或连接是必不可少的。作为结果,网络具有容错能力,对增长的损害是故障弱化的。此外,网络从损伤中恢复的速度比重新学习要快得多。
尽管这些与人类的学习和记忆很相似,但NETtalk过于简单,还不能作为人类获得阅读能力的一个好的模型。网络试图用一个阶段完成人类发育中两个阶段出现的过程,即首先是儿童学会说话;只有在单词及其含义的表达已经建立好以后,他们才学习阅读。同时,我们不仅具有使用字母发音对应的能力,似乎还能达到整个单词的发音表达,但在网络中并没有单词水平的表达。
可以注意到,网络上并没有什么地方清楚地表达英语的发音规则,这与标准的计算机程序不同。它们内在地镶嵌在习得的权重模式当中。这正是小孩儿学习语言的方式。它能正确地说话,但对它的脑所默认的规则一无所知。[112]
NETtalk有几条特性是与生物学大为抵触的。网络的单元违背了一条规律,即一个神经元只能产生兴奋性或抑制性输出,而不会二者皆有。更为严重的是,照字面上说,反传算法要求教师信息快速地沿传递向前的操作信息的同一个突触发送回去。这在脑中是完全不可能发生的。试验中用了独立的回路来完成这一步,但对我而言它们显得过于勉强,并不符合生物原型。
尽管有这些局限性,NETtalk展示了一个相对简单的神经网络所能完成的功能,给人的印象非常深刻。别忘了那里只有不足500个神经元和2万个连接。如果包括(在前面的脚注中列出的)某些限制和忽略,这个数目将会大一些,但恐怕不会大10倍。而在每一侧新皮质边长大约1/4毫米的一小块表面(比针尖还小)有大约5000个神经元。因而与脑相比,NETtalk仅是极小的一部分。[113]所以,它能学会这样相对复杂的任务会给人留下格外深刻的印象。
另一个神经网络是由西德尼·莱基(Sidney Lehky)和特里·塞吉诺斯基设计的[13]。他们的网络所要解决的问题是在不知道光源方向的情况下试图从某些物体的阴影中推断出其三维形状(第4章描述的所谓从阴影到形状问题)。对隐层单元的感受野进行检查时发现了令人吃惊的结果。其中一些感受野与实验中在脑视觉第一区(V1区)发现的一些神经元非常相似。它们总是成为边缘检测器或棒检测器,但在训练过程中,并未向网络呈现过边或棒,设计者也未强行规定感受野的形状。它们是训练的结果。此外,当用一根棒来测试网络时,其输出层单元的反应类似于V1区具有端点抑制(end stopping)的复杂细胞。
网络和反传算法二者都在多处与生物学违背,但这个例子提出了这样一个回想起来应该很明显的问题:仅仅从观察脑中一个神经元的感受野并不能推断出它的功能。正如第11章描述的那样,了解它的投射野,即它将轴突传向哪些神经元,也同样重要。
我们已经关注了神经网络中“学习”的两种极端情况:由赫布规则说明的无教师学习和反传算法那样的有教师学习。此外还有若干种常见的类型。一种同样重要的类型是“竞争学习”。[114]其基本思想是网络操作中存在一种“胜者为王”机制,使得能够最好地表达了输入的含义的那个单元(或更实际地说是少数单元)抑制了其他所有单元。学习过程中,每一步中只修正与胜者密切相关的那些连接,而不是系统的全部连接。这通常用一个三层网络进行模拟,如同标准的反传网络,但又有显著差异,即它的中间层单元之间具有强的相互连接。这些连接的强度通常是固定的,并不改变。通常短程连接是兴奋性的,而长程的则是抑制性的,一个单元倾向于与其近邻友好而与远处的相对抗。这种设置意味着中间层的神经元为整个网络的活动而竞争。在一个精心设计的网络中,在任何一次试验中通常只有一个胜者。
这种网络并没有外部教师。网络自己寻找最佳反应。这种学习算法使得只有胜者及其近邻单元调节输入权重。这种方式使得当前的那种特殊反应在将来出现的可能性更大。由于学习算法自动将权重推向所要求的方向,每个隐单元将学会与一种特定种类的输入相联系。[115]
到此为止我们考虑的网络处理是静态的输入,并在一个时间间隔后产生一个静态的输出。很显然在脑中有一些操作能表达一个时间序列,如口哨吹出一段曲调或理解一种语言并用之交谈。人们初步设计了一些网络来着手解决这个问题,但目前尚不深入(NETtalk确实产生了一个时间序列,但这只是数据传入和传出网络的一种方法,而不是它的一种特性)。
语言学家曾经强调,目前在语言处理方面(如句法规则)根据人工智能理论编写的程序处理更为有效。其本质原因是网络擅长于高度并行的处理,而这种语言学任务要求一定程度的序列式处理。脑中具有注意系统,它具有某种序列式的本性,对低层的并行处理进行操作。迄今为止神经网络并未达到要求的这种序列处理的复杂程度,尽管它应当出现。
真实神经元(其轴突、突触和树突)都存在不可避免的时间延迟和处理过程中的不断变化。神经网络的大多数设计者认为这些特性很讨厌,因而回避它们。这种态度也许是错的。几乎可以肯定进化就建立在这些改变和时间延迟上,并从中获益。
对这些神经网络的一种可能的批评是,由于它们使用这种大体上说不真实的学习算法,事实上它们并不能揭示很多关于脑的情况。对此有两种答案:一种是尝试在生物学看来更容易接受的算法,另一种方法更有效且更具有普遍性。加利福尼亚州立大学圣迭戈分校的戴维·齐帕泽(David Zipser),一个由分子生物学家转为神经理论学家的人,曾经指出,对于鉴别研究中的系统的本质而言,反传算法是非常好的方法[14]。他称之为“神经系统的身份证明”。他的观点是,如果一个网络的结构至少近似于真实物体,并了解了系统足够多的限制,那么反传算法作为一种最小化误差的方法,通常能达到一个一般性质相似于真实生物系统的解。这样便在朝着了解生物系统行为的正确方向上迈出了第一步。
如果神经元及其连接的结构还算逼真,并已有足够的限制被加入系统中,那么产生的模型可能是有用的,它与现实情况足够相似。这样便允许仔细地研究模型各组成部分的行为。与在动物上做相同的实验相比,这更快速也更彻底。
我们必须明白科学目标并非到此为止,这一点很重要。例如,模型可能会显示,在该模型中某一类突触需要按反传法确定的某种方式改变。但在真实系统中反传法并不出现。因此模拟者必须为这一类突触找到合适的真实的学习规则。例如,那些特定的突触或许只需要某一种形式的赫布规则。这些现实性的学习规则可能是局部的,在模型的各个部分不尽相同。如果需要的话,可能会引入一些全局信号,然后必须重新运行该模型。
如果模型仍能工作,那么实验者必须表明这种学习方式确实在预测的地方出现,并揭示这种学习所包含的细胞和分子机制以支持这个观点。只有如此我们才能将这些“有趣”的演示上升为真正科学的有说服力的结果。
所有这些意味着需要对大量的模型及其变体进行测试。幸运的是,随着极高速而又廉价的计算机的发展,现在可以对许多模型进行模拟。这样人们就可以检测某种设置的实际行为是否与原先所希望的相同。但即便使用最先进的计算机也很难检验那些人们所希望的巨大而复杂的模型。
坚持要求所有的模型应当经过模拟检验,这令人遗憾地带来了两个副产品。
如果一个的假设模型的行为相当成功,其设计者很难相信它是不正确的。然而经验告诉我们,若干差异很大的模型也会产生相同的行为。为了证明这些模型哪个更接近于事实,还需要其他证据,诸如真实神经元及脑中该部分的分子的准确特性。
另一种危害是,对成功的模型过分强调会抑制对问题的更为自由的想象,从而阻碍理论的产生。自然界是以一种特殊的方式运行的。对问题过于狭隘的讨论会使人们由于某种特殊的困难而放弃极有价值的想法。但是进化或许使用了某些额外的小花招来回避这些困难。尽管有这些保留,模拟一个理论,即便仅仅为了体会一下它事实上如何工作,也是有用的。
我们对神经网络能总结出些什么呢?它们的基础设计更像脑,而不是标准计算机的结构。然而,它们的单元并没有真实神经元那样复杂,大多数网络的结构与新皮质的回路相比也过于简单。目前,如果一个网络要在普通计算机上在合理的时间内进行模拟,它的规模只能很小。随着计算机运行变得越来越快,以及像网络那样高度并行的计算机的生产商业化,这一状况会有所改善,但仍将一直是严重的障碍。
尽管神经网络有这些局限性,它现在仍然显示出了惊人的完成任务的能力。整个领域内充满了新观点。虽然其中许多网络会被人们遗忘,但通过了解它们,抓住其局限性并设计改进它们的新方法,肯定会有实质上的发展。这些网络有可能具有重要的商业应用。尽管有时它会导致理论家远离生物事实,但最终会产生有用的观点和发明。也许所有这些神经网络方面的工作的最重要的结果是它提出了关于脑可能的工作方式的新观点。
在过去,脑的许多方面看上去是完全不可理解的。得益于所有这些新的观念,人们现在至少瞥见了将来按生物现实设计脑模型的可能性,而不是用一些毫无生物依据的模型仅仅去捕捉脑行为的某些有限方面。即便现在这些新观念已经使我们对实验问题的讨论更为敏锐。我们现在更多地了解了关于个体神经元所必须掌握的知识。我们可以指出回路的哪些方面我们尚不足够了解(如新皮质的向回的通路)。我们从新的角度看待单个神经元的行为,并意识到在实验日程上下一个重要的任务是它们整个群体的行为。神经网络还有很长的路要走,但关于神经网络的研究终于有了好的开端。