13.2 CCTM与人脑的差异
显而易见,早期的联结主义理论认为CCTM模型与真实的人脑只具有一些间接的关系(见第12章,对斯莫琳斯基的pTC的讨论)。但我们有所侧重和选择地指出,两者间的一些深层次的不同,也许对于引导我们如何从CCTM模型推断出人脑的特征是非常有帮助的。
神经元与单元
例如,克里克和浅沼智行(Crick and Asanuma,1986: 367-71)就阐述了联结主义单元与脑神经元的一些明显相似的地方:“它们都具有多重输入、某种类别的求和规则、某种阀域规则以及分布在其他多个单元中的单一输出。”但他们又提醒道:“如果真实神经元的特征为尝试模拟神经系统工作的人们提供了有用的参考,那么他们就不该将两者的特征混为一谈,事实上,单个神经元与单个单元并不是完全的对应。”最常见的一种解决方案是几组(真实的)神经元对应一个单元,但他们指出:“如果能详细地说明或多或少的一些真实神经元,如何能形成某一神经元组,那么神经学家或许才会接受这一点。但这样的解释,即使有也是少得可怜。”他们继续指出,人脑并不总是具有联结主义模型的表现,如果联结主义模型真实地对应着人脑神经元的结构,那么,可以开列一张联结主义模型单元应当具有的设置清单,“那些设置,[CCTM]理论家们之所以钟爱,是因为他们只从文字上进行解释,而这些设置事实上并没有任何可靠的实证基础”:
1.一些单元能够对某些单元产生兴奋,而对另一些单元进行抑制;
2.单元仅接受某个特定单元的兴奋,且其输出也仅对某一特定单元产生抑制;
3.单元与同类型的所有其他单元相连接;
4.仅靠单元本身,就能激活其他单元。
我们已经知道(见第9章)人脑中存在着极其繁多的神经元种类,而一个特定的CCTM模型通常只具有一种类型。因此,我们可以再加上一条:
5.CCTM模型通常只包含某一类单元,而人脑则包含很多种类的神经元。
化学物质
1.在第3章末,我们已经注意到大脑使用神经递质和神经调质,“改变细胞的功能,使神经网络急剧地转换它的整个活动模式”(Arbib,1995: 6)。CCTM模型没有使用任何相类似的事物。
几何构造
1.正如我们前面(第10章、第11章)讨论的,许多联结主义的模型都有很多不同的功能层次(数量可随意增加)。但是,大脑似乎有着更为复杂的物理几何分层、连接和投射,它们的计算作用可能还无法复制到现有的模型中。例如,脑皮层的垂直柱状结构,每一层内都有着极其繁多的连接。
2.我们也不应该忘记(见第3章、第8章),不同的脑区似乎都至少部分地参与了某类计算,如布洛卡区和维尔尼克区。
学 习
1.脑的学习似乎不需要过多的重复或监控。
2.脑似乎没有反向传播的生理机制,而在CCTM模型中反向传播由主计算机(host computer)执行。
规模比例
它们之间当然还会存在规模上的差异,这个问题尽管在理论上似乎不成问题,但它们之间相差的程度实在太令人震惊了。比如,丘奇兰德估计大脑中约有1011个非感觉神经元,且每个神经元平均约有103种突触连接(Churchland,1989,第9章)。
激活矢量:假设大脑有一千个子系统,每个子系统工作时有108的容量(包含108个单元)——一个包含108个单元的矢量够写出一整本书。从108个单元中可以建构多少种不同的矢量呢?如果每个单元都带有(保守估计)10种不同的值,那么工作时将有10100,000,000种不同的激活矢量。这究竟是个怎样的数据呢,史蒂芬·霍金(hawking,1988)估算说“在我们现在能查明的宇宙范围内,大概有[1080]个粒子”,与10100,000,000相对比,1080实在太小了。而且这只是我们假设的一千个子系统中的一个子系统的激活矢量的数字。
权值与连接:如果每一神经元平均有103种连接,那么每一子系统就有1011种连接,而每一种连接都有1010,000,000,000种矢量解释。
这意味着,人脑蕴藏着无比巨大的对所表征内容能够作出精细区分的能力。有一点值得我们注意,尽管我们可以设计一种工作网络,用它来模拟人脑的工作,但如果这样一种设计只是我们试着正确认识认知的副产品,那么,这将意味着,脑的结构并不是偶然地与认知结构相关,那会变得更加有趣。
13.3 CCTM:联结主义的优点
福多和派利夏恩(Fodor and pylyshyn,1988)(下文简称Fp)列举了十多个被普遍接受的理由,这些理由使一些人相对于他们称之为的“经典”结构或“传统模型”(DCTM)更偏爱于联结主义(CCTM)结构。其中大多数理由我们前面已有所涉及(1988:51-4):
联结主义具有的11种优点
1.认知过程的速度与神经元速度相关:“一百步”限制。
2.传统结构很难具有大容量模式识别和基于内容的检索能力。
3.传统计算机模型不能统合对“规则控制”行为和“例外”行为的解释。
4.DCTM在处理非语言或直觉过程上,无法获得进展。
5.传统结构对受到的损坏和干扰,极度敏感。
6.传统结构的存储是被动的。
7.传统系统的规则基础将认知描述成“有-或-无”。
8.CCTM模型对于不同规则的适用程度连续变化。
9.CCTM对人类行动的非确定性作了更好的模拟。
10.传统模型无法出现功能递阶衰减的特征。
11.传统模型受现代计算机的技术特征的影响,对神经科学的成果很少或完全没有涉及。
福多和派利夏恩想要说明,以上所列举的赞成联结主义的理由其实是无效的,因为这些理由都有下面这些那样或这样的缺陷:
福多之叉(Fodors fork)
1.上述批评理由所指向的,并非是经典认知结构的本质属性,或者
2.所指向的是实现层或神经层,而不是认知层。
五类优点
Fp将最常见的支持联结主义结构的理由总结为五类,然后逐一进行了回应。
1.并行计算和速度问题(实现层)
这一部分主要针对两个目标。第一个反对的目标是费尔德曼和巴拉德(Feldman and Ballard,1982)的“100步”规则(“100-step” rule)。费尔德曼(Feldman,1989:1)这样阐述这条规则:“人脑是一种与传统计算机截然不同的信息处理系统。人脑的基础计算元件在毫秒范围内运作,这大概要比现在的电子元件慢100万倍。可是,人脑对于某种复杂任务的反应时间仅需几百毫秒,因此系统要处理很难的识别问题,必须限定在大概100个计算步骤内。但由于这个时间限制,一个神经元只可能给另一个神经元传递一个简单的信号。”Fp用三段论的形式解读“100步”规则:
(p1) 神经元的激活需要几毫秒。
(p2)相关的认知任务在几百毫秒内发生。
(C)因此,对这些任务的算法分析只能在百步内完成。
Fp对这个论证的回应是:“从联结主义典型的讨论方式看,这个问题与传统的认知结构的充分性是无关的。比如,‘100步限制’明显指向的是实现层。这一规则只能排除这个(荒谬的)假设,即认为认知结构在人脑中的实现方式与它们在电子计算机上实现的方式完全一样”(1988:54-5)。但是,CCTM的支持者可能会说,如果硬件是产生因果关系的机制,而且被限制在几个毫秒内运行,那么两种心理状态对应着的两种物理状态之间的转换速度,不能比计算状态转换的速度快。因为用物理属性描述的神经系统是在几十微秒内传递信息,所以有因果关系的连续神经状态间的转换不能超过这个速度。因而,计算机内计算状态间的转换也不能超过这个速度,所以计算过程必须被限制在100个连续的步骤以内。因此,联结主义支持者认为,即使“100步限制”只是“实现问题”,也不能改变上述事实。
第二个反对联结主义的理由,涉及这个结论,“并行计算机网络的论证本身既不能用来反对传统结构,也不能支持联结主义结构”(1988:56)。这是因为“尽管在VAX(VAX(virtual address extension),即虚拟地址扩展的计算机体系。——译者注)上运行的大部分算法是序列的,但在实现层,这样的计算机还是存在着‘极大程度的并行’加工过程;事实上,整个电子装置几乎处处都同时进行着电子活动”(1988:55)。“传统结构绝没有在任何意义上,排除并行执行多重符号处理……见……hillis(1985)”(1988:55-6)。但是CCTM支持者可以作出两个回应。首先,VAX“极大程度的并行”与联结主义的并行所说的并不是同一件事。分布于VAX内的电子活动,与联结主义网络的激活扩散不同,因为分布的电子活动并不能直接获得语义解释而确定对象。其次,希利斯(hillis)的连接机器(连接机器(connection machine)是一种超并行计算机。——译者注)要远比联结主义机器复杂得多,其激活传递值分布在0,1之间。
2.对干扰和物理损坏的阻抗(实现层)
Fp开头这样说道:“单元的分布式联结,只有能够满足其表征也是神经元分布的,才能具有损坏阻抗(damage-resistance)的功能。然而,表征的神经元分布与经典结构的相容程度,与其与联结主义网络的相容程度是一样的。在经典结构中,将内容分布存储于物理空间内,所需的仅仅是存储寄存器。”(1988:52)联结主义与经典模型在损坏阻抗上,存在两个主要区别:首先,前面提到分布式表征有两个关键特征,而传统模型只具有第一个特征:
(DIST)
(i)R是分布式表征,当且仅当
R实现于多个单元;
(ii)参与实现R的单元,同时也能实现大量其他表征。
其次,经典结构通过自动复制(redundancy)而获得损坏阻抗,即在整个机器内存储多个复制的表征。但联结主义结构并不需要通过将多个复制的表征分散于整个网络而获得干扰和损坏阻抗。两者的不同之处体现在,分散在经典模型中的多个复制的表征,如果其中的一个受到了损坏就将其剔除,而不会影响系统存储的其他复制的表征。但在联结主义模型中,由于具有上述特征(DIST ii),如果储存信息某个片段的单元受到损坏,那么所有其他存储有关这个信息片段的单元也会受到损坏。
3.“软”约束,连续量值,或然机制与激活符号(非本质属性?)
Fp这样说道,“在经典的规则系统里,确定哪个规则需要激活,取决于经典模型的功能结构,且依赖于连续发生变化的量值(varying magnitudes)。事实上,这正是已实现了的‘专家系统’所做的,如在产生式系统的规则解释器中应用了贝叶斯原理。基于规则加工的‘软’或者或然(stochastic)特征,或者源于确定性规则与具体执行时的实际数值的相互作用,或者源于与噪音输入或信息干扰传递的相互作用”(1988:54)。这样的系统与联结主义系统的一个明显区别是,这些系统能够读取和遵循贝叶斯概率公式。但是读取和遵循贝叶斯概率公式,并不会使系统像使用连续发生变化的激活值和权值的联结主义系统那样,“依赖于连续发生变化的量值”。Fp还指出当下经典心理模型所面临的一个难题是,“功能衰减可能是由于它们整体上缺乏智能而导致的特例:在有限的方法都失效后,它们只是不具有足够的智慧知道接下来该做什么”(1988:54)。但是,这似乎并不是联结主义网络处理缺省输入的方式;使之功能衰减的结构特征,同样也必然能使系统获得自动修补并使之具有自动归纳功能。
4.规则的明晰性(非本质属性)
Fp评论道:“人们还可以通过指出联结主义结构不具备认知加工规则的明晰性而反对它,因为联结主义结构的定义,排除了各种逻辑-句法功能,而在经典结构中,这些逻辑-句法功能是用来对规则以及应用于规则的各种执行机制进行编码的”(1988:57)。我们还是不清楚,为什么联结主义模型的“定义”与规则的明晰性不相容。斯莫琳斯基(Smolensky,1988,第6部分)就提出了一种方法,使联结主义网络的规则明晰性并不比产生式系统差。
5.关于“脑-式样”模型(实现层)
Fp的下一个观点是:“我们有理由怀疑上述所列的各种属性(关于神经元和神经活动的生物事实),是否或多或少直接地反映在执行逻辑推理的系统结构中……这里强调的是,系统‘高层’结构与系统‘低层’结构不具有同构性,甚至也谈不上相似。对人脑结构的推断,总是以一种过于直接的方式被认知结构假设所采纳”(1988:58-60)。我们还不清楚Fp对于“脑-式样”模型的这些评论具有怎样的效力。但“脑-式样”模型的关键点就是,在其他条件相等的情况下,我们应该选择更符合于神经运行的那个理论,而不是别的。
Fp在论文结尾处写道:“许多支持联结主义的观点最好应该这样措词:认知结构在某种(抽象‘单元’的)工作网络中实现。只有以这种方式理解他们的那些观点,才能在认知结构是什么的问题上保持中立”(1988:60-1)。
对上述CCTM五类优点及回应的一般性评论
可以看到,传统结构通过使模型复杂化,而展现出上述1—5特征——它们并非从其内在结构中自然地突现出来。而且,Fp似乎并没有在回应中全部涉及CCTM起初的11种优点(尤其是2、4、6),而这些优点都与联结主义结构的并行分布特征相关。最后,CCTM似乎还有一些优点并未列出,比如,它能够进行自动归纳、原型提取、修复损伤,还具有能够进行迅捷再学习以及类似于人的学习等优点。麦克劳克林和沃菲尔德(McLaughlin and Warfield,1994)对CCTM在学习方面是否真的具有优势进行了讨论。他们考察了一些关于DCTM的学习类型的研究,并在速度和准确度方面与反向传递做了比较,最后得出结论:“现在还没有足够的证据证明,联结主义结构比传统结构在模拟模式识别功能和通过学习习得这些功能上,要更加出色”(1994:392)。
对实现层的一般性评论
Fp用“福多之叉”的第二个分叉反对CCTM的1、3、5、7—11优点(我们将这些称为“I类优点”),他们的这种策略很可能会适得其反。原因是,根据Fp的观点,人们对认知结构的分歧就等同于对表征层的加工状态的分歧,而表征层的加工状态是指有机体(对外界状态进行编码后)表征层的状态。心理解释针对的是表征状态。我们直觉上认为“I类优点”似乎非常符合人的心理特征,而Fp却要从实现层而不是从认知结构层对其进行解释,即他们认为,认知结构层并不属于认知理论的一部分。因此,我们可以对福多和派利夏恩的“福多之叉”进行改写:
经典结构的两难选择
这些特征,要么被证明不是真实的认知特征(需要论证),要么它们是认知特征,但无法得到认知(计算的和表征的)解释。
经典结构两者只能选其一,但无论选择哪一个,都不能令人感到满意。而联结主义却并不需要做这一选择,因为联结主义承认这些现象是认知的,并且能够获得认知解释。最后,我们也不能忘记,联结主义结构是“唯一的具有实现层”的理论,这是联结主义所做出的重要贡献,而这一点恰恰又是传统理论所亟需的。传统理论是一种没有对实现层进行解释的认知理论,没有提出认知如何确切地实现于脑——人脑的观点。就像一种关于生命如何产生和发展的生物学理论,却没有解释有机体如何就具有了生命。实现理论(implementation theory)对于传统理论并非是可有可无的奢侈品——没有实现理论的传统理论,只能是一种计算机或虚假的理论,而不是关于人类及其相关机能的理论。或者我们换个角度看这个问题:如果有人认为传统理论就像是化学,联结理论是传统理论的补充,那么,正如麦克劳克林巧妙回应的:“如果联结理论是传统理论的补充,那么联结理论就应该是量子力学,而传统理论只能是化学。如果有诺贝尔心理学奖,无疑应该授予对脑的联结网络如何实现了传统认知结构给出解释的那个人”(McLaughlin,1993:184)。