4.3 感知器
感知器第一次被描述的时候就带有能够产生感知的特征。它是第一个精确的、具体的、计算导向的神经网络,同时对很多领域都产生了巨大影响。
——安德森和罗森菲尔德(Anderson and Rosenfeld,1988: 89)
感知器的研究标志着联结主义在历史上出现了双重拐点,其一与当时“控制论”运动有关,其二与当时正在发展的数字计算运动有关。第一,感知器最初由弗兰克·罗森布拉特(Frank Rosenblatt)提出,他为含混不清的“控制论”运动增加了一些非常必要的原则。如他在早期著作中写道:“那些理论家……普遍缺乏精确的形式阐述,分析也不甚严谨,以至于常常难以看出他们所描述的系统能否在现实的神经网络中运行……与熟练网络布尔代数的分析者相比,缺乏一种可靠的分析语言已经成为一个最大的障碍。我们这个小组的贡献可以看作是提供一种应该探索和研究什么的建议”(1958:389)。第二,我们还将了解到,感知器随后受到明斯基和帕佩尔特(Minsky and papert,1969)的严格审查和摧毁式的批评,因此人们开始反对20世纪50年代“神经-逻辑”取向,而转向了60年代和70年代的数字计算取向。
罗森布拉特
信息和记忆以何种形式储存?储存库或者记忆中的信息如何影响认知和行为?……这里提出的理论,采用经验主义或者“联结主义”的立场对这些问题进行了回答。
——罗森布拉特(Rosenblatt,1958: 386-7)
在麦卡洛克和皮茨发表他们的研究成果大约10年后,弗兰克·罗森布拉特和他的工作小组研究了一种称为“感知器”的装置,被看作是一种“可变连接的麦卡洛克-皮茨网络”[11]。罗森布拉特最初提出感知器(一种“神经系统或者机器假说”,1958:386)的观念是为了反驳“感觉信息以编码表征的形式储存”的“数字计算机”的观点(1958:386)。罗森布拉特认为,“这个假说所具备的易明性和智能性是非常吸引人的”(同上),更重要的是它引出了“一种内容丰富的脑模型,相当于可以执行特殊运算法则的简易逻辑人工制造物”[12](同上)。罗森布拉特继续写道:“之前的所有模型在与生物系统相匹配的一些重要方面都不成功(缺乏等势性,缺少神经经济性,依赖于过多的具体连接和激活同步性,激活单元的充分刺激不可实践,假设变量或者功能特征没有已知的神经对应物等等)”(1958:388)。正如我们将看到的,这段话读起来颇像当代的“联结主义优点”。按照罗森布拉特所言,无论对计算机模型作怎样的调整都不能解决这些难题,“它们在原则上的区别已经显示得足够清楚”(同上)。所需要的是,“网络分析员们”做一种转变,这个转变能提供一种语言,“从对系统中事件所做的数学分析来看,系统的组织结构只能够被粗略描述,它的准确结构是未知的”(1958:387-8)。之后,罗森布拉特提出了他的感知器模型假设:
1.在神经系统中,涉及学习和再认的物理连接在不同的有机体中是不相同的。
2.细胞连接的起始系统具有一定程度的可塑性。
3.当大样本刺激呈现给神经系统时,那些“相似”的刺激(某种意义上需要精确的物理系统语言定义)会形成某种指向具有相同反应的细胞集通路;87那些明显“不相似”的刺激会形成指向具有不同反应的细胞集连接。
4.积极与/或消极的强化作用……能促进或者阻碍当前正在发展的任何连接形式。
5.因为相似的刺激具有激活相同细胞集的趋势,所以在系统中相似性可以在神经系统中的某种层次上得到表征。(1958:388-9)
这些假设大多数都被当代联结主义系统接受,尽管在“可塑性”和“连接形成”的功能解释上,当代联结主义者使用的是连接强度发生变化,而不是硬件发生演化的术语。
感知器结构
罗森布拉特(1958)提出了两种感知器结构,一种具有三个连接层和四个单元层,另一种具有两个连接层和三个单元层,他重点阐述了较为简单的后者。四层(单元)的感知器包括“视网膜”、A-I投射区、A-II联结区和一组反应集。第一层的连接是固定的,第二层和第三层的连接是随机的。
感知器具有五种基本结构规则(这里略作简化):
1.刺激映入视网膜,以全-或-无的方式进行反应。
2.88冲动传入(A-单元)细胞集A-I和A-II中(A-I单元细胞可忽略)。
传递冲动到特殊A-单元的视网膜点集称为A-单元的起始点,这些起始点要么兴奋,要么抑制。如果兴奋或者抑制冲动的总和等于或者大于阈值,那么A-单元以全-或-无的方式激活。[14]
3.投射区与联结区之间的连接随机。
4.反应单元的反应与A-单元的反应一致。图中箭头的指向表明,到A-II的传递为前馈式,但A-II与反应单元间的传递却是反馈式。一般而言,反馈要么使其发生源(source-set)兴奋,要么使之部分地受到抑制,感知器是典型的第二种类型。这样,系统的反应便是相斥的,因为如果反应-1发出反馈,则将抑制反应-2和发生源,反之亦然。
5.为了使感知器能够学习,需要在一组刺激在反应-1发生源比在反应-2发生源能够激发更强的冲动时,能够对A-单元或者它们的连接进行修正。
感知器Mark Ⅰ
如其他神经-逻辑模型一样,感知器可以通过在计算机上模拟或者实际建造进行研究。感知器Mark I就是一台现实机器,由康乃尔大学航空实验室建造。它的视网膜是一个20×20的光电管网栅,能够对呈现的不同图片进行分类。它们随机地(一个光电管最多可连接40个联结单元)连接到512个联结单元,之后再与8个输出1或者-1的二进制反应单元相连接。这台感知器Mark I能够以某种非常有趣的方式进行归纳,学会多种不同的分类方式(参见:Block,1962,包括参考文献)。
简单感知器的训练:“感知器收敛过程”
想象我们正在训练一个感知器区分男性(M)和女性(F)的图片。如果我们给它一张F的图片,它作出了F的反应,则A-单元和反应-单元间的连接权值不作变更。如果给它一张M的图片,它作出了M的反应,同样如此。但如果给它一张F,它以M反应,则更改A-单元和反应-单元间的激活连接权值(如果反应为-1则降低,如果+1则升高)。如果给它一张M,它的反应是F,重复上述过程(Block,1962:144)。
感知器收敛定理(简化):如果F和M的类别线性分离(见后文),那么必然存在一种简单感知器,只要给予足够训练,它就能够学会区分这些类别(Block,1962:145,定理9)。
评估和总结
罗森布拉特分析了很多不同感知器的行为,提出了一些我们非常感兴趣的结论:
1.在一个无差别、随机的环境中,感知器能够学会将一个特定反应与一个特定刺激联结在一起,但随着学习刺激数目的增加,90正确反应率减少,感知器不可能学会归纳。
2.在一个差异环境中,每一种反应都与一类显著相似的刺激相联结,正确反应率随着联结细胞数目的增加而提高,之前没有呈现的刺激被正确分类的概率随着具有相同模式的刺激数量增加而增加。
3.感知器的存储为分布式。在此意义上,系统中大部分细胞都可被每一种联结利用。除去系统的任意一部分,感知器的任何一种辨别或者联结效果并不会明显消失。但是,对比完整状态下的学习联结,感知器开始表现出某种整体性上的缺陷。(Rosenblatt,1962:405)
总结
我们从罗森布拉特的工作中,能够看到一些当代联结主义的重要议题:
1.批评数字计算取向脱离生物现实;
2.神经元的活动结构;
3.强调统计与逻辑方法;
4.强调再认和学习模式;
5.运用并行加工和分布式表征。
20世纪80年代早期,联结主义者发现了某些改进简单感知器局限的方法,对于(神经)网络的研究在当代也正处于繁盛时期——即使明斯基和帕佩尔特仍怀疑对于他们当初指出的感知器的局限能否进行小的修补就可以进行时下的研究(参见Minsky and papert,the Epilogue: The New Connectionim,to the 1988 edition of their 1969 book)。我们将在第11章介绍联结主义计算机器时回到这个问题的讨论。
4.4 线性分离与XOR:麦卡洛克-皮茨网络与感知器
XOR连接和它的否定形式表明,以类神经单元网络组织的(简单)感知器,在计算能力方面存在着一个简单而又重要的难题。
线性分离
想象一个单元有两个输入p和Q,以及一个阈值。如果输入的总和大于阈值,输出1,否则输出0。假定输入是其他单元的输出,那么输入也要么是1,要么是0。我们假定这个单元的阈值是这样的,如果p和Q都是0,则输出0,其他情况则都输出。
现在使每个输入线为一个“维度”,两个输入线也就是两个维度。OR-单元的所有可能输入可以由一个二维平面表示。我们把输入条件的开(1)或关(0),用x、y的真值函数标出,其中x轴是第一组输入值,y轴为第二组输入值。我们可以画出一条直线,将平面分割成关(0)和开(1)两部分。这说明,OR是线性分离的。16个基本的真值函数中有14个是线性分离的——只有XOR及其否定形式(见后文)不是。
XOR
二值函数中异或(XOR)结构和它的否定形式不是线性分离。XOR和它的否定形式的非线性分离。92XOR需要两条线才能划分开(1)和关(0)状态,这就表明XOR是非线性分离的。
线性分离的概念同样适用于多于两个输入单元(多于两个维度)的情形。例如,一个单元有三个输入线:p、Q和R。93如果对之作图,则需要一个三维空间,像一个立方体。但是一条线不可能把一个立方体分成开和关两个区域,这就需要一个平面才能做到。人类的空间直觉不能在空间上想象多于三个输入线的情形,但在形式上都是一样的,能够划分那样一个高维空间的面称为“超平面”。更精确地说,“超平面”的等式是:在这个空间中,突触权值与单个输入乘积的加和等于阈值的点集合。如果输入空间存在一个超平面,并且输入类别是线性分离的,那么原则上是可被学习的。
麦卡洛克-皮茨网络和XOR
麦卡洛克-皮茨单元能够计算两个输入的真值函数16个命题中的14个,两种不能计算的是异或命题(XOR)及其否定形式。然而,只要给两个输入的单元连接一个AND单元,就可以计算XOR(及其否定形式)了。当且仅当两个输入都为开(on)时,AND单元使系统关闭(off)。
感知器和XOR
前面提到,如罗森布拉特认为,感知器是带有一层可变连接的一种特殊M&p网络结构,且这种装置满足感知收敛定理(pCT)。既然M&p网络可以计算XOR,那么感知器能不能呢?确实有一些“感知器”网络可以计算。在这个网络中使用〈1,1,-2〉的连接权值,它可以通过训练过程使感知器学习吗?如果可以,那么这个例子是否可以说XOR是感知器通过训练过程不能学习非线性分离函数的反例呢?(如果不能,是否可以说XOR是感知器可以计算的函数,但却不能知道如何学会计算的例子?)
结果是肯定的,这个感知器能够学习〈1,1,-2〉,这就是一个通过感知训练过程能够学习的非线性分离函数的例子。使第一层连接权值保持不变,默认所有的连接权值一致都为1,即〈1,1,1,1〉。这些值不能通过感知器训练过程学习,当与可变连接层的权值组合时,它们不能保证通过训练过程能够学习。按照感知器收敛定理,如果一个函数是线性分离的,那么通过足够的训练,感知器必然能够学习它。我们现在看到了一个相反的情况:如果一组数据是非线性分离的,即使经过足够的训练过程,感知器并不必然最终能够学习它们。感知器可能会碰巧偶然地找到解决办法,如上面XOR的例子,但是并不必然如此。
而且,这个感知器尽管也许在连接不变层使用一组〈1,1,1,1〉的权值能够学习XOR,但是当第一层的权值要求不是〈1,1,1,1〉时,它就不能学习任何函数命题了。这是因为,当一个函数要求第一层出现其他的值,而非一致的都是1的时候,就不会被这个感知器表征,也不会通过训练过程学会。如果人为地参与改变权值,使得感知器在可变层能够学习正确的权值,这样也必然会出现一些感知器不能学习的其他函数(如XOR)。