10.3 NETtalk - 2.5个重音以及音节边界点 - 《心智、大脑与计算机 : 认知科学创立史导论》

2.5个重音以及音节边界点
- 隐层单元

2.5个重音以及音节边界点

隐层单元

需要详细分析——将在本章最后部分讨论。

输入和输出表征可以分为两种方式：一种是定位式，另一种是分布式。如果每一个输入单元是定位的，那么输入层也就是定位式——每个输入单元表征字母表中的一个字母或者一个标点符号。同样，如果每个输出单元是定位的，那么输出层就为定位式——每个输出单元表征一个音节单位、音节分界线，或者重音程度。另一方面，如果输入层是关于单词的表征，那么输入层为分布式——表征一个单词需要不止一个输入单元，比表征一个字母需要的输入单元要多。同样，如果输出层是关于整个语音或者音位的表征，那么输出层也为分布式——因为一个单词发音（音位）的合成，通常要多于三个音节。因此，表征采用“定位式”还是“分布式”，与网络所要表征的内容相关。通常认为，当说网络属于“分布式”表征时，那么至少它的某些表征是分布式的；当说网络是“定位式”表征时，那么其所有的表征都必须是定位的。

动态特征

计算

1.输入单元激活值（“输入矢量”）乘以输入单元与隐层单元的联结权值，所得结果传递到隐层单元，作为隐层单元的激活值（“隐层矢量”）。

2.隐层单元激活值乘以与隐层单元与输出单元的联结权值，所得结果传递到输出单元，作为输出单元的激活值（“输出矢量”）。

编程

单元

1.系统以S形激活进行编程，与神经元的激活大致相似。

2.阈值可变（后文中将忽略阈值）。

联结

起始联结权值随机分配-0.5到+0.5之间的数值。

学习/训练步骤

1.每个单词呈现给网络后，系统采用“反馈传播”训练。这个过程简要概括如下：

i.对给定输入（单词）计算网络的输出结果。

ii.将之与目标输出进行比较，找出误差（目标值与实际输出值的差异）。

iii.误差反馈。网络把误差首先传递给隐层单元，再到输入单元。

iv.按某些确定的参数（学习率）调整联结权值以减少误差（差异）。

v.重复步骤i-iv，直至目标值和实际输出的偏差可接受。

2.呈现给网络的两种不同类型的材料：

i.包含1024个单词的连续文本，来自一年级儿童的非正规独白。

ii.1000个常见单词，出自《梅里亚姆-韦伯斯特袖珍词典》，以随机顺序呈现。

3.材料（文本或单词）按次序移动通过可同时容纳7个字母的“窗格”。连续文本包含的字母逐一向前移动，而词典单词则是整个儿地通过窗口。对于连续文本，读取字母的是中间的第四个窗格，其余六个窗格提供上下文——提供所需要的信息。

结果与分析

非正规连续文本运行结果

1.重音：重复5次i-iv步骤后，正确率为99%。

音位：重复50次后为95%。

网络最早能够区分的是元音和辅音。之后掌握的是单词边界，重复i-iv步骤10次后，就可理解网络的“谈话”了。

2.综合/总的输出正确率：对于439个单词的连续文本，正确率为78%。

3.缺损：网络随其缺损程度功能递减。

4.再学习：比最初学习要快很多。

词典单词运行结果

1.隐层单元包含0，15，30，60，120个单元，网络的运行结果随着单元数量的变化而变化。例如，当隐层单元为0时，其正确率为82%；当为120时，达到了98%。

2.综合/总的输出正确率：

（i）输入1000个单词时，包含120个隐层单元网络的正确率为98%。当有20012个单词时：

第一次循环，平均正确率为77%；

第一次循环结束时，正确率为85%；

5次循环后，正确率达到90%。

（ii）使网络具有双层隐单元层，每层包含80个单元：

第一次循环后，平均正确率为87%；

循环55次后，正确率达到97%。

总的来说，120个单元的单隐层NETtalk与每层包含80个单元的双隐层NETtalk，它们的运行结果相似。

3.隐层单元分析：在词典任务中，当隐层有80个单元，正确率达到95%时，可用其激活程度验测单词中的不同字母：

（i）对于每个输入，平均会有20%的单元（16个）激活，所以NETalk不完全是“定位式”，也不完全是“全息”的系统。

（ii）从层级聚类分析（hierarchical cluster analysis，hCA：相似的项目构成项目组，相似的项目组构成项目群，相似的项目群递级构成更高阶的项目群）中，可以看到元音和辅音的完全分离，以及它们的递阶子划分。将与hCA相同的程序用于三个工作网络，这三个工作网络起始于三种不同的随机状态。运行结果表明，即使它们的权值模式完全不同，也会得到相同的聚类层次，作者（Sejnowski and Rosenbery，1987：159）因此认为：“单元功能聚类”是这种网络的固有属性。

似乎表明，隐层单元能够学习识别元音和辅音（以及类似的更精细的划分类别）。但有人（Clark，1993，第4章）认为，网络并不能用hCA表征例如元音与辅音的读音类别，并不能因此认为它掌握了有关元音和辅音的概念。隐层单元的优点是使机器的表征指令不受限于程序员本人的有关刺激分类的想法，能更自由地提取出它所能找到的任何规律性。这就意味着一些隐层单元，用“人的”分类图式能给予清楚的解释，而另一些则不能。

注释

［1］这仅仅是网络总共68个单元中的一部分，且与原著并非完全一致。

［2］虽然在数字计算机上实现的网络模拟是离散的，但因片段足够小，仍可接近于模型想要达到的连续性。

［3］这张图错误地显示了Lance是单身，所以Lance是“典型的”Jet成员。但在完整的网络中，Lance为已婚。

【思考题】

Jets & Sharks（JS）

JS的结构称作什么？

JS的表征图式的种类称作什么？为什么？

JS具有的三个运行特征是什么？

JS激活传递原则是什么（使用日常语言表达）？

JS中的箭头表征什么？

怎样使单元间相互联系，使它们包含在相同的组内或者“组群“中？

JS如何输入？

JS如何输出？

JS怎样从输入计算输出？

NETtalk（NT）

NT的结构称作什么？

输入节点表示什么？

输入节点的连接表示什么？

输出节点表示什么？

输出节点的连接表示什么？

出于哪种考虑，可以说NT的输入和输出层同时是“定位”和“分布”的？

NT的隐单元层对于表征有什么新的发现——是怎样编码的？

NT怎样进行计算？

NT如何编程（忽略阈值）？

简述有关NT学习的基本观点。

NT的哪些运行特征与人类行为相似？

【推荐读物】

在McClelland and Rumelhart （1988）的影响下，“Jets and Sharks”已经被尝试用于家庭计算机中。Bechtel and Abrahamsen （1991）的第2章，以及Clark （1989）的第5.3节，包含了有关这一问题的进一步细节。有关NETtalk的讨论可在很多认知科学教材，以及Clark（1993）中找到。在Verschure （1992）中还有更进一步的阐释。