11.3.1 中文分词方法

现有的中文分词方法可以分为3类:基于词典的分词方法、基于统计的分词方法和基于规则的分词算法,目前还无法证明哪一种方法更准确,每种方法都有利有弊。

1.基于词典的分词方法

基于词典的分词方法通常也被称作基于字符串匹配的分词方法或机械分词方法,它是按照一定的策略将待分词的文本与一个“充分大的”词典进行匹配,如果在词典中找到某个字符串,则匹配成功(识别出一个词)。对于这种方法,词典越大(包含的词越多),分词的准确率就越高,因为词典越大,未登录的词就越少,从而可以大大减少未登录词识别的错误。

按照扫描方向的不同,基于词典的分词方法可以分为正向匹配和逆向匹配;按照长度的不同,可以分为最大匹配和最小匹配。常用的几种词典分词方法如下。

1)正向最大匹配法:通常简称为MM法(Maximum Matching),它是指从左向右取待切分文本的m个字符(m为词典中最长词语的字数)作为匹配串,查找词典并进行匹配,若匹配成功,则将这个匹配串作为一个词切分出来;若匹配不成功,则将这个匹配串的最后一个字去掉,剩下的字符串作为新的匹配串,进行再次匹配。重复以上过程,直到切分出所有词为止。

2)逆向最大匹配法:通常简称为RMM法,该算法是正向最大匹配的逆向思维,若匹配不成功,则将匹配串的第一个字去掉。

3)最少切分法:该算法的核心思想是使每个句子中切出的词语最少。

4)双向最大匹配法:双向最大匹配法是将正向最大匹配法得到的分词结果与逆向最大匹配法得到的结果进行比较,从而决定正确的分词方法。

2.基于统计的分词方法

基于统计的分词方法的基本思想是:从形式上看,词是稳定的字的组合,因此在文档中,相邻的字按顺序同时出现的次数越多,就越有可能构成一个词。因此,字与字相邻共现的频率或概率能够较好地反映它们成为词的可信度。

基于统计的分词方法所使用的统计模型主要包括互信息、N元文法模型、神经网络模型、隐马尔科夫模型(HMM)和最大熵模型等,这些统计模型主要根据字与字的联合出现概率作为分词的信息。

3.基于规则的分词方法

基于规则的分词方法又称为基于语义的分词方法,这是一种理想的分词方法,通过模拟人对句子的理解,从而达到词语识别的效果。基本思想是语义分析和句法分析,利用语义信息和句法信息对文本进行分词。

基于规则的分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统仍处在试验阶段。