11.3 中文分词

中文分词(Chinese Word Segmentation)是指将一个汉字序列切分成一个个单独的词,从而达到计算机可以自动识别的效果。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文文章中,单词之间是以空格作为分隔符的,而中文文章只在句子和段落处有明显的分隔符,词语之间没有一个形式上的分隔符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比英文要复杂得多、困难得多。