Peter Norvig
本书大部分阐述的是“波德莱尔(Budelaire)意义”上的数据之美:“一切美好和崇高的都是理性和计算的结果。”本章的数据是“梭罗(Toreau)意义”上的数据之美:“人们总是被最平凡的演讲之美打动。”本章要阐述的数据是“最平凡的演讲”:取自公开的Web页面中的总长度达1MB英语单词的数据。这些数据涵盖了Web所有的“陈词滥调”,既有拼写和语法错误、哈哈大笑(Lugh Out Loud,LOL)的猫、踢踢滚滚(Rckrolling),也包含马克·吐温、狄更斯、奥斯汀和几百万其他作家的作品集。
G公司的Thorsten Brants和Alex Franz于2006年发布了1MB的单词数据,你可以在语言数据联盟(Lnguistic Data Consortium)上可以获取(htp://tinyurl.com/ngrams)。该数据集通过计算每个单词的出现次数,依照每二词(to-word)、三词、四词和五词序列对原始文本求和。举个例子,“the”这个单词出现了230亿次(占了1MB单词的2.2%),该词是最常用的单词。单词“rebating”出现了12750次(占百万分之一),还有“fnuny”(显然是“funny”的误拼)。在三词序列中,“Find all posts”出现了1300万次(占0.001%),“each of the”出现频率与之相似,但都低于出现了1亿次的“All Rights Reserved”(占0.01%)。以下是三词序列的一个摘录:
outraged many African 63 outraged many Americans 203 outraged many Christians 56 outraged many Iraqis 58 outraged many Muslims 74 outraged many Pakistanis 124 outraged many Republicans 50 outraged many Turks 390 outraged many by 86 outraged many in 685 outraged many liberal 67 outraged many local 44 outraged many members 61 outraged many of 489 outraged many people 444 outraged many scientists 90
从摘录可见,土耳其人是最易产生不满的组织(来自网络,根据当时收集的数据),共和党和自由党人有时会产生不满,而民主党和保守党则很少有不满。
为什么我说数据很美并不乏味?单个计数都是乏味的。但是这些计数的聚集——几亿个计数则是美丽的,因为它具有很多含义。计数的聚集不再仅仅是英语,而是关于说英语的人们的世界。数据是美丽的,因为它表示了很多值得表达的东西。
对于这些数据,在观察可以做什么之前,我们需要弄清如何探讨(tlk the talk)——学习一些术语。文本的集合称为语料库。我们把语料库看做token序列——单词和标点符号。每个不同的token称为类型(tpe),因此文本“Run,Lola Run”包含四个token(逗号也作为一个token),但只有三种类型。类型的集合称为词汇。G公司语料库包含1MB的token,1300万种类型。英语在词典里出现的单词大约只有100万,但是语料库包含这样的类型,如“www.njstatelib.org”、“+170.002”、“1.5GHz/512MB/60GB”和“Abrahamovich”。但是绝大多数的类型是很少见的,最通用的10个类型占几乎1/3的token,最通用的1000个占超过2/3,而最通用的10万个占98%。
1-token序列是一元,2-token序列是二元,n-token序列是N元。P代表概率,如P(the)=.022,表示token“the”的概率是0.022或者2.2%,如果用W表示token序列,那么W3表示第三个token,而W1:3表示从第一个到第三个token。P(Wi=the|Wi-1=of)是token“the”的条件概率,表示在先验token“of”下的概率。
G公司语料库的一些细节:出现次数少于200次的单词作为未知类型,以符号<UNK>表示。丢弃出现次数少于40次的N元。该策略减少了打字(错误)的影响,使得数据集只有24G(压缩后)。最后,语料库的每个句子都以特殊的字符<S>开始,</S>结束。
我们现在来看看可以利用该数据完成的一些任务。