C.1 程序场景

问题定义:过滤无意义单词(a、an和the等)之后的文本词频统计。代码的具体做法是:将事先定义的无意义单词保存成文件,保存到HDFS上,然后在程序中将这个文件定义成作业的缓存文件。在Map启动之后先读入缓存文件,然后统计过滤后单词的频数。源代码的下载请到本书代码下载网址:http://datasearch.ruc.edu.cn/HadoopInAction/shiyandaima.html。