D.1 程序场景
问题定义:过滤无意义单词(a、an和the等)之后的文本词频统计。代码的具体做法:使用两个Map和一个Reduce,第一个Map使用无意义单词数组对输入流进行过滤,第二个Map将过滤后的单词加上出现一次的标签之后输出,最后一个过程是Reduce,对单词出现次数进行合计,并输出结果。需要注意的是ChainMapper和ChainReducer并不支持新的Mapper和Reducer API(代码中也有说明),所以这个程序中使用的API都是旧的API(在1.0.1上运行通过)。源代码的下载请到本书代码下载网址:http://datasearch.ruc.edu.cn/HadoopInAction/shiyandaima.html。