D.1　程序场景

D.1　程序场景

问题定义：过滤无意义单词（a、an和the等）之后的文本词频统计。代码的具体做法：使用两个Map和一个Reduce，第一个Map使用无意义单词数组对输入流进行过滤，第二个Map将过滤后的单词加上出现一次的标签之后输出，最后一个过程是Reduce，对单词出现次数进行合计，并输出结果。需要注意的是ChainMapper和ChainReducer并不支持新的Mapper和Reducer API（代码中也有说明），所以这个程序中使用的API都是旧的API（在1.0.1上运行通过）。源代码的下载请到本书代码下载网址：http：//datasearch.ruc.edu.cn/HadoopInAction/shiyandaima.html。

D.1 程序场景

D.1 程序场景

D.1　程序场景

D.1　程序场景