第5章 MapReduce应用案例

本章内容

单词计数

数据去重

排序

单表关联

多表关联

本章小结

前面已经介绍了很多关于MapReduce的基础知识,比如Hadoop集群的配置方法,以及如何开发MapReduce应用程序等。本章将从本书配套的云计算在线监测平台(http://cloudcomputing.ruc.edu.cn/)上的MapReduce编程题目出发,向大家介绍如何挖掘实际问题的并行处理可能性,以及如何设计编写MapReduce程序。需要说明的是,本章所有给出的代码均使用Hadoop最新的API编写、在伪分布集群的默认设置下运行通过,其Hadoop版本为1.0.1,JDK的版本是1.7。本章旨在帮助刚接触MapReduce的读者入门。