第5章 MapReduce应用案例
本章内容
单词计数
数据去重
排序
单表关联
多表关联
本章小结
前面已经介绍了很多关于MapReduce的基础知识,比如Hadoop集群的配置方法,以及如何开发MapReduce应用程序等。本章将从本书配套的云计算在线监测平台(http://cloudcomputing.ruc.edu.cn/)上的MapReduce编程题目出发,向大家介绍如何挖掘实际问题的并行处理可能性,以及如何设计编写MapReduce程序。需要说明的是,本章所有给出的代码均使用Hadoop最新的API编写、在伪分布集群的默认设置下运行通过,其Hadoop版本为1.0.1,JDK的版本是1.7。本章旨在帮助刚接触MapReduce的读者入门。