3.6 本章小结

本章主要介绍了MapReduce的计算模型,其中的关键内容是一个流程和四个方法。一个流程指的是数据流程,输入数据到<k1,v1>、<k1,v1>到<k2,v2>、<k2,v2>到<k3,v3>、<k3,v3>到输出数据。四个方法就是这个数据转换过程中使用的方法(分别是InputFormat、Map、Reduce、OutputFormat),以及其对应的转换过程。除此之外,还介绍了MapReduce编程框架的几个优化方法,以及Hadoop流和Hadoop Pipes,后者是在Hadoop中使用脚本文件及C++编写MapReduce程序的方法。