1.2 获取Hadoop源代码

当前比较流行的Hadoop源代码版本有两个:Apache Hadoop和Cloudera Distributed Hadoop(CDH)。Apache Hadoop是由Yahoo!、Cloudera、Facebook等公司组成的Hadoop社区共同研发的,它属于最原始的开源版本。在该版本的基础上,很多公司进行了封装和优化,推出了自己的开源版本,其中,最有名的一个是Cloudera公司发布的CDH版本。

考虑到Apache Hadoop是最原始的版本,且使用最为广泛,因而本书选用了Apache Hadoop版本为分析对象。自从Apache Hadoop发布以来,已经陆续推出很多版本(具体介绍见2.1.3节)。其中,最具有标志性的版本是1.0.0,而该书正是基于该版本对Hadoop MapReduce进行深入分析的。Hadoop 1.0.0可从http://hadoop.apache.org/common/releases.html或http://svn.apache.org/repos/asf/hadoop/common/branches/branch-1.01处下载。