如何阅读本书

从整体内容上讲,本书包括19章和4个附录。前10章、第18章、第19章和4个附录主要介绍了Hadoop背景知识、Hadoop集群安装和代码执行、MapReduce机制及编程知识、HDFS实现细节及管理知识、Hadoop应用。第11章至第17章结合最新版本详细介绍了与Hadoop相关的其他项目,分别为Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa,以备读者扩展知识面之用。

在阅读本书时,笔者建议大家先系统地学习Hadoop部分的理论知识(第1章、第3章、第6章至第10章),这样可对Hadoop的核心内容和实现机制有一个很好的理解。在此基础上,读者可进一步学习Hadoop部分的实践知识(第2章、第4章、第5章、第18章、第19章和4个附录),尝试搭建自己的Hadoop集群,编写并运行自己的MapReduce代码。对于本书中关于Hadoop相关项目的介绍,大家可以有选择地学习。在内容的编排上,各章的知识点是相对独立的,是并行的关系,因此大家可以有选择地进行学习。当然,如果时间允许,还是建议大家系统地学习全书的内容,这样能够对Hadoop系统的机制有一个完整而系统的理解,为今后深入地研究和实践Hadoop及云计算技术打下坚实的基础。

另外,笔者希望大家在学习本书时能一边阅读,一边根据书中的指导动手实践,亲自实践本书中所给出的编程范例。例如,先搭建一个自己的云平台,如果条件受限,可以选择伪分布的方式。