4.2 配置开发环境

首先下载准备使用的Hadoop版本,然后将其解压到用于开发的主机上(详细过程见附录B)。接下来,在集成开发环境中创建一个新的工程,然后将解压后的文件夹根目录下的JAR文件和lib目录之下的JAR文件加入到classpath中。之后就可以编译Hadoop程序,并且可以在集成开发环境中以本地模式运行。

Hadoop有三种不同的运行方式:单机模式、伪分布模式、完全分布模式。三种不同的运行方式各有各的好处与不足之处:单机模式的安装与配置比较简单,运行在本地文件系统上,便于程序的调试,可及时查看程序运行的效果,但是当数据量比较大时运行的速度会比较慢,并且没有体现出Hadoop分布式的优点;伪分布模式同样是在本地文件系统上运行,与单机模式的不同之处在于它运行的文件系统为HDFS,这种模式的好处是能够模仿完全分布模式,看到一些分布式处理的效果;完全分布模式则运行在多台机器的HDFS之上,完完全全地体现出了分布式的优点,但是在调试程序方面会比较麻烦。

在实际运用中,可以结合这三种不同模式的优点,比如,编写和调试程序在单机模式和伪分布模式上进行,而实际处理大数据则在完全分布模式下进行。这样就会涉及三种不同模式的配置与管理,相关配置和管理会在相应的章节重点讲解。