18.5 本章小结
本章介绍了使用Hadoop开发的四种常用插件,分别是Hadoop Studio、Hadoop Eclipse、Hadoop Streaming和Hadoop LibHdfs。Hadoop Studio是一个加快Hadoop开发进程的可视化开发环境。Hadoop Studio通过降低Hadoop的使用复杂度让用户在更少的步骤内完成更多的事情来提高生产率。用户可以通过Hadoop Studio强大的GUI,部署Hadoop任务,并监控Hadoop任务的实时信息。Studio的优点在于无论用户的开发经验有多少,它都能从设计、部署、调试和可视化四个方面简化用户的工作,提高工作效率。Hadoop Studio全面强大的功能使其使用范围甚广。
Hadoop Eclipse插件将Hadoop的开发环境图形化。在编译和安装插件、配置Hadoop的相关信息之后,如果用户创建Hadoop程序,插件会自动导入Hadoop编程接口的jar文件,这样,用户就可以在Eclipse的图形化界面中编写、调试、运行Hadoop程序(单机程序和分布式程序都可以)了,也可以在其中查看自己程序的实时状态、错误信息和运行结果了,还可以查看、管理HDFS和其他文件。总的来说,Hadoop Eclipse插件安装简单,使用方便,功能强大,尤其是在Hadoop编程方面,是Hadoop入门和Hadoop编程必不可少的工具。
Hadoop Streaming是Hadoop的一个工具,它帮助用户创建和运行一类特殊的MapReduce作业,这些特殊的MapReduce作业是由一些可执行文件或脚本文件充当Mapper或者Reducer。本章也举例说明了它的使用方法。
Libhdfs是一个基于C编程接口、为Hadoop的分布式文件系统开发的JNI(Java Native Interface),它提供了一个C语言接口以结合管理DFS文件和文件系统。它在${HADOOP_HOME}/libhdfs/libhdfs.so中预编译,是Hadoop分布式结构中的一部分。其丰富的API方便了用户对于HDFS和HDFS文件的管理。在这部分内容的最后给出了Libhdfs使用的具体例子,并给出了一些常见问题的解决办法。
本章详细介绍了Hadoop开发常用的四种插件,从安装步骤到使用方法,再到常见问题的解决方法,希望能帮助大家提高使用和开发Hadoop的效率。