1.5.2 Hadoop Shell介绍
在1.4节中曾提到,bin目录下的Hadoop脚本是最基础的集群管理脚本,用户可以通过该脚本完成各种功能,如HDFS文件管理、MapReduce作业管理等。该脚本的使用方法为:
hadoop[—config confdir]COMMAND
其中,—config用于设置Hadoop配置文件目录,默认目录为${HADOOP_HOME}/conf。而COMMAND是具体的某个命令,常用的有HDFS管理命令fs、作业管理命令job和作业提交命令jar等。它们的使用方法如下:
(1)HDFS管理命令fs和作业管理命令job
它们的用法一样,均为:
bin/hadoop command[genericOptions][commandOptions]
其中,command可以是fs或者job, genericOptions是一些通用选项,commandOptions是fs或者job附加的命令选项。看下面两个例子。
❑在HDFS上创建一个目录/test:
bin/hadoop fs-mkdir/test
❑显示Hadoop上正在运行的所有作业:
bin/hadoop job-list
(2)作业提交命令jar
这个命令的用法是:
hadoop jar<jar>[mainClass]args..
其中,<jar>表示jar包名;mainClass表示main class名称,可以不必输入而由jar命令自动搜索;args是main class输入参数。举例如下:
bin/hadoop jar hadoop-examples-1.0.0.jar wordcount/test/input/test/ouput
其中,wordcount是hadoop-examples-1.0.0.jar中一个作业名称。顾名思义,该作业用于统计输入文件中的每个单词出现的次数,它有两个输入参数:输入数据目录(/test/input)和输出数据目录(/test/output)。
至于其他更多命令,读者可自行查阅Hadoop官方设计文档。