1.6.2 调试Hadoop源代码

本小节介绍两种调试方式:利用Eclipse远程调试和打印调试日志。这两种方式均可以调试伪分布式工作模式和完全分布式工作模式下的Hadoop。本小节主要介绍伪分布式工作模式下的Hadoop调试方法。

1.利用Eclipse进行远程调试

下面以调试JobTracker为例,介绍利用Eclipse进行远程调试的基本方法。调试过程可分三步进行:

步骤1 调试模式下启动Hadoop。

在Hadoop安装目录下运行内容如下的Shell脚本:


export HADOOP_JOBTRACKER_OPTS="-Xdebug-Xrunjdwp:transport=dt_socket, address=878 8,server=y, suspend=y"

bin/start-all.sh


如果脚本运行成功,则可以看到Shell命令行终端显示如下信息:


Listening for transport dt_socket at address:8788


此时表明JobTracker处于监听状态。JobTracker将一直处于监听状态,直到收到debug确认信息。

步骤2 设置断点。

在前面新建的Java工程“hadoop-1.0.0”中,找到JobTracker相关代码,并在感兴趣的地方设置一些断点。

步骤3 在Eclipse中调试Hadoop程序。

在Eclipse的菜单栏中,依次单击“Run”→“Debug Configurations”→“Remote Java Applications”,打开图1-19所示的对话框,按图中的提示填写名称、JobTracker所在的host以及监听端口,并选择Hadoop源代码工程,进入图1-20所示的调试模式。

1.6.2 调试Hadoop源代码 - 图1

图 1-19 在Eclipse中配置远程调试器

1.6.2 调试Hadoop源代码 - 图2

图 1-20 Eclipse中显示的Hadoop调试窗口

调试过程中,JobTracker输出的信息被存储到日志文件夹下的hadoop-XXX-jobtracker-localhost.log文件(XXX为当前用户名)中,可通过以下命令查看调试过程中打印的日志:


tail-f logs/hadoop-XXX-jobtracker-localhost.log


2.打印Hadoop调试日志

Hadoop使用了Apache log4j[1]作为基础日志库。该日志库将日志分为5个级别,分别为DEBUG、INFO、WARN、ERROR和FATAL。这5个级别对应的日志信息重要程度不同,它们的重要程度由低到高依次为DEBUG<INFO<WARN<ERROR<FATAL。日志输出规则为:只输出级别不低于设定级别的日志信息。比如,级别设定为INFO,则INFO、WARN、ERROR和FATAL级别的日志信息都会被输出,但级别比INFO低的DEBUG则不会被输出。

在Hadoop源代码中,大部分Java文件中存在调试日志(DEBUG级别日志),但默认情况下,日志级别是INFO。为了查看更详细的运行状态,可采用以下几种方法打开DEBUG日志。

(1)使用Hadoop Shell命令

可使用Hadoop脚本中的daemonlog命令查看和修改某个类的日志级别,比如,可通过以下命令查看TaskTracker类的日志级别:


bin/hadoop daemonlog-getlevel${tasktracker-host}:50075\

org.apache.hadoop.mapred.TaskTracker


可通过以下命令将JobTracker类的日志级别修改为DEBUG:


bin/hadoop daemonlog-setlevel${tasktracker-host}:50075\

org.apache.hadoop.mapred.TaskTracker DEBUG


其中,tasktracker-host为TaskTracker的host,50075是TaskTracker的HTTP端口号(其他服务的HTTP端口号可参考附录B)。

(2)通过Web界面

用户可以通过Web界面查看和修改某个类的日志级别,比如,可通过以下URL修改TaskTracker类的日志级别:


http://${tasktracker-host}:50075/logLevel


(3)修改log4j.properties文件

以上两种方法只能暂时修改日志级别。当Hadoop重启后会被重置,如果要永久性改变日志级别,可在目标节点配置目录下的log4j.properties文件中添加以下配置选项:


log4j.logger.org.apache.hadoop.mapred.TaskTracker=DEBUG


此外,有时为了专门调试某个Java文件,需要把该文件的相关日志输出到一个单独文件中,可在log4j.properties中添加以下内容:


定义输出方式为自定义的TTOUT

log4j.logger.org.apache.hadoop.mapred.TaskTracker=DEBUG, TTOUT

设置TTOUT的输出方式为输出到文件

log4j.appender.TTOUT=org.apache.log4j.FileAppender

设置文件路径

log4j.appender.TTOUT.File=${hadoop.log.dir}/TaskTracker.log

设置文件的布局

log4j.appender.TTOUT.layout=org.apache.log4j.PatternLayout

设置文件的格式

log4j.appender.TTOUT.layout.ConversionPattern=%d{ISO8601}%p%c:%m%n


这些配置选项会把TaskTracker.java中的DEBUG日志写到日志目录下的TaskTracker.log文件中。

在阅读源代码的过程中,为了跟踪某个变量值的变化,读者可能需要自己添加一些DEBUG日志。在Hadoop源代码中,大部分类会定义一个日志打印对象。通过该对象,可打印各个级别的日志。比如,在JobTracker中由以下代码定义对象LOG:


public static final Log LOG=LogFactory.getLog(JobTracker.class);


用户可使用LOG对象打印调试日志,比如,可在JobTracker的main函数首行添加以下代码:


LOG.debug("Start to lauch JobTracker……");


然后重新编译Hadoop源代码,并将org.apache.hadoop.mapred.JobTracker的调试级别修改为DEBUG,重新启动Hadoop后便可以看到该调试信息。

[1]Apache log4j网址:http://logging.apache.org/log4j/index.html