17.7 本章小结

Chukwa作为Hadoop的子项目,既能帮助Hadoop处理其日志,也能利用MapReduce对日志进行分析处理。在Chukwa的帮助下,Hadoop用户能够清晰了解系统运行的状态,分析作业运行的状态及HDFS的文件存储状态,从而对整个分布式系统状态有形象直观的了解。

和Hadoop一样,Chukwa也是一个分布式系统,它虽然构建于Hadoop之上,但是本身也有自己的特点。它利用分布在各个节点上Agent进程中的Adaptor收集各个节点被监控的信息,然后以块的形式通过HTTP Post汇集到Collector,再由它处理后转储到HDFS中。之后这些数据由Archiving处理(去除重复数据和合并数据)提纯,再由Demux利用MapReduce将这些数据转换成结构化记录,并存储到数据库中,HICC通过调用数据库中的数据向用户展示可视化后的系统状态。

要想利用好Chukwa这个工具,就必须对Hadoop的各个配置项都有清晰的认识。同时Chukwa这个项目自身也在不断完善中,感兴趣的读者可以持续跟进。以下是其官网地址:http://incubator.apache.org/chukwa/。