18.1 Hadoop Studio的介绍和使用
18.1.1 Hadoop Studio的介绍
Hadoop Studio是一个加快Hadoop开发进程的可视化开发环境。Hadoop Studio通过降低Hadoop的使用复杂度,让用户在更少的步骤内完成更多的事情以提高效率。Studio有专业版和大众版两个版本,大众版仅需要注册就可以获得,本章介绍的Studio都指大众版Studio。用户可以通过Hadoop Studio强大的GUI部署Hadoop任务,并监控Hadoop任务的实时信息。它主要有以下优点:
简化并加快了Hadoop任务模型建立、开发和调试的进程。
能够实时地定义、管理、可视化和监视作业、集群和文件系统等;能够查看任务的实时工作情况;能够让用户通过观察输入输出和中间结果的工作流程图来管理任务的执行时间。
具有很强的移植性,能够被部署在任何操作系统和任何版本的私有或公有Hadoop云系统上,且服务能通过代理服务器和防火墙而不受影响。
Hadoop Studio的优点决定了无论用户是只有极少MapReduce或Hadoop开发经验的Java程序员,还是熟练的并行程序开发者,它都能简化用户的工作,提高其工作效率。而这主要是从设计、部署、调试和可视化四个方面来实现的。
1)设计:由于Studio能够仿真Hadoop系统,所以用户初期建立MapReduce任务模型时就不需要真正的集群,这可以帮助用户迅速上手。
2)部署:无论用户使用的是私有网络内的集群还是公共网络上的集群,Studio都能简化用户任务的部署而且不受服务器和防火墙的影响。在Hadoop Studio环境下,用户只需要简单几步便可以启动计算任务:首先在Hadoop Jobs中添加生成好的JAR包,然后选择要执行的主类,添加依赖项,并选择执行任务的目标Cluster节点和目标Filesystems即可完成启动。
3)调试:MapReduce编程中最具挑战性的领域之一就是在集群上调试MapReduce任务。Studio提供了可视化工具和任务实时监控,并支持图表化Hadoop任务执行状态(包括作业类型、完成情况、执行状态、起止时间、报错信息、输出结果等)和查看任务计数器,这都使得调试MapReduce变得容易起来。
4)可视化:强大的图形用户界面能够使用户不用关注分布式平台的细节就可以编写程序、调试程序、管理集群和文件系统、配置任务信息和日志文件等,这都为用户节省了时间。同时图形界面还能让用户通过实时查看输入输出和中间结果的流程图等其他任务信息来管理任务的执行情况。
Hadoop Studio是一个强大的Hadoop插件,它具有众多优点,能够简化用户Hadoop开发过程,提高用户的效率。