14.5 Zebra简介

Zebra是提供列式数据读写的路径访问库。它相当于用户应用程序和Hadoop分布式文件系统(HDFS)之间的抽象层。用户的数据可以通过Zebra的TableStore类加载到HDFS中。目前,Zebra提供了对Pig、MapReduce以及Streaming作业的支持,其关系如图14-3所示。

14.5 Zebra简介 - 图1

图 14-3 Zebra与相关工具的关系

14.5.1 Zebra的安装

Zebra的安装依赖于以下文件:

Pig,要求版本在0.7.0以上;

Hadoop,要求版本在0.20.2以上;

JDK,要求版本在1.6以上;

Ant,要求版本在1.7.1以上。

目前,在Pig-0.10.0版本中,已经集成了Zebra文件,位于$PIG_HOME/contrib/zebra目录下。另外,我们也可以使用svn从Pig版本库中直接下载:


svn co http://svn.apache.org/viewvc/pig/trunk/contrib/zebra/


这样,用户可以在当前目录下发现下载完成的文件。

无论是在Pig-0.10.0安装包还是直接从SVN库中下载的Zebra,都是没有编译的源文件,我们需要自行编译。编译需要分为如下两个步骤,如下所示:

(1)编译Pig


cd$PIG_HOME

ant jar


该步骤首先进入Pig的根目录,然后运行ant命令进行编译。

注意 该步骤是为了生成Pig的JAR文件,一般直接下载的pig-0.10.0安装包里已经编译好,因此可以省略。但是从Pig的SVN库中下载的Pig源文件往往没有编译,故此需要该步骤。

(2)编译Zebra


cd./contrib/zebra

ant jar


当上述两步完成后,将会在$PIG_HOME/contrib/zebra目录下生成Zebra的jar文件。