14.5　Zebra简介

Zebra是提供列式数据读写的路径访问库。它相当于用户应用程序和Hadoop分布式文件系统（HDFS）之间的抽象层。用户的数据可以通过Zebra的TableStore类加载到HDFS中。目前，Zebra提供了对Pig、MapReduce以及Streaming作业的支持，其关系如图14-3所示。

图　14-3　Zebra与相关工具的关系

Zebra的安装依赖于以下文件：

Pig，要求版本在0.7.0以上；

Hadoop，要求版本在0.20.2以上；

JDK，要求版本在1.6以上；

Ant，要求版本在1.7.1以上。

目前，在Pig-0.10.0版本中，已经集成了Zebra文件，位于$PIG_HOME/contrib/zebra目录下。另外，我们也可以使用svn从Pig版本库中直接下载：

svn co http：//svn.apache.org/viewvc/pig/trunk/contrib/zebra/

这样，用户可以在当前目录下发现下载完成的文件。

无论是在Pig-0.10.0安装包还是直接从SVN库中下载的Zebra，都是没有编译的源文件，我们需要自行编译。编译需要分为如下两个步骤，如下所示：

（1）编译Pig

cd$PIG_HOME

ant jar

该步骤首先进入Pig的根目录，然后运行ant命令进行编译。

注意　该步骤是为了生成Pig的JAR文件，一般直接下载的pig-0.10.0安装包里已经编译好，因此可以省略。但是从Pig的SVN库中下载的Pig源文件往往没有编译，故此需要该步骤。

（2）编译Zebra

cd./contrib/zebra

ant jar

当上述两步完成后，将会在$PIG_HOME/contrib/zebra目录下生成Zebra的jar文件。