1.6.3　Hive的数据管理

1.6.3　Hive的数据管理

Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL的查询语言，称为Hive QL，它允许熟悉SQL的用户用SQL语言查询数据。作为一个数据仓库，Hive的数据管理按照使用层次可以从元数据存储、数据存储和数据交换三方面来介绍。

（1）元数据存储

Hive将元数据存储在RDBMS中，有三种模式可以连接到数据库：

Single User Mode：此模式连接到一个In-memory的数据库Derby，一般用于Unit Test。

Multi User Mode：通过网络连接到一个数据库中，这是最常用的模式。

Remote Server Mode：用于非Java客户端访问元数据库，在服务器端启动一个。

MetaStoreServer，客户端利用Thrift协议通过MetaStoreServer来访问元数据库。

（2）数据存储

首先，Hive没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由地组织Hive中的表，只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符，它就可以解析数据了。

其次，Hive中所有的数据都存储在HDFS中，Hive中包含4种数据模型：Table、External Table、Partition和Bucket。

Hive中的Table和数据库中的Table在概念上是类似的，每一个Table在Hive中都有一个相应的目录来存储数据。例如，一个表pvs，它在HDFS中的路径为：/wh/pvs，其中，wh是在hive-site.xml中由${hive.metastore.warehouse.dir}指定的数据仓库的目录，所有的Table数据（不包括External Table）都保存在这个目录中。

（3）数据交换

数据交换主要分为以下几部分，如图1-5所示。

用户接口：包括客户端、Web界面和数据库接口。

元数据存储：通常存储在关系数据库中，如MySQL、Derby等。

解释器、编译器、优化器、执行器。

Hadoop：利用HDFS进行存储，利用MapReduce进行计算。

用户接口主要有三个：客户端、数据库接口和Web界面，其中最常用的是客户端。Client是Hive的客户端，当启动Client模式时，用户会想要连接Hive Server，这时需要指出Hive Server所在的节点，并且在该节点启动HiveServer。Web界面是通过浏览器访问Hive的。

Hive将元数据存储在数据库中，如MySQL、Derby中。Hive中的元数据包括表的名字、表的列、表的分区、表分区的属性、表的属性（是否为外部表等）、表的数据所在目录等。

解释器、编译器、优化器完成Hive QL查询语句从词法分析、语法分析、编译、优化到查询计划的生成。生成的查询计划存储在HDFS中，并且随后由MapReduce调用执行。

Hive的数据存储在HDFS中，大部分的查询由MapReduce完成（包含的查询不会生成MapRedcue任务，比如selectfrom tbl）。

以上从Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive入手介绍了Hadoop的数据管理，它们都通过自己的数据定义、体系结构实现了数据从宏观到微观的立体化管理，完成了Hadoop平台上大规模的数据存储和任务处理。

图　1-5　Hive数据交换图

1.6.3 Hive的数据管理