16.1 Avro介绍
Avro作为Hadoop下相对独立的子项目,是一个数据序列化的系统。类似于其他序列化系统,Avro可以将数据结构或对象转化成便于存储或传输的格式,特别是在设计之初它可以用来支持数据密集型应用,适合于大规模数据的存储和交换。总之,Avro可以提供以下一些特性和功能:
丰富的数据结构类型;
快速可压缩的二进制数据形式;
存储持久数据的文件容器;
远程过程调用(RPC);
简单的动态语言结合功能。
Avro和动态语言结合后,读写数据文件和使用RPC协议都不需要生成代码了,而代码作为一种可选的优化只需要在静态类型语言中实现。
Avro依赖于模式(Schema)。Avro数据的读/写操作很频繁,而这些操作都需要使用模式,这样可减少写入每个数据资料的开销,使得序列化快速而又轻巧。这种数据及其模式的自我描述方便了动态脚本语言的使用。
当Avro数据存储到文件中时,它的模式也随之存储,这样任何程序都可以对文件进行处理。如果读取数据时使用的模式与写入数据时使用的模式不同,那也很容易解决,因为读取和写入的模式都是已知的。图16-1表示的是Avro的主要作用,它将用户定义的模式和具体的数据编码成二进制序列存储在对象容器文件中,假设用户定义了包含学号、姓名、院系和电话的学生模式,那么Avro对其进行编码后存储在student.db文件中,其中存储数据的模式放在文件头的元数据中,这样即使读取的模式与写入的模式不同,也可以迅速地读出数据,如果另一个程序需要获取学生的姓名和电话,只需定义包含姓名和电话的学生模式,然后用此模式去读取容器文件中的数据即可。
图 16-1 Avro的主要作用
当在RPC中使用Avro时,服务器和客户端可以在握手连接时交换模式。服务器和客户端有彼此全部的模式,因此含有相同命名字段、缺失字段和多余字段等信息之间通信时,需要处理的一致性问题就可以容易地解决。如图16-2所示,协议中定义了用于传输的消息,消息使用框架后放入缓冲区中进行传输,由于传输的初始就交换了各自的协议定义,即使传输双方使用的协议不同,所传输的数据也能够正确解析,具体过程将在后面介绍。
图 16-2 RPC使用Avro
Avro模式是用JSON(一种轻量级的数据交换模式)定义的,这样对于已经拥有JSON库的语言来说就可以容易地实现。
Avro提供与诸如Thrift和Protocol Buffers等系统相似的功能,但是在一些基础方面还是有区别的,主要表现在以下几个方面:
动态类型:Avro并不需要与生成代码、模式和数据存放在一起,而整个数据的处理过程并不生成代码、静态数据类型等。这方便了数据处理系统和语言的构造。
未标记的数据:因为读取数据的时候模式是已知的,所以需要和数据一起编码的类型信息就很少了,这样序列化的规模也就小了。
不需要用户指定字段号:即使模式发生了改变,但是新旧模式都是已知的,所以处理数据时可以通过使用字段名称来解决差异问题。
下面详细介绍模式的声明和Avro的具体使用。