7.5 本章小结

本章主要介绍了Hadoop的I/O操作,主要有以下几个内容:数据完整性、压缩、序列化和基于文件的数据结构。数据完整性方面主要介绍了Hadoop是如何通过校验和机制保证数据完整性的;关于压缩介绍了目前Hadoop开发的几种压缩算法及它们的优缺点,其中压缩分割和输入分割是我们编写MapReduce程序时经常要用到的,要理解清楚;序列化主要介绍了Hadoop自己的序列化机制,它非常简单直接,并不像Java的序列化机制那样面面俱到,但这样可以使数据更加紧凑,同时也可以加快序列化和反序列化的速度;最后介绍了Hadoop自己定义的几类数据结构(也可以看成一类),它们都是非常常用的基于文件数据结构,MapReduce程序中Map程序生成的中间结果就是用这种基于文件的数据结构表示的,它也是本章中非常重要的一个内容。