7.2.2 压缩分割和输入分割

压缩分割和输入分割是很重要的内容,比如,如果需要处理经Gzip压缩后的5GB大小的文件,按前面介绍过的分割方式,Hadoop会将其分割为80块(每块64MB,这是默认值,可以根据需要修改)。但是这是没有意义的,因为在这种情况下,Hadoop不会分割存储Gzip压缩的文件,程序无法分开读取每块的内容,那么也就无法创建多个Map程序分别来处理每块内容。

而bzip2的情况就不一样了,它支持文件分割,用户可以分开读取每块内容并分别处理之,因此bzip2压缩的文件可分割存储。