8.3.4　Combine过程分析

来源董西成浏览 24 扫码分享 2024-12-19 13:01:20

8.3.4　Combine过程分析

8.3.4　Combine过程分析

当所有数据处理完后，Map Task会将所有临时文件合并成一个大文件，并保存到文件output/file.out中，同时生成相应的索引文件output/file.out.index。

在进行文件合并过程中，Map Task以分区为单位进行合并。对于某个分区，它将采用多轮递归合并的方式：每轮合并io.sort.factor（默认为100）个文件，并将产生的文件重新加入待合并列表中，对文件排序后，重复以上过程，直到最终得到一个大文件。

让每个Map Task最终只生成一个数据文件，可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销^[1]。

[1]https://issues. apache.org/jira/browse/HADOOP-331

本文档使用 Sou.st 构建

展开/收起文章目录