19.4.3　即刻Hadoop应用分析

19.4.3　即刻Hadoop应用分析

前面简单介绍了即刻搜索的框架和在即刻搜索中如何开发自己的MapReduce程序。可以看出，即刻搜索在应用Hadoop时直接应用了Hadoop系统，在搜索引擎的数据存储模块直接使用Hadoop的数据存储服务，在任务执行和处理模块时直接使用MapReduce并行框架。虽然是直接使用，但是并不简单。作为独立的系统，Hadoop在应用到某个系统中时，需要将Hadoop各个模块根据自己系统的实际需求进行封装。在分布式存储模块，根据海量数据存储的需求，即刻搜索在HDFS的输入上由HDFS_Bridge进行封装。通过此封装。HDFS能为即刻搜索的网络爬虫提供写缓存，保证其海量数据的写入速度。在MapReduce框架模块，即刻搜索根据并行任务执行的需求，对MapReduce中的Mapper和Reducer进行了封装，简化了程序员代码书写难度。

总体来说，即刻搜索在系统中根据自己的需求，封装了Hadoop中分布式文件系统和MapReduce并行框架的对外接口，提高了系统的处理效率和存储性能。

19.4.3 即刻Hadoop应用分析

19.4.3 即刻Hadoop应用分析

19.4.3　即刻Hadoop应用分析

19.4.3　即刻Hadoop应用分析