19.4.3 即刻Hadoop应用分析

前面简单介绍了即刻搜索的框架和在即刻搜索中如何开发自己的MapReduce程序。可以看出,即刻搜索在应用Hadoop时直接应用了Hadoop系统,在搜索引擎的数据存储模块直接使用Hadoop的数据存储服务,在任务执行和处理模块时直接使用MapReduce并行框架。虽然是直接使用,但是并不简单。作为独立的系统,Hadoop在应用到某个系统中时,需要将Hadoop各个模块根据自己系统的实际需求进行封装。在分布式存储模块,根据海量数据存储的需求,即刻搜索在HDFS的输入上由HDFS_Bridge进行封装。通过此封装。HDFS能为即刻搜索的网络爬虫提供写缓存,保证其海量数据的写入速度。在MapReduce框架模块,即刻搜索根据并行任务执行的需求,对MapReduce中的Mapper和Reducer进行了封装,简化了程序员代码书写难度。

总体来说,即刻搜索在系统中根据自己的需求,封装了Hadoop中分布式文件系统和MapReduce并行框架的对外接口,提高了系统的处理效率和存储性能。