2.2 跟Hadoop的区别

对于初学者,特别是学习过一些Hadoop知识的读者,可能阅读到这里会产生疑惑,本书描述的分布式核心技术跟Hadoop之间的到底有哪些区别。

在表2-1中,我们全面列举两者之间的区别,但是仅供参考,不是对Hadoop产品持否认态度,我们一贯尊重Hadoop作者和Hadoop的使用者。

2.2 跟Hadoop的区别 - 图1注意

该对比是在Fourinone-1.11.09版本,在2.0版以后的Fourinone打包部署提供了自动部署,并且增加了完整分布式文件操作功能。

表2-1 两个系统的比较

2.2 跟Hadoop的区别 - 图2

总结:Hadoop并不是为了追求一个并行计算的框架而设计,提供快捷和灵活的计算方式去服务各种计算场景,它更多的是一个分布式文件系统,提供文件数据的存储和查询,它的Map/Reduce更倾向于提供并行计算方式进行文件数据查询。

Fourinone和Hadoop运行Word Count的对比测试(平均4核4G配置,输入数据为文件)如表2-2所示。

表2-2 运行对比

2.2 跟Hadoop的区别 - 图3

N×4:Fourinone可以充分利用单机并行能力,4核计算机可以4个并行实例计算,Hadoop目前只能N×1;如果要完成20G的数据,实际上Fourinone只需要使用5台机器用60秒完成,比使用19台机器完成19G的Hadoop节省了14台机器,并提前了200多秒。