1.1.2　Hadoop的历史

1.1.2　Hadoop的历史

Hadoop的源头是Apache Nutch，该项目始于2002年，是Apache Lucene的子项目之一。2004年，Google在“操作系统设计与实现”（Operating System Design and Implementation, OSDI）会议上公开发表了题为MapReduce：Simplifed Data Processing on Large Clusters（《MapReduce：简化大规模集群上的数据处理》）的论文之后，受到启发的Doug Cutting等人开始尝试实现MapReduce计算框架，并将它与NDFS（Nutch Distributed File System）结合，用以支持Nutch引擎的主要算法。由于NDFS和MapReduce在Nutch引擎中有着良好的应用，所以它们于2006年2月被分离出来，成为一套完整而独立的软件，并命名为Hadoop。到了2008年年初，Hadoop已成为Apache的顶级项目，包含众多子项目。它被应用到包括Yahoo！在内的很多互联网公司。现在的Hadoop1.0.1版本已经发展成为包含HDFS、MapReduce子项目，与Pig、ZooKeeper、Hive、HBase等项目相关的大型应用工程。

1.1.2 Hadoop的历史

1.1.2 Hadoop的历史

1.1.2　Hadoop的历史

1.1.2　Hadoop的历史