1.1.3 Hadoop的功能与作用

我们为什么需要Hadoop呢?众所周知,现代社会的信息增长速度很快,这些信息中又积累着大量数据,其中包括个人数据和工业数据。预计到2020年,每年产生的数字信息中将会有超过1/3的内容驻留在云平台中或借助云平台处理。我们需要对这些数据进行分析处理,以获取更多有价值的信息。那么我们如何高效地存储管理这些数据、如何分析这些数据呢?这时可以选用Hadoop系统。在处理这类问题时,它采用分布式存储方式来提高读写速度和扩大存储容量;采用MapReduce整合分布式文件系统上的数据,保证高速分析处理数据;与此同时还采用存储冗余数据来保证数据的安全性。

Hadoop中的HDFS具有高容错性,并且是基于Java语言开发的,这使得Hadoop可以部署在低廉的计算机集群中,同时不限于某个操作系统。Hadoop中HDFS的数据管理能力、MapReduce处理任务时的高效率以及它的开源特性,使其在同类分布式系统中大放异彩,并在众多行业和科研领域中被广泛应用。