搜书网 本次搜索耗时 0.009 秒,为您找到 61 个相关结果.
  • 1.1 Spark是什么

    1.1 Spark是什么 1.1 Spark是什么 Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。 Spark于2009年诞生于加州大学伯克利分校AMPLab。目前,已经成为Apache软件基金会旗下的...
  • 1.2 Hadoop项目及其结构

    1.2 Hadoop项目及其结构 1.2 Hadoop项目及其结构 现在Hadoop已经发展成为包含很多项目的集合。虽然其核心内容是MapReduce和Hadoop分布式文件系统,但与Hadoop相关的Common、Avro、Chukwa、Hive、HBase等项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。图1-1是Hado...
  • 19.2 Hadoop在eBay的应用

    19.2 Hadoop在eBay的应用 19.2 Hadoop在eBay的应用 eBay是全球知名的个人和企业销售商品和提供服务的在线交易平台,是互联网上最受欢迎的购物网站之一。在eBay上存储着上亿种商品的信息,而且每天有数百万种的新商品增加,因此需要用云系统来存储和处理PB级别的数据,而Hadoop是个很好的选择。 Hadoop是建立在商业硬件...
  • 1.8 本章小结

    1.8 本章小结 1.8 本章小结 本章首先介绍了Hadoop分布式计算平台:它是由Apache软件基金会开发的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。由于Hadoop拥有可计量、成本低、高效、可...
  • 3.5.3 Hadoop工作流引擎

    3.5.3 Hadoop工作流引擎 3.5.3 Hadoop工作流引擎 前面介绍的JobControl和ChainMapper/ChainReducer仅可看作运行工作流的工具。它们只具备最简单的工作流引擎功能,比如工作流描述、简单的作业调度等。为了增强Hadoop支持工作流的能力,在Hadoop之上出现了很多开源的工作流引擎,主要可概括为两类:隐式...
  • 1.1.2 Hadoop的历史

    1.1.2 Hadoop的历史 1.1.2 Hadoop的历史 Hadoop的源头是Apache Nutch,该项目始于2002年,是Apache Lucene的子项目之一。2004年,Google在“操作系统设计与实现”(Operating System Design and Implementation, OSDI)会议上公开发表了题为MapRe...
  • 2.1 Spark的安装与部署

    2.1 Spark的安装与部署 2.1 Spark的安装与部署 Spark在生产环境中,主要部署在安装有Linux系统的集群中。在Linux系统中安装Spark需要预先安装JDK、Scala等所需的依赖。由于Spark是计算框架,所以需要预先在集群内有搭建好存储数据的持久化层,如HDFS、Hive、Cassandra等。最后用户就可以通过启动脚本运行...
  • 11.4.3 上层中间件访问Hadoop

    11.4.3 上层中间件访问Hadoop 11.4.3 上层中间件访问Hadoop Hadoop有很多上层中间件,比如Oozie、Hive等。它们通常采用“伪装成其他用户”的方式访问Hadoop。以Oozie为例,其安全访问Hadoop流程如图11-4所示。超级用户oozie向Oozie提交作业,并要求伪装成普通用户dong在Hadoop上运行,而O...
  • 3.2.1 RDD简介

    3.2.1 RDD简介 3.2.1 RDD简介 在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(resilient distributed dataset,RDD),它是逻辑集中的实体,在集群中的多台机器上进行了数据分区。通过对多台机器上不同RDD分区的控制,就能够减少机器之间的数据重排(data shuffling)。Spark提供...
  • 第8章 BDAS简介

    第8章 BDAS简介 第8章 BDAS简介 随着Spark中国峰会的举行,Spark工业界应用的大范围落地,Spark生态系统在国内发展势头强劲。前段时间Spark也正式升级为Apache顶级项目,证明Spark得到了更加广泛的认可。AMPLab的Spark团队创立了大数据公司Databricks,提供Spark的产品化支持,为后续Spark的产品化...