搜书网 本次搜索耗时 0.008 秒,为您找到 346 个相关结果.
  • 2.5 Hadoop MapReduce作业的生命周期

    2.5 Hadoop MapReduce作业的生命周期 2.5 Hadoop MapReduce作业的生命周期 由于本书以“作业生命周期”为线索对Hadoop MapReduce架构设计和实现原理进行解析,因而在深入剖析各个MapReduce实现细节之前整体了解一个作业的生命周期显得非常重要。为此,本节主要讲解Hadoop MapReduce作业的生...
  • 3.5.3 Hadoop工作流引擎

    3.5.3 Hadoop工作流引擎 3.5.3 Hadoop工作流引擎 前面介绍的JobControl和ChainMapper/ChainReducer仅可看作运行工作流的工具。它们只具备最简单的工作流引擎功能,比如工作流描述、简单的作业调度等。为了增强Hadoop支持工作流的能力,在Hadoop之上出现了很多开源的工作流引擎,主要可概括为两类:隐式...
  • 17.5 Chukwa数据流的处理

    17.5 Chukwa数据流的处理 17.5 Chukwa数据流的处理 原始日志收集和聚集的流程是基于Chukwa分布式文件系统(DFS)的。Chukwa文件在HDFS中的存储结构如图17-9所示。 图 17-9 Chukwa分布式文件系统(DFS)的结构 下面介绍Chukwa文件在HDFS中的存储流程。 1)Collector将...
  • 1.3 Hadoop体系结构

    1.3 Hadoop体系结构 1.3 Hadoop体系结构 如上文所说,HDFS和MapReduce是Hadoop的两大核心。而整个Hadoop的体系结构主要是通过HDFS来实现分布式存储的底层支持的,并且它会通过MapReduce来实现分布式并行任务处理的程序支持。 下面首先介绍HDFS的体系结构。HDFS采用了主从(Master/Slave)结...
  • 如何阅读本书

    如何阅读本书 如何阅读本书 本书分为四大部分(不包括附录): 第一部分为基础篇,简单地介绍Hadoop的阅读环境搭建和基本设计架构,帮助读者了解一些基础背景知识。 第二部分为MapReduce编程模型篇,着重讲解MapReduce编程接口,主要包括两套编程接口,分别是旧API和新API。 第三部分为MapReduce核心设计篇,主要讲解Hado...
  • 12.3.4 MapReduce与YARN结合

    12.3.4 MapReduce与YARN结合 12.3.4 MapReduce与YARN结合 如果用户想要让一个新的计算框架运行在YARN上,需要将该框架重新封装成一个ApplicationMaster,而ApplicationMaster将作为用户应用程序的一部分被提交到YARN中。换句话说,YARN中的所有计算框架实际上只是客户端的一个库,因此...
  • 8.2 MapReduce V2主要思想和架构

    8.2 MapReduce V2主要思想和架构 8.2 MapReduce V2主要思想和架构 鉴于MapReduce V2的设计需求和MapReduce V1中凸显的问题,特别是JobTracker单点瓶颈问题(此问题影响着Hadoop集群的可靠性、可用性和扩展性),MapReduce V2的主要设计思路是将JobTracker承担的两大块任务—集...
  • 3.2 MapReduce API基本概念

    3.2 MapReduce API基本概念 3.2.1 序列化 3.2 MapReduce API基本概念 在正式分析新旧API之前,先要介绍几个基本概念。这些概念贯穿于所有API之中,因此,有必要单独讲解。 3.2.1 序列化 序列化是指将结构化对象转为字节流以便于通过网络进行传输或写入持久存储的过程。反序列化指的是将字节流转为结构化对象的...
  • 1.2 Hadoop项目及其结构

    1.2 Hadoop项目及其结构 1.2 Hadoop项目及其结构 现在Hadoop已经发展成为包含很多项目的集合。虽然其核心内容是MapReduce和Hadoop分布式文件系统,但与Hadoop相关的Common、Avro、Chukwa、Hive、HBase等项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。图1-1是Hado...
  • 1.4 Hadoop与分布式开发

    1.4 Hadoop与分布式开发 1.4 Hadoop与分布式开发 我们通常所说的分布式系统其实是分布式软件系统,即支持分布式处理的软件系统。它是在通信网络互联的多处理机体系结构上执行任务的系统,包括分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布式数据库系统等。Hadoop是分布式软件系统中文件系统层的软件,它实现了分布...