搜书网 本次搜索耗时 0.018 秒,为您找到 346 个相关结果.
  • 3.3.4 Mapper与Reducer解析

    3.3.4 Mapper与Reducer解析 3.3.4 Mapper与Reducer解析 1.旧版API的Mapper/Reducer解析 Mapper/Reducer中封装了应用程序的数据处理逻辑。为了简化接口,MapReduce要求所有存储在底层分布式文件系统上的数据均要解释成key/value的形式,并交给Mapper/Reducer中的m...
  • 2.3 MapReduce编程模型概述

    2.3 MapReduce编程模型概述 2.3.1 MapReduce编程模型简介 2.3 MapReduce编程模型概述 2.3.1 MapReduce编程模型简介 从MapReduce自身的命名特点可以看出,MapReduce由两个阶段组成:Map和Reduce。用户只需编写map()和reduce()两个函数,即可完成简单的分布式程序的设...
  • 第12章 下一代MapReduce框架

    第12章 下一代MapReduce框架 12.1 第一代MapReduce框架的局限性 第12章 下一代MapReduce框架 本书前面的章节主要介绍了第一代MapReduce框架(MapReduce Version 1.0,MRv 1)。随着时间的变迁,MRv 1已经变得日趋完善和稳定,且已被越来越多的公司采用。然而,随着数据量的高速增长和新型应...
  • 3.3 MapReduce任务的优化

    3.3 MapReduce任务的优化 3.3 MapReduce任务的优化 相信每个程序员在编程时都会问自己两个问题“我如何完成这个任务”,以及“怎么能让程序运行得更快”。同样,MapReduce计算模型的多次优化也是为了更好地解答这两个问题。 MapReduce计算模型的优化涉及了方方面面的内容,但是主要集中在两个方面:一是计算性能方面的优化;二...
  • 第5章 MapReduce应用案例

    第5章 MapReduce应用案例 第5章 MapReduce应用案例 本章内容 单词计数 数据去重 排序 单表关联 多表关联 本章小结 前面已经介绍了很多关于MapReduce的基础知识,比如Hadoop集群的配置方法,以及如何开发MapReduce应用程序等。本章将从本书配套的云计算在线监测平台(http://cloudcomput...
  • 8.4 MapReduce V2优势

    8.4 MapReduce V2优势 8.4 MapReduce V2优势 1)分散了JobTracker的任务。资源管理任务由资源管理器负责,作业启动、运行和监测任务由分布在集群节点上的应用主体负责。这样大大减缓了MapReduce V1中JobTracker单点瓶颈和单点风险的问题,大大提高了集群的扩展性和可用性。 2)在MapReduce V...
  • 8.5 本章小结

    8.5 本章小结 8.5 本章小结 本章结合MapReduce V1的缺陷为大家介绍了MapReduce V2,包括设计需求、主要设计思想、设计细节和相对于MapReduce V1的优势。大家应深入理解其思想和架构,以适应MapReduce发展的新形势。
  • 1.8 本章小结

    1.8 本章小结 1.8 本章小结 本章首先介绍了Hadoop分布式计算平台:它是由Apache软件基金会开发的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。由于Hadoop拥有可计量、成本低、高效、可...
  • 2.6 小结

    2.6 小结 2.6 小结 Hadoop MapReduce直接诞生于搜索领域,以易于编程、良好的扩展性和高容错性为设计目标。它主要由两部分组成:编程模型和运行时环境。其中,编程模型为用户提供了5个可编程组件,分别是InputFormat、Mapper、Partitioner、Reducer和OutputFormat;运行时环境则将用户的MapRed...
  • 2.1.3 Hadoop版本变迁

    2.1.3 Hadoop版本变迁 2.1.3 Hadoop版本变迁 到2012年5月为止,Apache Hadoop已经出现四个大的分支,如图2-1所示。 Apache Hadoop的四大分支构成了四个系列的Hadoop版本。 1.0.20.X系列 0.20.2版本发布后,几个重要的特性没有基于trunk而是在0.20.2基础上继续研发。值得一...