搜书网 本次搜索耗时 0.028 秒,为您找到 346 个相关结果.
  • 13.2 MapReduce

    13.2 MapReduce 13.2 MapReduce 提到大数据,大多数人首先想到的就是MapReduce。MapReduce使得普通程序员可以在不了解分布式底层细节的前提下开发分布式程序。使用者只需编写两个称为Map和Reduce的函数即可,MapReduce框架会自动处理数据划分、多机并行执行、任务之间的协调,并且能够处理某个任务执行失败或...
  • 第7章 聚合

    第7章 聚合 7.1 聚合框架 7.2 管道操作符 7.2.1 $match 7.2.2 $project 1. 管道表达式 2. 数学表达式(mathematical expression) 3. 日期表达式(date expression) 4. 字符串表达式(string expression) 5. 逻辑表达式(logical exp...
  • 12.9.3 HBase与MapReduce

    12.9.3 HBase与MapReduce 12.9.3 HBase与MapReduce 从图12-1中可以看出,在伪分布模式和完全分布模式下HBase是架构在HDFS之上的。因此完全可以将MapReduce编程框架和HBase结合起来使用。也就是说,将HBase作为底层“存储结构”,MapReduce调用HBase进行特殊的处理,这样能够充分结合...
  • A.5 小结

    A.5 小结 A.5 小结 本附录主要介绍了云计算在线检测平台。平台以Hadoop集群作为并行程序的运行环境,为MapReduce的入门者提供了兼顾实战和理论的训练,使其初步掌握MapReduce框架和Hadoop系统的理论知识,同时具有使用MapReduce并行化解决实际问题的能力。 在附录的第2节中介绍了平台的各个组成部分及其功能。平台经过升级...
  • 6.6 本章小结

    6.6 本章小结 6.6 本章小结 本章从MapReduce程序中的JobClient.runJob(conf)开始,给出了MapReduce执行的流程图,并分析了流程图中的四个核心实体,结合实际代码介绍了MapReduce执行的详细流程。MapReduce的执行流程简单概括如下:用户作业执行JobClient.runJob(conf)代码会在Had...
  • 3.2.3 回调机制

    3.2.3 回调机制 3.2.3 回调机制 回调机制是一种常见的设计模式。它将工作流内的某个功能按照约定的接口暴露给外部使用者,为外部使用者提供数据,或要求外部使用者提供数据。 Hadoop MapReduce对外提供的5个组件(InputFormat、Mapper、Partitioner、Reducer和OutputFormat)实际上全部属于回...
  • 1.1 Spark是什么

    1.1 Spark是什么 1.1 Spark是什么 Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。 Spark于2009年诞生于加州大学伯克利分校AMPLab。目前,已经成为Apache软件基金会旗下的...
  • 2.2 Hadoop MapReduce设计目标

    2.2 Hadoop MapReduce设计目标 2.2 Hadoop MapReduce设计目标 通过上一节关于Hadoop MapReduce历史的介绍我们知道,Hadoop MapReduce诞生于搜索领域,主要解决搜索引擎面临的海量数据处理扩展性差的问题。它的实现很大程度上借鉴了谷歌MapReduce的设计思想,包括简化编程接口、提高系统容错...
  • 12.6 小结

    12.6 小结 12.6 小结 本章介绍了下一代MapReduce的基本设计思想以及常见的三个实现:YARN、Corona和Mesos。 YARN是Apache的下一代MapReduce框架。它的基本设计思想是将JobTracker拆分成两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMa...
  • 5.1.2 设计思路

    5.1.2 设计思路 5.1.2 设计思路 这个应用实例的解决方案很直接,就是将文件内容切分成单词,然后将所有相同的单词聚集在一起,最后计算单词出现的次数并输出。根据MapReduce并行程序设计原则可知,解决方案中的内容切分步骤和数据不相关,可以并行化处理,每个获得原始数据的机器只要将输入数据切分成单词就可以了。所以可以在Map阶段完成单词切分任务...