搜书网 本次搜索耗时 0.018 秒,为您找到 161 个相关结果.
  • 8.2.5 Spark Streaming实例

    8.2.5 Spark Streaming实例 8.2.5 Spark Streaming实例 在互联网应用中,流数据处理是一种常用的应用模式,需要在不同粒度上对不同数据进行统计,保证实时性的同时,又需要涉及聚合(aggregation)、去重(distinct)、连接(join)等较为复杂的统计需求[1] 。如果使用MapReduce框架,虽然可以...
  • 6.3 中位数

    6.3 中位数 6.3 中位数 海量数据中通常有统计集合中位数的计算需求,读者可以通过以下示例了解Spark求中位数的方式。 1.实例描述 若有很大一组数据,数据的个数是N,在分布式数据存储情况下,找到这N个数的中位数。 数据输入是以下整型数据。 1 、 2 、 3 、 4 、 5 、 6 、 8 、 9 、 11 、 12 、 34 ...
  • 4.2 Spark调度与任务分配模块

    4.2 Spark调度与任务分配模块 4.2 Spark调度与任务分配模块 系统设计很重要的一环便是资源调度。设计者将资源进行不同粒度的抽象建模,然后将资源统一放入调度器,通过一定的算法进行调度,最终达到高吞吐量或者低访问延迟的目的。Spark的调度器设计精良,扩展性极好,为它的后续发展奠定了很好的基础。 Spark有多种运行模式,如Local模式...
  • 8.2.2 Spark Streaming架构

    8.2.2 Spark Streaming架构 8.2.2 Spark Streaming架构 Spark Streaming的整体架构如图8-11所示。 组件介绍如下。 ·Network Input Tracker:通过接收器接收流数据,并将流数据映射为输入DStream。 图8-11 Spark Streaming架构图 ·Job S...
  • 5.4 配置Spark源码阅读环境

    5.4 配置Spark源码阅读环境 5.4 配置Spark源码阅读环境 由于Spark使用SBT作为项目管理构建工具,SBT的配置文件中配置了依赖的jar包网络路径,在编译或者生成指定类型项目时,需要从网络下载jar包,需要预先安装Git。在Linux操作系统或者Windows操作系统中(可以下载Git Shell,在Git Shell中进行命令行操...
  • 8.1.3 Shark简介

    8.1.3 Shark简介 8.1.3 Shark简介 下面介绍Shark的架构,如图8-5所示。在整体架构中,Shark复用了Hive Metastore、Hive SerDe,以及查询解析器和优化器,但是用Spark重写了Hive的执行Operator,并实现了基于内存的优化策略。最初Shark为了学术使命,复用Hive的查询优化器,虽然缩短了开...
  • 2.1 Spark的安装与部署

    2.1 Spark的安装与部署 2.1 Spark的安装与部署 Spark在生产环境中,主要部署在安装有Linux系统的集群中。在Linux系统中安装Spark需要预先安装JDK、Scala等所需的依赖。由于Spark是计算框架,所以需要预先在集群内有搭建好存储数据的持久化层,如HDFS、Hive、Cassandra等。最后用户就可以通过启动脚本运行...
  • 第3章 Spark计算模型

    第3章 Spark计算模型 第3章 Spark计算模型 创新都是站在巨人的肩膀上产生的,在大数据领域也不例外。微软的Dryad使用DAG执行模式、子任务自由组合的范型。该范型虽稍显复杂,但较为灵活。Pig也针对大关系表的处理提出了很多有创意的处理方式,如flatten、cogroup。经典虽难以突破,但作为后继者的Spark借鉴经典范式并进行创新。经...
  • 2.1.1 在Linux集群上安装与配置Spark

    2.1.1 在Linux集群上安装与配置Spark 2.1.1 在Linux集群上安装与配置Spark 下面介绍如何在Linux集群上安装与配置Spark。 1.安装JDK 安装JDK大致分为下面4个步骤。 1)用户可以在Oracle JDK的官网下载相应版本的JDK,本例以JDK 1.6为例,官网地址为http://www.oracle.co...
  • 9.2.4 序列化与压缩

    9.2.4 序列化与压缩 9.2.4 序列化与压缩 前面章节详细介绍了Spark的I/O机制,下面介绍I/O中的主要调优方向。 1.通过序列化优化 序列化的本质作用是将链式存储的对象数据,转化为连续空间的字节数组存储的数据。这样的存储方式就会产生以下几个好处。 1)对象可以以数据流方式进行进程间传输(包含网络传输),同样可以以连续空间方式存储到...