搜书网 本次搜索耗时 0.010 秒,为您找到 161 个相关结果.
  • 1.1 Spark是什么

    1.1 Spark是什么 1.1 Spark是什么 Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。 Spark于2009年诞生于加州大学伯克利分校AMPLab。目前,已经成为Apache软件基金会旗下的...
  • 4.7 本章小结

    4.7 本章小结 4.7 本章小结 本章介绍了Spark的内部运行机制。主要介绍了Spark的执行机制和调度机制,包括调度与任务分配机制、I/O机制、通信机制、容错机制和Shuffle机制。Spark在执行过程中由Driver控制应用生命周期。调度中,Spark采用了经典的FIFO和FAIR等调度算法对内部的资源实现不同级别的调度。在Spark的I/...
  • 1.2 Spark生态系统BDAS

    1.2 Spark生态系统BDAS 1.2 Spark生态系统BDAS 目前,Spark已经发展成为包含众多子项目的大数据计算平台。伯克利将Spark的整个生态系统称为伯克利数据分析栈(BDAS)。其核心框架是Spark,同时BDAS涵盖支持结构化数据SQL查询与分析的查询引擎Spark SQL和Shark,提供机器学习功能的系统MLbase及底层的...
  • 前言

    前言 为什么要写这本书 本书特色 读者对象 如何阅读本书 勘误和支持 致谢 特别致谢 前言 Spark是发源于美国加州大学伯克利分校AMPLab的大数据分析平台,它立足于内存计算,从多迭代批量处理出发,兼顾数据仓库、流处理和图计算等多种计算范式,是大数据系统领域的全栈计算平台。Spark当下已成为Apache基金会的顶级开源项目,拥有庞...
  • 2.2 Spark集群初试

    2.2 Spark集群初试 2.2 Spark集群初试 假设已经按照上述步骤配置完成Spark集群,可以通过两种方式运行Spark中的样例。下面以Spark项目中的SparkPi为例,可以用以下方式执行样例。 1)以./run-example的方式执行 用户可以按照下面的命令执行Spark样例。 . /bin/ run - example ...
  • 5.3 Spark编译

    5.3 Spark编译 5.3 Spark编译 用户可以通过Spark的默认构建工具SBT编译和打包源码。当用户需要对源码进行二次开发时,需要对源码进行增量编译。通过下面的方式可以实现编译和增量编译。 1.克隆Spark源码 命令如下: git clone https : //github.com/apache/spark 这样从G...
  • 5.2 远程调试Spark程序

    5.2 远程调试Spark程序 5.2 远程调试Spark程序 本地调试Spark程序和传统的调试单机的Java程序基本一致,读者可以参照原来的方式调试,关于单机调试本书暂不介绍。对于远程调试服务器上的Spark代码,首先确保在服务器和本地的Spark版本一致。需按前文介绍的方法预先安装好JDK和git。 1.编译Spark 在服务器端和本地计算...
  • 8.1 SQL on Spark[1]

    [1] ">8.1 SQL on Spark [1] 8.1 SQL on Spark[1] AMPLab将大数据分析负载分为三大类型:批量数据处理、交互式查询、实时流处理,而其中很重要的一环便是交互式查询。大数据分析栈中需要满足用户ad-hoc、reporting、iterative等类型的查询需求,需要提供SQL接口来兼容原有数据库用户...
  • 1.5 Spark的企业级应用

    1.5 Spark的企业级应用 1.5 Spark的企业级应用 随着企业数据量的增长,对大数据的处理和分析已经成为企业的迫切需求。Spark作为Hadoop的替代者,引起学术界和工业界的普遍兴趣,大量应用在工业界落地,许多科研院校开始了对Spark的研究。 在学术界,Spark得到各院校的关注。Spark源自学术界,最初是由加州大学伯克利分校的AM...
  • 5.1.4 使用Spark Shell开发运行Spark程序

    5.1.4 使用Spark Shell开发运行Spark程序 5.1.4 使用Spark Shell开发运行Spark程序 因为运行Spark Shell时,会默认创建一个SparkContext,命名为sc,所以不需要在Spark Shell创建新的SparkContext。在运行Spark Shell之前,可以设定参数MASTER指定Spark应...