[搜文档]Spark - 搜索结果

1.1　Spark是什么

52 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

1.1　Spark是什么 1.1　Spark是什么 Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。 Spark于2009年诞生于加州大学伯克利分校AMPLab。目前，已经成为Apache软件基金会旗下的...

4.7　本章小结

27 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

4.7　本章小结 4.7　本章小结本章介绍了Spark的内部运行机制。主要介绍了Spark的执行机制和调度机制，包括调度与任务分配机制、I/O机制、通信机制、容错机制和Shuffle机制。Spark在执行过程中由Driver控制应用生命周期。调度中，Spark采用了经典的FIFO和FAIR等调度算法对内部的资源实现不同级别的调度。在Spark的I/...

1.2　Spark生态系统BDAS

46 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

1.2　Spark生态系统BDAS 1.2　Spark生态系统BDAS 目前，Spark已经发展成为包含众多子项目的大数据计算平台。伯克利将Spark的整个生态系统称为伯克利数据分析栈（BDAS）。其核心框架是Spark，同时BDAS涵盖支持结构化数据SQL查询与分析的查询引擎Spark SQL和Shark，提供机器学习功能的系统MLbase及底层的...

前言

44 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

前言为什么要写这本书本书特色读者对象如何阅读本书勘误和支持致谢特别致谢前言 Spark是发源于美国加州大学伯克利分校AMPLab的大数据分析平台，它立足于内存计算，从多迭代批量处理出发，兼顾数据仓库、流处理和图计算等多种计算范式，是大数据系统领域的全栈计算平台。Spark当下已成为Apache基金会的顶级开源项目，拥有庞...

2.2　Spark集群初试

38 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

2.2　Spark集群初试 2.2　Spark集群初试假设已经按照上述步骤配置完成Spark集群，可以通过两种方式运行Spark中的样例。下面以Spark项目中的SparkPi为例，可以用以下方式执行样例。 1）以./run-example的方式执行用户可以按照下面的命令执行Spark样例。 . /bin/ run - example ...

5.3　Spark编译

36 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

5.3　Spark编译 5.3　Spark编译用户可以通过Spark的默认构建工具SBT编译和打包源码。当用户需要对源码进行二次开发时，需要对源码进行增量编译。通过下面的方式可以实现编译和增量编译。 1.克隆Spark源码命令如下： git clone https ： //github.com/apache/spark 这样从G...

5.2　远程调试Spark程序

30 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

5.2　远程调试Spark程序 5.2　远程调试Spark程序本地调试Spark程序和传统的调试单机的Java程序基本一致，读者可以参照原来的方式调试，关于单机调试本书暂不介绍。对于远程调试服务器上的Spark代码，首先确保在服务器和本地的Spark版本一致。需按前文介绍的方法预先安装好JDK和git。 1.编译Spark 在服务器端和本地计算...

8.1　SQL on Spark[1]

40 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

[1] ">8.1　SQL on Spark [1] 8.1　SQL on Spark[1] AMPLab将大数据分析负载分为三大类型：批量数据处理、交互式查询、实时流处理，而其中很重要的一环便是交互式查询。大数据分析栈中需要满足用户ad-hoc、reporting、iterative等类型的查询需求，需要提供SQL接口来兼容原有数据库用户...

1.5　Spark的企业级应用

34 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

1.5　Spark的企业级应用 1.5　Spark的企业级应用随着企业数据量的增长，对大数据的处理和分析已经成为企业的迫切需求。Spark作为Hadoop的替代者，引起学术界和工业界的普遍兴趣，大量应用在工业界落地，许多科研院校开始了对Spark的研究。在学术界，Spark得到各院校的关注。Spark源自学术界，最初是由加州大学伯克利分校的AM...

5.1.4　使用Spark Shell开发运行Spark程序

28 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

5.1.4　使用Spark Shell开发运行Spark程序 5.1.4　使用Spark Shell开发运行Spark程序因为运行Spark Shell时，会默认创建一个SparkContext，命名为sc，所以不需要在Spark Shell创建新的SparkContext。在运行Spark Shell之前，可以设定参数MASTER指定Spark应...

1.1 Spark是什么

4.7 本章小结

1.2 Spark生态系统BDAS

前言

2.2 Spark集群初试

5.3 Spark编译

5.2 远程调试Spark程序

8.1 SQL on Spark[1]

1.5 Spark的企业级应用

5.1.4 使用Spark Shell开发运行Spark程序