[搜文档]Spark - 搜索结果

5.1.1　使用Intellij开发Spark程序

40 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

5.1.1　使用Intellij开发Spark程序 5.1.1　使用Intellij开发Spark程序下面介绍如何使用Intellij IDEA构建Spark开发环境和源码阅读环境。由于Intellij对Scala的支持更好，所以目前Spark开发团队使用Intellij作为开发环境。 1.配置开发环境（1）安装JDK 用户可以自行安装JD...

1.3　Spark架构

38 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

1.3　Spark架构 1.3　Spark架构从上文介绍可以看出，Spark是整个BDAS的核心。生态系统中的各个组件通过Spark来实现对分布式并行任务处理的程序支持。 1.Spark的代码结构图1-3展示了Spark-1.0的代码结构和代码量（不包含Test和Sample代码），读者可以通过代码架构对Spark的整体组件有一个初步了解，正...

1.5.2　Spark在Yahoo！的应用

34 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

1.5.2　Spark在Yahoo！的应用 1.5.2　Spark在Yahoo！的应用在Spark技术的研究与应用方面，Yahoo！始终处于领先地位，它将Spark应用于公司的各种产品之中。移动App、网站、广告服务、图片服务等服务的后端实时处理框架均采用了Spark+Shark的架构。在2013年，Yahoo！拥有72656600个页面，有上...

5.5　本章小结

25 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

5.5　本章小结 5.5　本章小结本章主要介绍了Spark应用程序的开发流程以及如何编译和调试Spark程序。用户可以选用能够很好支持Scala项目的Intellij IDE。如果之前经常使用Eclipse开发Java程序，也可以在Eclipse中安装Scala IDE插件，开发与调试Spark程序。由于Spark项目基于SBT构建，用户可以创建S...

5.1.3　使用SBT构建Spark程序

35 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

5.1.3　使用SBT构建Spark程序 5.1.3　使用SBT构建Spark程序用户也可以直接使用SBT构建Spark应用。在这个应用中，以统计包含“Hello”字符的行数为案例。（1）构建开发环境 1）下载并解压Spark 1.0.0程序包或者通过git clone https://github.com/apache/spark命令将项目...

8.1.1　使用Spark SQL的原因

32 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

8.1.1　使用Spark SQL的原因 8.1.1　使用Spark SQL的原因由于Shark底层依赖于Hive，这个架构的优势是对传统Hive用户可以将Shark无缝集成进现有系统运行查询负载。但是我们也看到一些问题：随着版本的升级，查询优化器依赖于Hive，不方便添加新的优化策略，需要学习另一套系统和进行二次开发，学习成本很高。另一方面，Ma...

4.1.3　应用提交与执行方式

29 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

4.1.3　应用提交与执行方式 4.1.3　应用提交与执行方式应用的提交包含以下两种方式。 ·Driver进程运行在客户端，对应用进行管理监控。 ·主节点指定某个Worker节点启动Driver，负责整个应用的监控。 Driver进程是应用的主控进程，负责应用的解析、切分Stage并调度Task到Executor执行，包含DAGSchedul...

4.6　Shuffle机制

30 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

4.6　Shuffle机制 4.6　Shuffle机制 Shuffle的本义是洗牌、混洗，即把一组有一定规则的数据打散重新组合转换成一组无规则随机数据分区。Spark中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据，Spark中的Shuffle和MapReduce中的Shuffle思想相同，在实现细节和优化方式...

8.4.5　算法应用实例

32 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

8.4.5　算法应用实例 8.4.5　算法应用实例 MLlib是一些常用机器学习算法在Spark上的实现，Spark的设计初衷是支持一些迭代的大数据算法。下面通过一个例子使用Mllib支持向量机进行分类，并将程序打包执行，读者可以通过示例开启MLlib之旅。 1.程序代码使用支持向量机进行分类的代码如下。 import org . apa...

4.2.1　Spark应用程序之间的调度

34 2024-12-25 《Spark大数据处理：技术、应用与性能优化》

4.2.1　Spark应用程序之间的调度 4.2.1　Spark应用程序之间的调度通过前面的介绍，读者了解到每个应用拥有对应的SparkContext.SparkContext维持整个应用的上下文信息，提供一些核心方法，如runJob可以提交Job。然后，通过主节点的分配获得独立的一组Executor JVM进程执行任务。Executor空间内的不...

5.1.1 使用Intellij开发Spark程序

1.3 Spark架构

1.5.2 Spark在Yahoo！的应用

5.5 本章小结

5.1.3 使用SBT构建Spark程序

8.1.1 使用Spark SQL的原因

4.1.3 应用提交与执行方式

4.6 Shuffle机制

8.4.5 算法应用实例

4.2.1 Spark应用程序之间的调度