搜书网
发现
标签
注册
登录
搜书网
发现
榜单
标签
搜索
注册
登录
搜索
搜书网
本次搜索耗时
0.010
秒,为您找到
161
个相关结果.
书籍
文章
文件
2.1.2 在Windows上安装与配置Spark
37
2024-12-25
《Spark大数据处理:技术、应用与性能优化》
2.1.2 在Windows上安装与配置Spark 2.1.2 在Windows上安装与配置Spark 本节介绍在Windows系统上安装Spark的过程。在Windows环境下需要安装Cygwin模拟Linux的命令行环境来安装Spark。 (1)安装JDK 相对于Linux、Windows的JDK安装更加自动化,用户可以下载安装Oracle ...
5.1.2 使用Eclipse开发Spark程序
32
2024-12-25
《Spark大数据处理:技术、应用与性能优化》
5.1.2 使用Eclipse开发Spark程序 5.1.2 使用Eclipse开发Spark程序 下面介绍如何使用Eclipse配置和开发Spark的环境,用户可以在Windows或者Linux环境下使用Eclipse进行开发。 1.环境配置 与Intellij配置环境一样,需要用户下载安装JDK和Scala。前文已详细介绍,这里不再赘述。 ...
7.2.3 度量指标
38
2024-12-25
《Spark大数据处理:技术、应用与性能优化》
7.2.3 度量指标 7.2.3 度量指标 性能调优的两大利器就是Benchmark和Profile工具,读者可以结合Spark性能调优章节,通过Benchmark和Profile工具,及相应的调优方法对Spark性能调优。Benchmark用压力测试挖掘整个系统的性能状况,而Profile工具最大限度地呈现系统的运行时状态和性能指标,方便用户诊断性...
9.2.2 内存存储优化
38
2024-12-25
《Spark大数据处理:技术、应用与性能优化》
9.2.2 内存存储优化 9.2.2 内存存储优化 下面将从以下几个方面讲解内存存储的优化。[1] 1.JVM调优 内存调优过程的大方向上有三个方向是值得考虑的。 1)应用程序中对象所占用的内存空间。 2)访问这些内存对象的代价。 3)垃圾回收的开销。 通常状况下,Java的对象访问速度是很快的,但是相对于对象中存储的原始数据,Java...
2.3 本章小结
29
2024-12-25
《Spark大数据处理:技术、应用与性能优化》
2.3 本章小结 2.3 本章小结 本章主要介绍了如何在Linux和Windows环境下安装部署Spark集群。 由于Spark主要使用HDFS充当持久化层,所以完整地使用Spark需要预先安装Hadoop。通过本章介绍,读者就可以开启Spark的实战之旅了。 下一章将介绍Spark的计算模型,Spark将分布式的内存数据抽象为弹性分布式数据集(...
3.2.1 RDD简介
32
2024-12-25
《Spark大数据处理:技术、应用与性能优化》
3.2.1 RDD简介 3.2.1 RDD简介 在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(resilient distributed dataset,RDD),它是逻辑集中的实体,在集群中的多台机器上进行了数据分区。通过对多台机器上不同RDD分区的控制,就能够减少机器之间的数据重排(data shuffling)。Spark提供...
8.3 GraphX
21
2024-12-25
《Spark大数据处理:技术、应用与性能优化》
8.3 GraphX 8.3 GraphX Graphx是Spark中的一个重要子项目,它利用Spark为计算引擎,实现了大规模图计算的功能,并提供了类似Pregel的编程接口。GraphX的出现,使Spark生态系统更加完善和丰富,同时其与Spark生态系统其他组件很好的融合,以及强大的图数据处理能力,使其在工业界得到了广泛的应用。本章主要介绍Gr...
8.2 Spark Streaming
25
2024-12-25
《Spark大数据处理:技术、应用与性能优化》
8.2 Spark Streaming 8.2 Spark Streaming Spark Streaming是一个批处理的流式计算框架。它的核心执行引擎是Spark,适合处理实时数据与历史数据混合处理的场景,并保证容错性。下面将详细介绍Spark Streaming。
9.2.3 网络传输优化
30
2024-12-25
《Spark大数据处理:技术、应用与性能优化》
9.2.3 网络传输优化 9.2.3 网络传输优化 1.大任务分发优化 在任务的分发过程中会序列化任务的元数据信息,以及任务需要的jar和文件。任务的分发是通过AKKA库中的Actor模型之间的消息传送的。因为Spark采用了Scala的函数式风格,传递函数的变量引用采用闭包方式传递,所以当需要传输的数据通过Task进行分发时,会拖慢整体的执行速度...
8.2.1 Spark Streaming简介
25
2024-12-25
《Spark大数据处理:技术、应用与性能优化》
8.2.1 Spark Streaming简介 8.2.1 Spark Streaming简介 Spark Streaming是构建在Spark上的实时流计算框架,扩展了Spark流式大数据处理能力。Spark Streaming将数据流以时间片为单位分割形成RDD,使用RDD操作处理每一块数据,每块数据(也就是RDD)都会生成一个Spark Job...
1..
«
3
4
5
6
»
..17