8.5 本章小结
本章主要介绍了BDAS中广泛应用的几个数据分析组件。SQL on Spark提供在Spark上的SQL查询功能,让用户可以基于内存计算和SQL进行大数据分析。通过Spark Streaming,用户可以构建实时流处理应用,高吞吐量,以及适合历史和实时数据混合分析的特性,使Spark Streaming在流数据处理框架中突出重围。GraphX充当Spark生态系统中图计算的角色,其简洁的API使图处理算法的书写更加便捷。最后介绍了MLlib,Spark上的机器学习库。它充分利用Spark内存计算和适合迭代的特性,使分布式系统与并行机器学习算法完美结合。相信随着Spark生态系统的日臻完善,这些组件还会长足发展。
最后一章将介绍Spark的性能调优,在实战中如何让Spark运行得更快,更节省资源,是系统开发者追求的目标。