9.2 调优技巧
一个应用程序可以完成基本功能其实还不够,还有一些更加细节和有实际意义的问题需要考虑,尤其是性能优化问题,但以往的经验教训告诉我们,过早的性能优化是万恶之源,性能优化应该随着程序的开发、调试以及作业的运行观察性能瓶颈,进而进行性能调优。
性能方面的提高概括来说主要包括时间性能提升和空间性能提升,而这两个方面又是一个权衡和矛盾的地方,需要根据应用的具体需求运行环境适当调节,进而在正确完成功能的基础之上,使执行的时间尽可能的短,占用的空间尽量小。
当处理大规模数据时,调优是必须面对的问题,Spark是内存计算,内存问题就变得尤为重要。下面介绍的调优方法并不能涵盖Spark的全部,更多细节的调优可以到Spark的社区进行提问和查看,上面会有很多和你遇到同样问题的解决方案,以及很多的高手乐于帮你解答。
下面从以下几个方面来介绍Spark的性能调优。