1.5 Spark的企业级应用
随着企业数据量的增长,对大数据的处理和分析已经成为企业的迫切需求。Spark作为Hadoop的替代者,引起学术界和工业界的普遍兴趣,大量应用在工业界落地,许多科研院校开始了对Spark的研究。
在学术界,Spark得到各院校的关注。Spark源自学术界,最初是由加州大学伯克利分校的AMPLab设计开发。国内的中科院、中国人民大学、南京大学、华东师范大学等也开始对Spark展开相关研究。涉及Benchmark、SQL、并行算法、性能优化、高可用性等多个方面。
在工业界,Spark已经在互联网领域得到广泛应用。互联网用户群体庞大,需要存储大数据并进行数据分析,Spark能够支持多范式的数据分析,解决了大数据分析中迫在眉睫的问题。例如,国外Cloudera、MapR等大数据厂商全面支持Spark,微策略等老牌BI厂商也和Databricks达成合作关系,Yahoo!使用Spark进行日志分析并积极回馈社区,Amazon在云端使用Spark进行分析。国内同样得到很多公司的青睐,淘宝构建Spark on Yarn进行用户交易数据分析,使用GraphX进行图谱分析。网易用Spark和Shark对海量数据进行报表和查询。腾讯使用Spark进行精准广告推荐。
下面将选取代表性的Spark应用案例进行分析,以便于读者了解Spark在工业界的应用状况。