第8章 BDAS简介

随着Spark中国峰会的举行,Spark工业界应用的大范围落地,Spark生态系统在国内发展势头强劲。前段时间Spark也正式升级为Apache顶级项目,证明Spark得到了更加广泛的认可。AMPLab的Spark团队创立了大数据公司Databricks,提供Spark的产品化支持,为后续Spark的产品化和落地提供了更加强有力的保障。

提到Spark就不得不说伯克利大学AMPLab开发的BDAS(Berkeley Data Analytics Stack)数据分析的软件栈。其中用内存分布式大数据计算引擎Spark替代原有的MapReduce,上层通过Spark SQL/Shark替代Hive等数据仓库,Spark Streaming替换Storm等流式计算框架,GraphX替换Graph Lab等大规模图计算框架,MLlib替换Mahout等机器学习框架等,其整体框架基于内存计算解决了原来Hadoop的性能瓶颈问题。他们提出One Framework to Rule Them All的理念,用户可以利用Spark一站式构建自己的数据分析流水线。