8.1.5 未来展望
Spark SQL提供了对RDD的SQL支持,同时支持其他数据源,如Parquet文件和Hive表。统一这些强大的数据存储模型能够让用户更加方便地分析复杂的数据。统一的Spark数据平台能够让用户选择需要的工具去处理数据,而不需要再构建另一套系统。未来Databricks会继续在Spark SQL生成自定义字节码加速解析表达式,支持更多数据源,如Avro、Hbase以及更丰富的其他语言API。
Databricks和AMPLab会继续投资Spark SQL,希望使其成为结构化数据分析的标准。Shark已经完成学术使命退出历史舞台,Hive on Spark刚刚发起。Spark SQL、Shark、Hive on Spark扮演了Spark生态系统中SQL on Hadoop这个重要的角色,为Spark生态系统完备性提供强有力的支持。同时看到随着Spark生态系统的发展及壮大,三者也从中受益,用户通过全栈的数据分析栈开源节流,会越来越接纳和采用Spark的全栈式解决方案,这样用户也会越来越多地采用SQl on Spark作为自身的OLAP解决方案。这一切迹象表明,未来SQL on Spark的应用和发展会很有想象空间。