第5章

    分析流程的演进

    第4章讨论过了分析扩展性的提升会给企业带来什么影响。如果企业不使用这些分析能力,那么答案是什么也不会发生。如果还是使用传统的分析流程,升级新技术能带来的分析可扩展性的提升,将不会创造太多的价值。就像买了一个拥有很多诱人功能的3D电视,但接收的还是原有的电视信号,与老式电视机相比,也许新的3D电视画面确实要清晰一些,但观看体验与老式电视机没有本质区别,您并没有获得3D电视应有的观看体验。

    类似地,使用高级分析的企业在提升分析可扩展性的同时,执行与部署分析的流程也必须随之改变。过去常规的分析执行与部署流程不能充分地挖掘分析应有的价值。如果现有的分析流程不进行一些根本的改变,企业只能获得分析能力与生产力的部分提升,远远低于高级分析可扩展性具备的全部价值。如果使用传统的方法来执行分析流程,驾驭大数据将是不可能实现的任务。

    一个首要的改变是,配置并管理分析专家所需的工作空间。传统的做法是在一个专门支持分析工作的独立服务器上部署工作空间。前面已经讨论过,库内分析已经成为了新的标准。为了充分利用库内分析带来的可扩展性的优势,分析专家需要一个直接驻留在数据库系统内的工作空间,或者称为“分析沙箱”。在大数据领域,MapReduce环境将是传统分析沙箱的补充。本章的第一部分将讨论什么是分析沙箱,它为什么很重要,以及如何使用分析沙箱。

    在数据库平台中使用分析沙箱进行分析工作时,分析专家常需要重复执行一些任务。例如,不管做什么类型的客户分析,每一个分析专家都需要获得客户的各项核心指标。企业分析数据集是一个重要的工具,用来显著提高分析专家工作的数据一致性与工作效率,以及降低公司使用高级分析流程所带来风险。本章的5.2小节将介绍基础的分析数据集,然后我们会讨论企业分析数据集(Enterprise Analytic Data Set,EADS),包括什么是EADS,它有什么好处,以及某个分析专家开发了EADS后,如何让其他人和其他应用来使用它。

    许多分析需要对某些基础数据定期执行重复的评分工作。例如,一个客户倾向模型需要定期重复评分过程,以获得下个月这些客户购买某一产品的概率。在过去,更新每一个客户的评分结果是一项耗时巨大并且不常执行的任务。如今必须及时更新这些客户倾向的评分结果,即使不是实时生成的,也必须按天进行更新。本章的5.3小节将讨论如何在数据库环境中嵌入这些评分过程,以及如何更高效地管理和监控这些通过模型管理开发的分析模型和流程。