5.5 本章小结

以下是本章的重点内容。

■ 部署了分析流程和模型并不意味着就能获得价值。更新分析流程来充分利用分析的可扩展性,这对于驾驭大数据是非常关键的。

■ 分析专家比其他类型的用户更需要系统资源与权限。分析沙箱这种机制使得分析专家自由地探索数据,还能让IT人员保证系统资源的平衡。

■ 沙箱最适合数据探索、分析开发以及原型创建这些活动,它不适合那些重复性或生产性的任务。

■ 有多种类型的沙箱环境,包括内部沙箱、外部沙箱以及混合式沙箱。每一种沙箱都可以与MapReduce环境组合在一起处理大数据。

■ 分析数据集是可以直接用于分析的数据集合,例如,客户、区域、产品、供应商等。

■ 不要把传统基于ADS的分析项目简单地迁移到库内分析架构中,而是应该把ADS升级为更加规范的企业分析数据集(EADS)架构。

■ EADS是一个预定义好的汇总表和概要视图,它可以方便地访问成百上千个分析所需的通用指标。

■ EADS提升了系统性能,减少了数据冗余,增加了透明度,并确保各项分析所用数据一致。

■ EADS的使用对象和范围不应该局限于分析专家与分析应用,应该开放给其他的应用和用户使用。EADS里包含重要的信息,应该被广泛地使用。

■ 嵌入式评分过程可以部署在沙箱环境或者EADS环境内,并提供了评分程序,这些程序可以很容易地被各种用户和应用访问。

■ 嵌入式评分的实现方式包括SQL、UDF、嵌入式过程或者PMML。

■ 如果企业开始广泛地使用模型,那么就应该建立模型和评分管理流程。

■ 模型与评分管理系统有4个主要组件:输入分析数据集、模型定义、模型验证与报表制作、模型评分输出。