4.8 本章小结
以下是本章的重点内容。
■ 几十年以来,分析师一直在推动提高分析可扩展性,大数据是人们要驾驭的下一代“可怕”数据。
■ 分析环境与数据管理环境正在互相融合。库内处理模式正在逐渐取代传统的离线分析处理模式,以支持各类高级分析。
■ 海量并行处理(MPP)数据库,云计算架构,以及MapReduce都是驾驭大数据强有力的工具。
■ 分析专家可以使用MPP数据库来完成数据准备和评分,具体方法包括直接提交SQL、用户自定义函数(UDF)、嵌入式过程以及预测模型标记语言(PMML)。
■ 云可以是公有云,也可以是私有云。不管是哪种云,都将使用户更容易地获得所需的系统资源,你只需要为自己的使用付费。对于研发类的活动与工作,云计算可以带来巨大的帮助。
■ 公有云并不提供性能承诺,数据安全必须被严格监管,因为数据已经脱离了企业的直接控制。
■ 一旦企业内公有云被广泛使用,使用公有云的成本将可能超过内部构建的自有系统。
■ 私有云在一个安全的环境下提供了灵活性,这对于大型企业有重要的意义。
■ 网格计算可以完成一些无法直接交给单一数据库处理的超大型任务。网格计算将被越来越广泛地使用,且功能变得更加强大。
■ MapReduce架构是一种可以使程序并发执行的技术,它将变得越来越重要。
■ MapReduce可以帮助人们驾驭大数据,它可以对大数据进行预处理,从中抽取重要的部分信息以进行更深入的分析。
■ 关系型数据库、云计算、MapReduce都能帮助人们驾驭大数据。这3项技术可以整合起来协同工作,这使得每一项技术都变得更加强大和高效。