MAD技术和Cosmos

    2009年VLDB会议的“MAD Skills:New Analysis Practices for Big Data”一文详细描述了Fox Interactive Media(FIM)公司的分析环境。结合Hadoop和Greenplum数据库系统,该团队在FIM中构建了我们很熟悉的数据处理平台,但其工作和我们在Facebook的工作是独立的。

    该文章的标题谈及了FIM平台的三个方面:磁性(Mgnetic)、灵活(Aile)和有深度(Dep)。“磁性”表示存储该企业的所有数据,而不仅仅是适合企业数据模型的结构化数据。同样的思路,一个“灵活”的平台需要能够优雅地处理模式变化,使得分析员能够直接在数据上工作,或者根据需求对数据模型不断演化。“有深度”表示在数据上执行更复杂的统计分析实践。

    在FIM环境中,在单Greenplum数据库内,数据分为呈现(saging)、生产、报表和沙箱四种模式,和之前描述的在Facebook中Hadoop内的多层模式很相似。

    微软单独发表了其数据管理栈(dta management stack)的细节。在标题为“Dryad:Distributed Sata-Parallel Programs from Sequential Building Blocks”和“SCOPE:Easy and Efficient Parallel Processing of Massive Data Sets”两篇文章中,微软描述了和我们在Facebook构建的极为相似的信息平台。它的基础设施包含分布式文件系统Cosmos和并行数据处理系统Dryad,它还发明了类似SQL的查询语言SCOPE。

    三个团队在完全独立的技术团队工作,却开发演化了处理大规模数据的相似平台。这是怎么回事呢?通过把特定结构的需求与存储数据的能力以及为数据检索创造API进行分离,大规模网站的存储系统看起来更像数据空间(dtaspace)而不是数据库。