结蛹:数据仓库之厚积薄发

    岳不群叹了口气,缓缓地道:“三十多年前,咱们气宗是少数,剑宗中的师伯、师叔占了大多数。再者,剑宗功夫易于速成,见效极快。大家都练十年,定是剑宗占上风;各练二十年,那便是各擅胜场,难分上下;要到二十年之后,练气宗功夫的才渐渐地越来越强;到得三十年时,练剑宗功夫的便再也不能望气宗之项背了。然而要到二十余年之后,才真正分出高下,这二十余年中双方争斗之烈,可想而知。”

    ——金庸,《笑傲江湖》第九章,1967年

    决策支持系统面临的“瓶颈式”难题,是如何有机地聚集、整合多个不同运营信息系统产生的数据。对这个问题的关注起源于美国计算机科学研究的另一所重镇:麻省理工学院。和卡内基梅隆大学一起,这两所大学先后为现代商务智能的发展奠定了主要的基石。

    20世纪70年代,麻省理工学院的研究人员第一次提出,决策支持系统和运营信息系统截然不同,必须分开,这意味着要为前者设计独立的数据存储结构。但受限于当时的数据存储能力,该研究在确立了这一论点后便停滞不前。

    但这个研究如灯塔般为实业界指明了方向。1979年,一家以决策支持系统为己任、致力于构建独立数据存储结构的公司Teradata诞生了。Tera,是太字节,其大小为240,Teradata的命名表明了公司处理海量数据的决心。1983年,该公司利用并行处理技术为美国富国银行(Wells Fargo Bank)建立了第一个决策支持系统。这种先发优势令Teradata至今一直雄踞在数据行业的龙头榜首。

    另一家信息技术的巨头——国际商业机器公司(IBM)也在为集成企业内不同的运营系统大伤脑筋。越来越多的IBM客户要面对多个分立系统的数据整合问题,这些处理不同事务的系统,由于不同的编码方式和数据结构,像一个个信息孤岛,处于老死不相往来的状态。1988年,为解决企业的数据集成问题,IBM公司的两名研究员(Barry Devlin和Paul Murphy)创造性地提出了一个新的术语:数据仓库(Data Warehouse)。

    一声惊雷,似乎宣告了数据仓库的诞生。可惜IBM在首创这个概念之后,也停步不前,只把它当做一个花哨的新名词用于市场宣传,而没有乘胜追击、进一步提出实际的架构和设计。IBM很快在这个领域丧失其领先地位;2008年,IBM甚至通过兼并Cognos才使自己在商务智能的市场上重占一席之地,这是后话。

    但这之后,更多的信息技术企业垂涎于数据仓库的“第一桶金”,纷纷开始尝试搭建实验性的数据仓库。

    又是几年过去,1992年,尘埃终于落定。比尔·恩门(Bill Inmon)出版了《数据仓库之构建》(Building the Data Warehouse)一书,第一次给出了数据仓库的清晰定义和操作性很强的实战法则,真正拉开了数据仓库走向大规模应用的序幕。恩门不仅是长期活跃在这个领域的理论领军人物,还是一名企业家。此后,他的“江湖地位”也得以确定,被誉为“数据仓库之父”。

    恩门所提出的定义至今仍被广泛地接受:

    “数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理中的决策制定。”

    结蛹:数据仓库之厚积薄发 - 图1
    比尔·恩门:数据仓库之父
    2007年曾被《计算机世界》评为近40年计算机产业最具影响力的十大人物之一,目前还活跃在数据仓库领域,他的最新成果是将“非结构化的文本数据”通过特定的工具装入数据仓库。

    数据仓库和数据库的最大差别在于,前者是以数据分析、决策支持为目的来组织存储数据,而数据库的主要目的则是为运营性系统保存、查询数据。

    江山代有才人出。

    恩门一统江湖没多久,风头又被拉尔夫·金博尔(Ralph Kimball)抢了去。金博尔是斯坦福大学毕业的博士,长期在决策支持系统的软件公司工作。1996年,他也出版了一本书:《数据仓库的工具》(The Data Warehouse Toolkit),金博尔在书里认同了比尔·恩门对于数据仓库的定义,但却在具体的构建方法上和他分庭抗礼。

    结蛹:数据仓库之厚积薄发 - 图2
    拉尔夫·金博尔
    他的数据仓库构建方法目前在市场上占据了主流。和普适计算的创始人马克·韦泽一样,他也曾经在施乐公司的帕罗奥多研究中心(PARC)长期工作过。(图片来源:datamgmt.com网站)

    恩门强调数据的一致性,主张由顶至底的构建方法,一上来,就要先创建企业级的数据仓库。金博尔却说:不!务实的数据仓库应该从下往上,从部门到企业,并把部门级的数据仓库叫做“数据集市”(Data Mart)。两人针锋相对,各自的追随者也唇舌相向,很快形成了明显对立的两派。

    两派的异同,就好比华山剑法的气宗和剑宗。主张练“气”的着眼全面和长远,耗资大,见效慢;主张练“剑”的强调短、平、快,效果可能立竿见影。

    如金庸在《笑傲江湖》中描写的剑气之争一样,两派华山论剑的结果不难猜测,金博尔“从易到难”的架构迎合了人类的普遍心理,大受欢迎,商务界随即掀起了一股创建数据集市的狂潮。“吃螃蟹”的结果,有大面积的企业碰壁撞墙,也有不少企业尝到了甜头,赚了个盆满钵盈。

    潮起潮落中,两派又有新的融合和纷争。油灯越拨越亮,道理越辩越明,数据仓库的理论和技术,在争论中不断地得以丰富,到2000年,其理念和架构,已经完全成熟,并被业界所接受。

    如蚕之蛹,数据仓库是商务智能的依托,是对海量数据进行分析的核心物理构架。它可以形象地理解为一种格式一致的多源数据存储中心,数据源可以来自多个不同的系统,如企业内部的财务系统、客户管理系统、人力资源系统,甚至是企业外部的系统;这些系统,即使运行的平台不同、编制的语言不同、所处的物理位置不同,但其数据可以按统一定义的格式被提取出来,再通过清洗、转换、集成,最后百流归海,加载进入数据仓库。这个提取、转换、装载的主要过程,可以通过专门的ETL(Extraction, Transformation, Load)工具来实现,这种工具,如今已是数据仓库领域的主打产品。

    ETL工具和数据仓库理论的成熟,突破了决策支持系统的瓶颈。从此,商务智能的发展走上了顺风顺水的“快车道”,接下来,好戏连台上演。