超越数据仓库

    根据互联网数据中心(Iternet Data Center,IDC)显示,数字世界在2011年将超过1800exabyte(1exabyte=216byte)。这么庞大的数据将无法通过关系数据库来管理。因此,对数据库管理系统存在很紧迫的需求,要求该系统能够从无结构化数据和结构化数据中抽取信息,但是人们对如何进展没有达成一致。

    特别是,自然语言数据量丰富,信息量大,但是数据仓库管理不善。自然语言和其他无结构化数据通常在文档库和语音记录中获取,为了管理这些数据,企业组织开始超越了数据仓库供应商的产品,探索很多新的领域,包括企业搜索。

    虽然很多搜索公司构建了很多工具来收集很多超链接文档即万维网(WW),一些企业搜索公司选择重点研究内部文档集的管理。Autonomy公司成立于1996年,由一些剑桥大学的研究人员组成,他们充分利用贝叶斯推导算法(Byesian inference algorithms)来帮助定位重要的文档。Fast Search and Transfer(FAST)公司于1997年在挪威成立,其核心技术是更直接的关键字搜索和排序。两年后,Endeca公司成立了,其核心是研究使用结构化的元数据遍历文档集,该技术即“分面搜索”(fcted search)技术。G公司看到了其在搜索领域专长的机遇,在2000年推出了企业搜索设施。

    在短短的几年内,企业搜索已经成长为拥有几十亿美元的市场,该市场和数据仓库市场几乎完全分离。Endeca拥有一些处理更传统的商业智能的工具,一些数据库供应商为系统引入了文本挖掘能力,但是对结构化的和无结构化的企业数据进行管理仍然尚未实现一个完善的、集成的解决方案。

    企业搜索和数据仓库都是技术解决方案,这些方案是为了最大化利用企业的信息资源来改进性能。早在1944年,MIT教授Kurt Lewin提出了“行为研究”(ation research)的螺旋式框架,其每个螺旋阶段是由计划、行为以及关于行为结果的事实发现组成的循环。对该问题更现代的方法是Peter Senge的“学习型组织”(Larning Organization)概念,其思想在他的书《The fifth Discipline》(Boadway Business出版)中做了详细阐述。这两种管理理论在很大程度上都依赖于企业组织根据先前收集到的行为信息做出反思并适应的能力。从这个角度来说,信息平台是一个学习型组织用于摄取、处理和生成实现螺旋式行为研究的必要信息的基础设施。

    讨论完结构化和无结构化的数据管理,让我们一起回到Facebook的故事。