作为数据空间的信息平台
在雅虎、Quantcast和Last.fm公司,也有类似的几十亿兆规模(ptabyte-scale)的数据平台。这些平台不完全是数据仓库,因为它们通常不使用关系数据库或者任何数据仓库建模技术。它们也并不完全是企业搜索系统,因为只对一部分的数据构建索引,而且它们对外开放了更丰富的API。除了传统的数据分析工作,它们通常用于构建产品和服务。
与大脑和图书馆类似,这些共享的数据处理平台为公司摄取、处理和生成信息提供了场所,幸运的话,它们还可以加速企业从经验数据中学习的步伐。
在数据库社区,研究议程已经开始从纯关系数据管理过渡到在大数据集上存储和查询的更经典的系统,称为“数据空间”。在论文“From Databases to Dataspaces:A New Abstraction for Information Management”(htp://www.eecs.berkeley.edu/~franklin/Papers/dataspaceSR.pdf)中,作者强调了存储系统必须支持所有数据格式,并提供一些API供数据访问,这些API是基于存储系统对数据的理解不断演化的。
我们之前描述的信息平台是数据空间的真实例子:用单一存储系统管理企业中各个部分的所有的结构化和无结构化的几十亿兆的数据,该系统需要给工程师、分析员和报告员提供各种数据访问API。由于在工业上这些系统大量存在,我期待数据库社区继续探索数据空间的理论基础和实践意义。
信息平台是构建学习型组织的基础设施的关键部分。人们在加速学习和利用信息平台过程中,开始扮演了数据科学家(te Data Scientist)的角色。