企业内部
我们认为对Web上的数据源进行整合是一个很大的挑战,但是这种挑战的缩影却是无处不在。通常,大公司内部有一些数据库存储了相同的数据项,但是这些数据库之间却无法进行查询或者员工都无法知道他们感兴趣的数据就存储在与他们一起工作的某个同事所维护的数据库里,这些问题让人震惊(至少当我注意到这个问题时)。这个问题通常被称为“信息仓库问题”,指出信息被清晰地分隔开来,而且绝大多数情况下是不可访问的——像仓库里的一粒稻谷(我一直认为隐喻可以达到涵义延伸的效果)。
当我在生物技术行业工作,与很多制药公司探讨它们的数据集成方案时,这个问题显得非常突出。在很多情况下,公司的管理结构被分为医疗领域(重点研究疾病家族)。这些领域的人们可能采用特定的目标蛋白质集来查找药品或者寻找遗传标记来预测某种药物是否有效,他们所有的时间都在执行成本昂贵的实验,在这些基因、蛋白质及其化合物上构建大的知识集。
同时,公司其他部门的同事,或者可能提早完成项目的研究人员,通常研究或者已经研究了相同的或者相似的基因、蛋白质及其化合物,因此可能错过了一些重要的深刻的见解和重复的实验。
想想为什么会有这样的问题:即使假定所有人都同意了某种模式和查询机制,也不能保证人们会使用相同的术语来描述他们的实验。应该使用什么字段以及如何搜索?比如“肺癌”实验而另一个人却把它描述为“腺癌”。很多工作组都已经尝试创建受控的词汇和固定的模式使得更容易发现实验,但是目前为止没有一个人完全真正破解这个问题。
生物技术实际上走在了前列,因为它至少已经明确了该问题,而且做出了严谨的工业范畴内的努力来解决这个问题。而另一方面,最近美国的银行投资的失败问题则很突出,没有人知道他们的股票经纪人的立场是什么,而股票经纪人自己也无法知道他们是否对房间里的某个人持反对立场。如果数据连接太少是一个问题,那么连接不应该连接的事物则会成为更大的问题。举个例子,政府已经做出了一些万众瞩目的案例,比如错误地确定某些人是恐怖分子或者拒绝某人登机仅仅因为他们和已知的被怀疑的人有相同的名字。
这些当然不是局限于大公司或者特定行业的信息。即使是小公司,也存在使客户和员工资料结合起来的问题。