连接数据的可能性

    早在20世纪80年代,我看了一部名叫《Wall Street》的电影,有一个场面始终给我非常深刻的印象:由Charlie Sheen扮演的一个年轻的股票经纪人给他后来的导师(由Michael Douglas扮演)提供了一份非常有先见之明的股票情报。在该情报被证实非常精确之后,Douglas告诉Sheen说他知道该公司工会的主席是Sheen的父亲。这意味着Douglas手下的研究人员可以发现人们和公司的关系,而在那时,它促使我思考数据连接在一起可以做什么事情。

    当然,在以上场景下,这听起来让人有点毛骨悚然,但这正是像证券和交易委员会(Scurities and Exchange Commission,SEC)这样的机构为了发现欺诈和内幕交易,通过手工所做的研究。暂时抛开个人隐私问题和如家庭关系这样的个人数据,而是考虑如果几百个公共数据源能够结合在一起,我们可以发现不同事物之间的关系,那将会发生什么事情呢?我们会发现什么?

    以下是一些即兴的想法来启发你。你很可能对实施这些想法没有任何兴趣,但是希望这些想法可以引导你产生自己的关于数据连接的想法。

    使用商标数据,我们可以确定哪些公司为不同的品牌服务,我们可能会结合美国农业部(Uited States Department of Agriculture,USDA)的营养学数据,以便确定哪个公司生产最多的含糖饮料。我们还可以对商标数据进行商标标识分类,查看卡通是否更经常被用于销售高热量的产品。我们还引入更多的数据,使用美国环境保护局(EA)的数据来查看不同地方企业的污染量,以及这些数据和公司产品的销售情况的相互关联关系。

    把地理数据库如Geonames和社交网络结合起来,我们可以判断人们的地理位置和距离对他们成为朋友的可能性所产生的影响。把这些影响关系和人口普查数据结合起来可以告诉我们人们成为朋友是否受到地理位置或者人口统计的影响(小城镇的人们是否关系更密切?未婚率高的人口是否与更多的社交网络使用相关?)。在政治方面,我们可以把证券交易委员会的哪个公司属于哪个行业的数据和责任政治中心(Cnter for Responsible Politics,CRP)提供的政治贡献相关的数据结合起来。这可以帮助我们确定哪个行业给哪个政治党派捐赠最多。图20-1显示了一些饼图,用于证明这种特定方式的数据混搭。

    连接数据的可能性 - 图1

    图 20-1:证券交易委员会的数据和责任政治中心提供的政治贡献相关的数据的饼图(见彩图70)

    我甚至还没有谈及股票价格和留言板上的情绪分析之间的关系,试着把遗传和药物数据结合起来,或者判断在收入低的小区的餐馆是否卫生更差(根据健康检查员的报告),但是这只会使你对不同数据源连接起来后带来的可能性有略微的了解。遗憾的是,数据集之间的自动连接很复杂,甚至接近不可能。在上个例子中,我们获取证券交易委员会的数据,它根据名字列出各个公司,但是为了在证券交易委员会找到公司,我们需要中心索引关键字(Cntral Index Key,CIK)。更进一步,像Exxon Mobile这样的公司通常不是分类为“能源”公司,而是更具体的“石油勘探”公司,因此,为了发现所有的能源公司,我们需要建立哪个公司属于哪个行业子集的层次分类。