实际上到底存在哪些公共数据
在Freebase(http://www.freebase.com)中工作时,我研究了数以百计的数据集,这些数据集本身很有趣,但是当作为其他数据集的增强和提供上下文时,则变得更有趣。这些数据集来自非营利机构、政府、公司和基层的努力。以下给出了数据集来源的一个大列表(但是数据样本很小),以飨读者:
责任政治中心(htp://opensecrets.org)公布了美国的政治候选人收到的个人捐款的数量。
·很多国家提供在线的人口普查数据。在美国,你可以从http://www.census.gov网站上下载人口普查数据。
·Geonames(http://www. geonames.org)数据库包含了世界各地著名地方的经度、纬度、包含的内容以及级别。
·美国证券交易委员会(htp://sec.gov)提供在美国证券交易所上市的所有公司的可下载的财经数据。
·如环境保护局(htp://epa.gov)这样的机构提供关于某些地方的环境污染以及产生这些污染的设施的可下载的信息。
·一个特别有用的资源是商标数据库(htp://uspto.gov),可以用它来发现哪些公司拥有哪些品牌,这些品牌名称的卖点是什么以及更重要的和所有不同品牌相关的艺术。
·很多社会网络允许下载很多信息子集,包括关系和其他的如位置之类的信息。
·几乎和每个可消费产品相关的营养信息(卡路里、脂肪量等)都可以从美国农业部获取(htp://usda.gov)。
·国家生物技术信息中心(NBI;http://ncbi.nlm.nih.gov)发布了很多包含了与遗传和医疗信息相关的数据库,包括Genbank、Pubmed、基因和dbSNP数据库。
·许多城市或州的卫生部门发布了关于餐饮饭馆检查的数据,它是关于城市中包含哪些餐饮饭馆以及它们是否干净的一个很好的免费数据源。
·很多机构比如联邦医疗保险(htp://medicare.gov)和美国食品和药物管理局(htp://www.fda.gov)提供了大量的可下载的关于药品的用途、成本和用法的数据。
·在线留言板通常提及公司、产品和场所以及可以从中挖掘情绪和人际关系的文本。你会发现,虽然这些资源很多来自完全不同的地方,但是它们谈论的却是非常相似的东西。这是我所探索的问题的本质——当两个数据库存储相同的东西时,如何识别?正如您将在本章的剩余部分所看到的,这是一个很难的问题,但是解决这个问题可以挖掘带来很多令人兴奋的各种可能性。