Toby Segaran
每年,人们都能发明数十种新的或改进的统计和机器学习技术来梳理各种数据集。这些技术几乎无一例外地拥有如下共同点:假定存在一个干净的数据集,该数据集包含现有任务需要的所有信息,而这样的数据集在现实世界中通常是无法找到的。正如亚马逊的前首席科学家Andreas Weigend所言:“人们总是问‘何种伟大的技术可以应用在这个数据集上’,而实际上他们应该问的是‘能够获取到的最好的数据集是什么’”。
同时,科学家们每天通过研究和实验生成TB量级的数据,并把它们放到网上;全世界的各地政府允许下载他们在行政中收集的数据;而用户生成的内容的“繁衍”创造了大量的餐馆数据库、科幻小说以及街道的地理位置,而在此之前根本就没有全面的数据。因此,很多数据是可以获取的,但是除了极少数的专家善于利用这些数据外,其他人很少使用——对于其他所有人来说,不能利用这些数据是很让人遗憾的,如果充分利用,那么一篇文章的一页或者两页,其价值可能会高出10多倍。
我相信当前数据“牧羊人”的最大挑战和机遇在于连接不同的数据集,以便创建新的数据集进行分析,并且充分利用数据的繁衍性,已经研究出来的新技术以及可用的令人不可思议的硬件资源。自从数据库产生之后,数据集成一直是一个问题。但是对于研究人员或者好奇的个人可以获取的潜在相关的数据量比原来大了好几千倍——该问题已经从企业范围转变为普遍存在的。
对我来说,这是个重大、棘手的问题,它几乎涉及我的职业生涯的方方面面。因此,在本章中,我不会讨论某个项目,而是要采用不同于本书中多数章节所采用的方式,转而探讨我从多年的项目中汲取的经验。