图书馆和大脑

    在我17岁时,我丢掉了在印第安纳州Fort Wayne的Scott杂货铺的出纳员工作。在我上大学前仅仅两个月里,我看到了没有工作带来的机遇。我没有告诉父母自己被解雇了。每天下午,我依然穿着出纳员的工作服离开家:黑色裤子、黑色皮鞋、白色衬衫,还有罩衫。在父母看来,我这身穿着是为严谨的账单审查工作准备,实际上,我是要在公共图书馆看10个小时的书。

    所有好奇心强的人都想知道大脑是如何工作的,17岁的我更是超乎寻常的好奇。我在图书馆里学习大脑如何工作、休息和重建。除了使我们保持平衡、调整体温、不时地眨眨眼,大脑还摄取、处理和生成大量的信息。我们对周围的环境产生无意识的条件反射,养成短期口头禅和肢体特征,做出择偶和教育的长期计划。大脑令人感兴趣的不仅仅是它对感官数据做出反应的能力,而是作为信息库,生成计划和创建新的信息。我很想知道它是如何工作的。

    然而,大脑的特点是其存储的信息只在一个人身上。为了从很多大脑收集信息,我们建造了图书馆。为了今后的利用,图书馆科学领域已经为图书馆的信息存储发展了众多的技术。关于该课题的一个有趣的读本是Alex Wright的《Glut》(Jseph Henry出版)。除了为今后检索存储信息,图书馆在创建新信息方面也起了重大作用。正如哲学家Daniel Dennett所说的:“学者即是以图书馆的方式创建另一个图书馆”(a scholar is just a library's way of making another library)。

    图书馆和大脑是信息平台的两个例子。它们是组织进行摄取、处理和生成信息的场所,它们加速了从经验数据中学习的过程。当我在2006年加入Facebook时,很自然地开始构建了一个信息平台。因为Facebook用户数量剧增,我们团队构建的系统最终需要管理几十亿兆字节(ptabyte,PB)[1]的数据。在本章中,我将详细阐述在构建Facebook信息平台遇到的挑战,以及在开源软件上构建解决方案过程中汲取的教训。我还会概述在利用信息构建数据密集型产品和服务,并且帮助整个企业制定、实现目标过程中,数据科学家所起到的重大作用。在整个过程中,我还会描述一些其他企业在过去几十年里如何构建信息平台来处理这些问题。

    在开始介绍前,首先需要指出的是我去图书馆而不是去杂货店的计划还是很快泡汤了。自在地读了几天后,某天晚上我从图书馆出来时,却找不到车子了。对我来说,在那时丢车很平常,但是停车场是空的,所以我知道出事了;最后是母亲发现了我的伎俩,把我的车拖走了。在走回家的漫长路上,我在心里学会了一课:应该带着怀疑的态度来考虑自己的策略,另外,不要和母亲斗智。

    [1]1PB(petabyte)=1024TB,1TB(terabyte)=1024GB