第二部分 大数据时代如何进行信息的取舍
03 世界已经被设置成记忆模式:数字化记忆发展的4大驱动力
人类对完整记忆的需求一直在持续上升,这让如今的世界已经被设置为记忆模式。海量的数字化记忆不仅唾手可得,甚至比选择性删除所耗费的时间成本更低。这是一个几乎失去了遗忘动机的时代……
没有人可以不交流。在数字时代,只要在沟通过程中运用了数字设备,交流产生的信息便会被添加到我们的“数字人生”中。
如今,对于成千上万的用户而言,将数字信息重新组合都变得触手可及了。但是这些新文化产品的创造者,将信息与其原有背景剥离开,让它与一个全新的背景相联系。
完美的信息控制即便在模拟时代也只是一种幻想,除了对于最坚定的隐士。而在数字时代,作为个人,我们控制信息的能力再次被大大减弱了。
小黑盒子与麦克斯存储扩展器
小型计算机之父戈登·贝尔(Gordon Bell)被称为“计算机界的弗兰克·劳埃德·赖特[1]”。他引领了美国数字设备公司(DEC)的传奇产品——PDP(程控数据处理机)与VAX(一种支持机器语言和虚拟地址的32位小型计算机)系列的发展;塑造了美国国家科学基金会(National Science Foundation)在跨越整个美国的网络计算机方面的工作——这就是将要成为互联网的东西。
在20世纪90年代中期,当达到退休年龄时,贝尔加入了微软公司的研究部。他是非常睿智的长者和工程师,常常面露可爱的微笑,有着无穷的精力,伯父般的慈祥,以及深邃的洞见。唯一奇怪的是,他的脖子上总是挂着一个烟盒大小的小黑盒子,这是戈登·贝尔最明显的标志。在他70岁的时候,这个小黑盒子再次肩负了一个使命,那就是:记住他生命中的所有片段。贝尔的目标无异于消灭遗忘。他说,“我相信,这就是对个人计算机终极意义的探索,那就是记录一个人完整的一生。”
近十年来,贝尔尽可能将他所能接触到的所有信息都存储在他的电脑中。这是他与微软研究部的同事合作的长期研究项目“我的生活片段”(MyLifeBits)的一部分。贝尔扫描了几乎所有的纸质笔记与手册,包括800页他的个人健康记录,并将它们存储到硬盘里。他保存了他发出的或收到的所有电子邮件的副本(超过12万封),以及他访问过的每一个网页的镜像。他以录音形式记录,并以数字形式存储了很多他与其他人之间的对话;而且他戴在脖子上的小黑盒子实际上是微软开发的数字摄像机,这个摄像机每30秒会拍下一张快照,或者每当有人接近贝尔的时候也会拍照。就这样日复一日地拍照,他估计自己文件夹里的这类照片已经超过10万张了。
机器充当人类完美记忆“假肢”的思想并不新颖。在20世纪30年代晚期,英国科幻小说家赫伯特·乔治·威尔斯(H.G.Wells)描述过一个“世界脑”(world brain)的概念,通过它,“整个人类的记忆能够被每个人获取到”。几年之后,第二次世界大战期间一位出身名门的科学管理者范内瓦·布什(Vannevar Bush)通过论证,对今后可能出现的完美记忆机器进行了最有影响力的描述。在一篇1945年刊载在美国《大西洋月刊》上的文章《诚如我们所思》(As We May Think)[2]中,布什描述了一种他称为“麦克斯存储扩展器”(memex)的机器,它“使人类能够接触并控制每个时代传承下来的知识”。用户将不仅能够查询麦克斯存储扩展器,还能够不断地将信息添加到它的存储器中。与威尔斯的“世界脑”非常相似,对于布什而言,麦克斯存储扩展器将“实现一种方法,通过这种方法人们能够制作、存储并查询人类的记录”。
然而,范内瓦·布什的麦克斯存储扩展器从未被制造出来。技术的方向不在那里,而且布什也与其他冒险者一起,精力不再集中于此。但是半个多世纪之后,戈登·贝尔实现了布什的大部分预想,而且走得更远。他成功地制造了一个存储他生活信息的巨大外部存储器,他可以随时在几秒钟之内访问这些信息,仅需要按几次键盘就能实现。那么,在布什与贝尔之间的半个世纪中,什么东西改变了呢?
我们已经从模拟信号时代进入了数字时代。现代技术已经从根本上改变了能够被记住的信息的内容,改变了记住信息的方式,也改变了记住信息所需要付出的代价。随着经济方面约束的消失,人类已经开始大量增加他们存储到数字外部存储器中的信息量。
取舍之道
便于提取的数字化记忆数量,在过去十年间有了大幅的增加,每年的增长率持续高涨。2002年的一项研究估计,每年大约有5艾字节[3]信息被存储,年增长率达到了令人错愕的30%左右,这些巨大的信息堆中超过90%是数字形式的。如果这个数据是相对准确的估计,那么,仅2005年一年产生的信息量,就应当已经达到了10艾字节。这仅仅只是我们每年新添加到全球数字化记忆中的信息量。很明显,记忆已经成了常态,而遗忘反而成了例外。四种主要的技术驱动力促进了这一转变,它们分别是:数字化、廉价的存储器、易于提取以及全球性覆盖。
驱动力1:数字化
将我们的时代称作“数字时代”似乎已经是老生常谈了。从模拟信号到数字信息的转变,即便没有影响到经济成分和我们生活中的所有方面,也已经影响了其中的大部分。
在40年前,数字化还只是一个相对晦涩的话题。而今天,如果主流文化没有数字化,几乎不可想象。我们听的是数字化音乐,拍照与录制视频使用的也是数字设备。我们创造的大部分文件,从简单的信件到复杂的设计,都是以数字形式存储的,并通过数字网络传送给收件人;全球电话网络也是基于数字代码;电影正在走向数字化;电视与广播也是同样如此。医疗诊断,从磁共振成像(MRI)到测量我们的血压或者体温,都以数字形式呈现其结果。甚至是孩子们玩的无线电操控的模型飞机、玩具火车与有轨电动模型赛车使用的也都是数字技术。
麻省理工学院媒体实验室创始人尼古拉斯·尼葛洛庞帝(Nicholas Negroponte)将他的畅销书命名为《数字化生存》(Being Digital)也就不足为奇了。尽管数字化模式现在已经是主流,但是数字化模式本身以及为什么它与模拟信号不同,仍然像理解记忆状态急速上升的重要性一样复杂。
在模拟信号的世界,存储的信息往往是对原始信号相对准确的复制。比如,为了保存声音,它被转译成电信号,电信号随后又被用于磁化磁带的表面。不幸的是,当模拟信息(即以模拟信号的形式存储的信息)在随后被处理、存储与传送的时候,随机的变动,确切地说是噪声,总是被加进来,最终致使原始的信息无法理解。
我们当中那些对于模拟音乐录音带有印象的人对此太了解了:对一盒真正好的音乐磁带不断拷贝进行复制产生的,不是另一盒同样拥有良好音质的磁带,而是一盒音质不太好的磁带。在每一次复制的过程中,噪声慢慢混入录音中,降低了它的保真度。
复制模拟录像带也会导致类似地问题,就像被用来复印的文件本身就是一份复印本会遇到的问题一样。这就好像在模拟信号的世界中,为了有意记住而制作的每一分拷贝都无法逃脱一部分的遗忘——造成的后果就是,每复制一次就会对内容产生一次轻微而随机的破坏。重要的是,回溯到首份拷贝(而不是对拷贝进行复制)并不能消除这个问题,因为复制不仅将噪声混入到了拷贝中,也将噪声(尽管程度很低)混入了原始版本中。这也就能解释当一个人播放一盒模拟录音带太多次之后发生的情形:存储的模拟信号越来越弱,并且导致声音的质量也受损。所有这些影响都能够通过设计完好(而通常也很昂贵)的设备得到减弱。
一套高端唱片播放器与放大器,包含一个设计完好的扬声器,播放的是需额外支付费用的高端唱片。在模拟信号时代,这样一套高端设备可以产生优质的声音,但是这种模拟记忆需要承担巨大的代价——包括以设备的形式,以及由于随着时间的推移,唱片的音质也逐渐在衰减。同时,由于随机的变动无法从原始信号中区分出来,这种“噪声”永远无法完全被消除。
数字信息则完全不同:噪声能够被避免,所以质量不会随着时间衰减。其中原因也很容易看清:由于信息是数字化的,所以它可以近似为它的各个部分组成的离散集合。
就音频来说,通过在每秒钟内对频率与振幅测量上千次,声音被数字化了。这些测量中的每一次测量都是一个“样本”,表示某个特定(而且也非常短暂)时刻的声音。将众多的样本以正确的顺序合在一起,就复制出了一种近似原始声音的副本。如果每秒钟的抽样数足够多,对于人类的耳朵而言,复制的声音与原始的模拟声音根本无法区分。
类似地,一幅图像,能够通过使用一个由多个或黑或白的小领域(俗称像素)组成的栅格(比如,1000×1000)被数字化。这就能创造一幅原始图像的黑白近似图像。如果有很多这样的像素,而且每个像素都足够小,那么作为结果产生的图像将会非常好。传统黑白报纸上的照片的原理与这种方式有几分相似——当一个人近距离地看报纸上的照片时,一个个小圆点是清晰可见的。
这种将感觉信息(模拟信号)转译成离散状态的方法,就像一个既可以是黑色也可以是白色的像素一样,最初听起来可能感觉比较繁琐,但是它却提供了一个巨大的优势。它极大地改善了“噪声”的问题,在印刷领域我们称之为“噪点”,也就是随机变动的问题。
以一幅数字图像为例,它由1000×1000个或黑或白的像素点组成。当把它在一台激光打印机上打印出来的时候,我们就把它转回到了模拟形式,也因此引入了噪点。打印机可能不会在所有像素点上都完美地工作,而且其中一些黑点可能不会像另一些黑点那样黑。如果我们再次对这张打印出来的图像进行扫描(把它数字化),我们能够告诉扫描仪一个由单个像素点代表的信息位(information bit),它只能是黑色或者白色,而不会是灰白色或者淡灰色。因此,当我们的扫描仪遇到一个不尽完美的、打印出来的灰色点时,它能够自行将那个点的信息更正为原来的黑色,这样噪点就被消除了。
有了数字信息,大部分随机变动,即噪声或噪点,就能够被过滤掉,就像任何信号(如“灰色”)与某个特定值(如“黑色”)足够接近时,就能够被理解成那个值。
如果这些特定的预先定义的值或者离散状态尽可能少的话,识别噪点的效果最好。假设数字化系统根据暗度将一个像素编码为白色,灰色或者黑色。噪点可以改变其信息,以至于一个白色的像素可以变成灰色像素或者黑色像素,一个灰色像素可以变成白色或者黑色像素,或者一个黑色的像素变成白色或者灰色像素。
这样,一共存在六种由噪点造成的可能错误状态。我们将这种情况与只拥有两种状态(黑与白)的系统相比较。在后一种系统中,噪点可能将一个白色像素变成黑色像素,或者将一个黑色像素变成白色像素。它只有两种可能的错误状态。数字化系统无法告诉我们某个特定系统有多少个预先定义的状态。它可以是100个,10个,或者5个,但是至少必须要有两个状态。仅基于两个离散状态进行信息编码采用的是二进制系统,比如黑与白,开与关。因为它使用的离散状态数最少,所以它能更好地避免噪点。这也是为什么今天所有常见的数字化系统都使用二进制代码,以及为什么使用二进制系统数字化的信息已经成为与数字化信息这一术语同义的众多原因之一。
剩余噪声的问题可以使用复杂的“校验和”[4]与类似地方法进一步降低。结果是,为了实际运用数字化信息,我们对噪声的修正也习以为常。它的影响是深远的:这与在模拟信号的世界不同,第一份数字拷贝是一份精确的复制品;每个比特(二进制的信息单位)都是原始信息的精确复制。几百次复制数字原始版本拷贝的拷贝,结果产生的副本仍然与原始版本一样完美。质量没有下降,而且复制并不附带对原始版本的损害。提取信息也不具有损害性:我能够百万次地听相同的数字音乐文件,而且也不会磨损;虽然我的播放设备与耳朵可能会随着时间变化受损,但是包含信息的文件却不会受损。
乍一看,数字化的这种明显优势还伴随着一个明显的缺点。毕竟,数字化创造的仅是原始版本的一个近似版本。至少在原则上,它不如模拟方法准确。但是,这种缺陷的程度取决于与原始版本的相似程度有多好或多坏。如果声音被抽样的频率只是每秒钟几次而已,那么,作为结果产生的数字录音对于人类的耳朵而言,就几乎不可能被识别,而且极大地落后于模拟方法。另一方面,如果声音被抽样的频率是每秒钟成千上万次,那么它就提供了这样一幅数字景象,当听到这个声音时,它提供了一种极好的音频体验。
如果由100×100个只能是黑或白的像素组成的栅格产生一幅图像的话,大量的信息将会丢失,同时作为结果产生的数字化图像将会是原始版本的一个极其简陋(而且无法令人满意)的近似版本。但是,假设一部数码相机拍摄一幅图像时使用了4000×4000个像素的栅格,每个像素点代表几百种离散颜色状态中的一种,而非只是黑色或白色的话,那么效果就会好很多很多。这样的一幅数字图像,至少对于未经训练的人眼而言,是无法将其与原始版本进行区分的。
利用更多的信息,即以更高的频率对声音进行抽样,或者使用具有更高像素的传感器去拍摄照片,是解决近似这一障碍的关键。这也是为什么音乐CD(以每秒钟44100次的频率对音乐进行抽样)与所有设备(但除了最精密昂贵的设备)上播放的模拟磁带与录音相比,能够提供了更好音质的原因。对于使用千万以上像素去数字化一张图像的数码相机而言,同样也是如此。
类似地,与常规模拟信号电视提供的区区13万像素相比,最新一代的便携式摄像机现在能够以前所未有的“高清晰”质量拍摄,每张图像大约200万个像素。当然,这种数字化系统的保真度不仅取决于抽样数,还取决于声音传感器与图像传感器以何种程度将声波与光线转化成数字信息。这也是为什么对于数码相机而言,更高的像素并不必然能转化为更高图像质量的原因——图像质量还取决于使用的数字化传感器的质量。
由于没有噪声的问题,所以数字信息优于模拟信息。只要技术可以足够快速地将模拟信息转化成数字信息(反之亦然),并且存储的数字信息量能够满足原始(模拟)信息的充分近似的需要的话,数字化系统注定要取代模拟系统。一旦模拟声波能够被处理成几百万个数字样本,存储在一个负担得起的介质(比如一张音乐CD)中,并且被一台能够将数字信息转回模拟声波的设备(CD播放器)所播放,那么整个音乐产业都将转化为数字形式。我们已经在文本处理、摄影与视频领域看到了类似地转变。
但是,数字化系统的优点远远不止如此。在模拟信号时代,处理、存储与提取过程因不同类型的信息而不同。这就导致了关于不同信息类型的专用设备与一个专门的市场生态系统的发展。
消费者使用录音机与空白磁带存储和提取声音。预先录制好的磁带由音乐出版商生产,并通过专门的音乐商店出售。消费者使用专门的相机与模拟胶卷拍摄照片,这是当时照相冲印实验室开发出来的。人们通过钢笔或者打字机将墨水印在纸上来创建文件,而纸张、墨水、钢笔与打字机都是通过专门的“办公”用品商店出售的。消费者看的录像是通过模拟便携式摄像机录制在模拟磁带上的,随后再显示在模拟电视机上——所有这些设备都需要从电子商店里购买。
这种根据特定类型、煞费苦心的信息处理的方式是有效的,但是它的效率显然比较低:我们在家里和上班的时候需要使用很多种不同处理、存储与提取信息的设备,而且它们中的每一个都需要正确的操作与适当的维护才能运行。如果我们还剩下一盒备用录像带,我们也不能用它来记录文本,就像我们无法用纸张去存储音乐一样。
在数字信息的世界,所有信息都以二进制信号存储,而且所有设备,至少原则上,都能够处理这些数字信息。只要信息能够被数字化,它就能够被存储在同一台数字存储设备上,而不管信息是声音、视频、文本,还是其他类型。人们可以将贝多芬的音乐与他们的婚礼录像,以及他们最新的商业计划都存储在同一个硬盘上,而无需担心这些信息有混合或者被损坏的风险。
标准化通过大规模生产,为数字存储设备制造商提供了巨大的市场机会,因为这些设备能够被用于存储所有类型的数字信息,这进而产生了效率。由于生产的数量非常巨大,这些设备的单价已经有了大幅的下降。标准化还推动了对一种多用途信息处理设备的需求,只要连接上了必要的输入和输出设备(麦克风与扬声器,相机与屏幕,键盘与打印机),就能够编辑文本、图像、声音与视频。个人电脑数量急剧上升,并占据信息处理领域当前的主导地位,至少部分受益于数字化驱动的这种对通用设备的需求。
标准化的好处,还延伸到了通过或大或小的网络进行信息共享与分配的领域。模拟信息在相互分离的基础设施中,依据不同的信息类型进行共享与分配。报纸通过卡车送往各地的销售员,电影用船运到各家电影院;模拟广播则通过发射器系统来传播。相比而言,数字信息不管什么内容,都可以通过相同的数字网络进行传输。共享一个传输网络而非采用单独的分配网络,明显更为高效。
数字信息的标准化还有另一个好处:与模拟信息相比,它更能经受住“未来的考验”。只要一个信号能够被数字化,它就能够用诸如个人电脑这样的标准化数字信息设备进行处理,用诸如硬盘这样设备进行存储,并且通过互联网在世界范围内进行传输。
互联网本身的演变也是一个非常好的例子。最初,互联网被用于多个(远距离)用户共享一台电脑的信息处理能力。随后,在同一个网络中,文件传输与电子邮件被添加为新的服务。而当蒂姆·伯纳斯-李(Tim Berners-Lee)发明出万维网的时候,它依靠的就是既有的互联网基础设施,就像后来的音频流与视频流,以及网络电话(即IP电话)一样。当然,随着时间的推移,互联网的传输管道也已经更新修改了,但是它的基本建设原则仍然保持不变。
互联网作为一个全球数字网络,能够经受住“未来考验”的基础是,它不会被弃置,不会被取代,甚至不会从根本上被改变。这样就能够使即时通讯、在线游戏,甚至在诸如《第二人生》(Second Life)游戏这样的复杂虚拟世界中畅游成为可能。
消除噪声同时保持保真度,并通过标准化、大规模生产以及更好的资源分配使得效率得到大幅上升,数字化系统已经使得从根本上改善信息处理、存储与提取成为可能。但是,它的影响超越了在经济学上的显著作用。通过消除噪声,模拟技术不断增加的固有遗忘,原始版本与拷贝的概念,都快速地成为过时的概念。所有的数字拷贝都无法与原始版本进行区分。这为每个想使所有的信息,包括“拷贝”与“原始版本”接近完美的人提供了好处。数字拷贝的完美性极大地方便了高质量信息的分配。多亏了它,今天我们才能够享受到高保真度的音乐与高清晰度的视频。我们能够负担得起的相机,可以以模拟时代的业余爱好者几乎不可能接触到的分辨率去拍摄照片。而且我们能够与成千上万人分享这些照片,而双方都无需忍受由广泛传播与反复复制造成的质量下降。
并非每个人都为数字信息无损、廉价与易于复制的特性而高兴。内容的拥有者担心人们复制了内容而不付钱。在模拟时代,噪声,这种缓慢但不可避免的遗忘,充当了大规模非法复制的障碍。试想一下,一盒非法模拟音乐磁带的拷贝由于模拟技术对音质的降低,听起来效果平平而不再具有高品质;这可能会促使消费者去购买一份直接源自母带的正版拷贝(或者更可能是从母带上移植的拷贝)。另外,如果一份非法的拷贝能够与原始版本一样好,那么让消费者去购买正版就要难得多了。要做到这一点可能需要在正版中提供额外的东西(大概出版商已经通过苹果公司的iTunes音乐商店以及类似地合资企业进行了实验),或者直接叫警察了。
然而,不考虑这些版权的问题,数字信息易于在世界范围内获取与分享的特性极大地增加了我称之为“共享的社会记忆”的东西。社会记忆不仅在规模上增加了,而且还成为了全球的共享记忆。
几年前,我在文莱首都闲逛时,经过那里唯一的一个大型购物商场。我注意到,一家商铺的广告醒目地告知消费者,他们在私售美国的一部著名电视剧《欲望都市》。起初,我对于这么露骨的电视内容能够在一个传统的伊斯兰社会如此公开地出售大吃一惊。但是,如果考虑到如今全球信息都能通过卫星电视、私售的DVD与CD,以及互联网进行流通,就很容易理解为什么文莱的人们也想跟随《欲望都市》的女主角凯莉·布拉德肖的视角,穿过纽约曼哈顿、美国辛辛那提,或者罗马的约会场所了。
取舍之道
由于大众媒体的全球性覆盖,共享记忆即便没有全球化,也早已经国际化了。而且数字化系统已经使一个更大、更为全球化的共享记忆成为可能,同时,这种可能性远大于模拟时代的可能性。另外,它可能会奇怪地助长了这种共享记忆的碎片化,因为人们可以去选择,将自己在多大程度上暴露在这些社会记忆的哪一部分面前。
数字拷贝与原始版本一样好的特性,也改变了人们感知信息的方式,尤其是对那些成长于数字时代的人而言。如果在模拟时代,拥有很多书籍或者音乐磁带或者电影录像带会被认为很酷,那么在数字时代,能够在它们的基础上去构建新东西才酷——将我们信息文化的一些手工产品结合成一些新的或原创的东西。史蒂夫·乔布斯曾对音乐有过一句精辟的描述:“扒歌,混制,刻录。”(Rip,mix,burn.)也许还可以加上每个人自己的内容。尽管强调的重点放在了混合(mixing)、重新组合(recombining),以及著名的施乐公司帕洛阿尔托研究中心(PARC)前任领导人约翰·希利·布朗(John Seely Brown)所提出的再创造[5]上,这些过程的价值其实来源于其各个部分的组合与重新组合,而不必然来自各个部分本身。希瓦·维德海纳森(Siva Vaidhyanathan)提供了“妖精编辑”(Goblin edits)的例子,富有创造力的俄罗斯艺术家将西方最卖座的电影重新用俄罗斯语配音,赋予了这些电影全新的故事。随着数字化文化强调重新组合与共享而非拥有,人们正在利用数字化系统带给他们的信息权力。
总之,数字化系统是新一代信息处理、存储与提取的促成者,而且共享这些信息极大地超越了模拟时代信息的共享。
驱动力2:廉价的存储器
在20世纪40年代早期,当数字处理技术刚刚开始起步的时候,数字存储的代价极其昂贵。第一台成功的商用计算机UNIVAC(通用自动计算机)的主存储器有12000个字符(字节),同时一盒磁带驱动着它的大容量存储器。一盒磁带能够容纳一兆字节(megabyte)。当时UNIVAC计算机的售价是100万美元,换算成美国现在的价格大约相当于750万美元。
磁带是一项很有用的创新,但是除了其价格昂贵之外,它们提取数据的速度也很慢:如果某一块信息被存储在一盒1200英尺长的磁带的末尾,那么,想要提取这块信息就要把整个磁带都放完。工程师们便开始寻找能够提供更快存取时间的计算机存储技术。
磁鼓(magnetic drum),是这个寻找过程的第一步,但是它不仅昂贵而且存储容量有限。1957年,IBM推出了305计算机,这款计算机以磁盘作为存储设备,能够提供高达5M的空间,价格在100万美元左右(按2006年的货币换算)。在20世纪50年代,仅存储器的费用就高达大约每兆七万美元;到了1980年,这个价格已经降到了500美元以下(所有价格均换算为2006年的货币),连25年前价格的10%都不到。20年后,到了2000年,存储器的价格已经骤降到1美分左右,是1980年价格的五万分之一。到了2008年,一兆的存储器的价格已经降到了0.01美分。50年间,存储器的价格每两年大约就会下降一半,而存储密度则增加了5000万倍,从1956年的每平方英寸2000比特增加到2005年的1000亿比特。
硬盘的价格与存储器的大小不是成正比的。因为硬盘本质上是由一个电动机驱动的磁盘,并且以每分钟几千转的速度旋转,总成本的一部分往往花在这些必需的机械部件上。基于芯片的存储器则不具有这一缺点。这也是为什么我们看到,在过去10年间对基于不挥发硅的存储器,即所谓固态存储器的使用,存在一种稳定的增长。数码相机,手机与音乐播放器都采用这种“闪速存储器”。最初它相对昂贵,逐渐存储卡每兆的价格与硬盘价格一样有了显著的下降,降到了2008年大约每兆三分之一美分——这一价格与成本之比是硬盘2001年就达到的水平。然而,固态存储器具有一个优势,那就是它不需要机械部件。
自从硅基集成电路出现以来,工程师们已经能够缩小这些电路上的单个元件的大小,这样也就能够在相同的空间内集成更多的元件。1965年,一位名叫戈登·摩尔(Gordon Moore)的工程师写道,“自集成电路出现以来,它的复杂性大约每年会增加一倍。每个功能的集成电路的成本已经下降到当初的几千分之一。集成电路复杂性的增长率可以预计将在未来几年内发生变化,新的增长率可能大约是每两年增加一倍。”这个本被当作是推测的观察已经适用了40多年,而“摩尔定律”如今已经成了一个简称,代表着每18个月集成电路的复杂性就增加一倍,并且自有集成电路以来我们已经目睹了这个定律的正确性。
戈登·摩尔不仅说得准,而且做得也好:他与人联合创立了今天的芯片制造巨人英特尔公司。因为固态存储器没别的,就是一个复杂的集成电路,所以摩尔定律同样也继续适用于固态存储器。而当前技术唯一的根本缺陷就是,闪速存储器会缓慢地磨损。当信息已被删除或写入超过10万次之后它会变得不可靠。而对于一个更长期的存储媒介而言,这不是一个太可能发生的事件(因此也算不上什么缺点)。
几十年来,光学系统已在数字存储器中扮演了一个重要的补充者的角色。在消费者层面,这已经导致了CD(1982年被引入,拥有6.5亿比特的存储空间)、DVD(1995年被引入;存储量是CD的7~13倍)和蓝光光盘(Blu-ray Disk,2006年被引入,比CD的存储量大大约40~80倍)的广泛使用。光学系统中存储能力增强的步伐相对缓慢并不必然是技术限制的标志,而是用户的偏好。光存储器的发展是基于可替换的媒介的(光盘)。当底层的技术从一个系统更换到另一个系统时,老式的可替换媒介记录的内容可能不能再播放,或者无法以新设备的用户所期望的质量播放。
这对于那些仍然拥有大量老式模拟VHS(家用录像系统)盒式录像带电影的收藏者来说,就是一种很常见的情况。由于消费者已经买了可录制的媒介,他们不愿去更换。这些可感受到的更换成本限制了这类存储系统的新一代产品能够多久一次获得市场成功。为了降低更换成本,设备制造商有意设计了DVD和蓝光驱动器,它们也能够读取较老的格式,因此至少保证了一些向后兼容性(backward compatibility),但是这些解决办法只是权宜之计。这种情况对于硬盘则截然不同。因为不存在可替换的媒介,当硬盘技术发生改变时,用户并不在意。对于他们而言,一个硬盘就是一个黑盒子。只要它能够存储和记住东西,底层的技术制造工艺是无关紧要的。因此,硬盘存储方面的新技术进步能够更快地被引入市场,而且无需惧怕更换成本。
直线下降的存储价格已经受到用户的欢迎。当价格已经降到私人需求也可以负担得起的时候,它就将长期的数字存储器带给了大众。而且,消费者也不太可能很快就用尽存储空间——等到一个人已经装满了她的硬盘时,又可以购买一个拥有两倍或三倍存储空间的新硬盘。戈登·贝尔认为,人们将不会再有硬盘空间不足的情况。贝尔可能会惊讶地看到,即便300G的空间被高清晰的视频填满是多么容易,但是在某种意义上他还是对的,那就是存储能力的增强正在继续满足人类对额外的存储空间的欲望。
在某些情况下,数字化存储信息变得比模拟存储更廉价。一页文本,单倍行距,包含大约2000比特的信息。激光打印一页文本的成本已经相当稳定,大约10美分,所以制造一兆字节文本的模拟版本大约需要花费50美元。1987年时,磁硬盘上的数字存储已经降到了每兆40美元,这已低于模拟存储的价格。从那时起,数字存储不仅更加便利了,而且比打印和保存传统的硬拷贝(hardcopy)更便宜。
以图像为例:打印一张常规照片大约需要花费30美分。1997年时,数字存储已经变得如此便宜,以至于存储一张数字格式的图像比常规的膜印刷(假如是一个存有3兆图像的文件)的价格还便宜。到2000年时,在硬盘上以数字格式存储一个音乐文件比存储在空白的模拟录音带上还要便宜,这使得传统的盒式磁带录音机变得很不经济。而且到了2006年,在硬盘上存储消费者的视频已经比买空白的模拟录像带更便宜。
如今,数字存储对于消费者的使用来说,显然已经比模拟存储我们生活和思想的记忆更便宜。
这听起来可能令人很错愕,但是廉价的存储器还有一个更为重要的方面——存储空间。当硬盘制造商迅速意识到这一点并提供了一种选择时,消费者宁愿花与上次差不多的价钱买一个存储空间更大的硬盘,而不愿以不断下跌的价格再买一个与上次相同存储空间的设备。至少一旦存储器达到了一个消费者能轻松接受的价格水平时是如此。不是为了省钱,用户想的是利用数字存储去保存越来越多的信息。因此,硬盘的价格已经大致稳定了,但是我们使用的硬盘的存储能力则一直在提升。这就是为什么我们的个人电脑能够提供太字节(TB)级别,即100万兆字节(MB),的硬盘存储空间,而价格却差不多与20年前相同;我们的数字音乐播放器能容纳好几百小时的音乐;而我们数码相机的闪存卡里能够存储几千张高清的照片。
两个驱动因素使得这个不可思议的增长在廉价存储器上成为可能。
第一个因素在研发和生产方面。存储设备,不管是硬盘还是硅芯片,都是大规模生产的,而且仍然必须符合严格的生产标准。起初,生产容易产生误差,导致产量很低。随着制造商对生产工艺进行调整,产量提高了,而且这种规模经济拉低了价格。这一过程会一直继续,直到进一步细化生产工艺的代价变得比他们生产所获的收益还要高昂的时候。制造商还试图革新产品,以期在产量提高已经不可能的时候切换到新的产品上。这种新产品在存储能力方面能够提供明显的提升,但是最初,当生产产能提升时,生产的产量仍然很低。
另一个因素是,存储器市场的需求在增加。这使得市场推动制造商提升存储能力并降低价格。而且,因为存储价格下降导致的需求增加,使得信息存储和存储设备能够让新的人群对于负担得起——当一台个人电脑只需花几百美元时,就会有更多的人愿意购买。同时,不难获取到的存储空间和进一步的数字化,将使得将各种类型的信息(文本、图像、音频、视频和空间数据)转置到数字设备上成为可能,这又再次刺激了需求。比如,随着数码相机用户将照片存储在多用途硬盘上,数码相机的兴起已经提升了这一需求。
让我们简要回顾一下:数字存储已经变得如此便宜,以至于在数字存储器上存储信息,即便是全屏视频,比诸如纸张、胶片与磁带这类模拟存储信息的方式还便宜,这使得保存我们遇到和生成的海量信息成为可能。就像戈登·贝尔,他在使用数字媒介捕捉自己的全部生活方面走得很远——其中包括几十年的记录在他笔记本和文件上的想法和笔记的数字版文件,十万张照片,几百个小时的音频,以及几千张他访问的网站的镜像图片。他估计他已经积累了大约100G的信息,这甚至都没有装满他那台普通笔记本电脑硬盘的三分之一。他可能还需要录下他每天的日常生活以获取更多数字信息。
对于我们而言,这种异常丰富的可获取的存储空间,使得我们行为上的关于外部记忆的常态很容易地从遗忘转换为记住。我们将我们工作所涉及的不同类型的文件保存到我们的硬盘上,因为某一天我们可能需要用到它们。存储信息已经变得极其便利,但是引导我们保存数字信息的还不仅仅是为了便利。事实上,存储信息的经济原理已经使遗忘变得异常昂贵。拿数码相机来讲:当你将相机连接到你的电脑上,把其中的照片上传到你的硬盘时,你通常会做一个选择:要么选择手动上传哪几张照片,要么选择让你的电脑自动地从你的相机里复制所有照片。后者或许可以使人稍微安心一点,因为你可以随后再仔细检查照片,并删除你不喜欢的,所以绝大多数人都会选择让电脑自动复制所有照片这个选项。从经济学上讲,这很容易理解。假设一个人查看一张照片并决定是否保存它只需要3秒钟,并且假设他将他自己的时薪等同于目前的平均工资,那么,仅仅花在决定保存哪些照片上的时间“成本”就超过了存储的成本(包括花1秒钟将照片复制到备份设备上)。
拥有这么丰富的廉价存储空间,使得连花时间去决定是记住还是遗忘都已经不经济了。遗忘——需要花三秒时间去选择,这对于使用数码相机的人们而言已经变得太昂贵了。
适用于个人存储的规律,同样适用于企业的存储。公司级别的数据库保存了数量极其庞大的可访问信息,其中有商业交易的信息也有外部和内部的沟通信息。电子邮件会被保存,而且扩展到移动通信设备公司也会存储即时信息,其中的一些信息实际上对于公司是毁灭性的。微软公司在针对它的反垄断诉讼期间发现了这一点,当时政府律师强制微软交出几百万封内部邮件。这种情形与大型公共组织中的情况颇为类似。
当比尔·克林顿将电子邮件引入白宫时,他万万没有想到几年以后,这成为了肯尼斯·斯塔尔(Kenneth Starr)无情调查了自己私人亲密活动的一部分,他的职员先前所发的一些电子邮件再次浮出水面。在一次有效撤销政策的过程中,小布什下令让他的白宫职员随意使用电子邮件,而他的行政系统后来承认电子记录已经(有人说是“轻易地”)被服务器删除了。其他政府工作人员,包括2008年共和党副总统候选人、阿拉斯加州州长萨拉·佩林(Sarah Palin)也曾通过电子邮件账户绕过保留记录的要求。很多附加信息久而久之被丢失了,不是因为设备故障,而是因为软件不兼容,或者糟糕的数据管理。
据《纽约时报》报道,在美国国家航空航天局(NASA),40位被调查的高级官员中,有93%的人没有适当地保存他们的电子邮件,因此违反了联邦保留记录的要求。
取舍之道
数字存储器提供了一种廉价而可靠的存储方式,但是如果缺少适当的数据管理规程,包括经常并可靠地进行适当的备份,数字存储的好处就完全无法显现出来。而且正如专家所说,不像硬盘存储空间的成本那样,这些数据管理的成本不会每一年半到两年就减少一半。但是即便牢牢记住这些限制,很显然,不仅个人,就算像公共组织这类私密的机构也遭遇了永久而广泛的存储造成的后果。
在1996年到1997年间,微软的电子邮件Hotmail和雅虎的电子邮件首次登场,为任何人提供免费的电子邮箱账户。为了提供这项服务,两家公司开辟了几兆字节的免费磁盘空间,以存储即将出现的电子邮件。在几个月之内,有几百万人注册了电子邮箱。到2000年年初,图像共享服务开始提供类似地待遇,让用户免费地上传并分享数码照片。大部分这些靠广告提供资金的服务的标志,都是在中央服务器上提供免费的有限磁盘空间,这与下降的存储成本相一致。
2004年4月1日(不是愚人节的笑话),Google公司通过提供1G存储空间的免费电子邮箱账户震惊了竞争对手。这比仅次于他们的竞争者所提供的存储空间大几个数量级。当时1G的硬盘只花了Google几美元,另外还需要再加上数据管理、电力、备份和带宽这些成本。为了进一步加大筹码,Google宣布,在未来每天的每一分钟他们都将为用户增加存储空间。到2009年年初,每位用户的免费空间已经增大了7倍多,达到了7.3G,在Google的电子邮箱Gmail网页上有一个存储空间计算器。据Google称,他们的目标是“免费存储,让你永远无需删除邮件”。雅虎公司则通过为其用户提供无限的电子邮件存储空间予以反击。
当然,Google不仅仅只为用户存储电子邮件。他们还抓取网页,创造了一个巨大的可搜索的网页索引(Google就是这么成名的),并且还会在此过程中给网页拍下快照(以便用户在原始网页损坏的情况下还能看到“网页快照”副本)。此外,正如我前面所提到的,Google保存了每一次搜索请求,以及用户点击进去的每一个搜索结果。这需要一个巨大的存储空间,据报道Google一天要处理10亿次搜索请求。为了实现这一壮举,像Google这样的多家公司都在巨大的服务器群里运行着成千上万的硬盘。虽然他们都对详细情况保密,但是据说Google至少管理着50万台服务器,以及数量多达100万的硬盘,每一个硬盘都拥有超过100G的存储空间,这样总共能提供大约10万T的数据存储空间。
这是大到令人难以置信的存储空间,但是纯粹购买硬盘的成本,可能大约需要几亿美元,但实际上并不会那么惊人。直线下降的存储器价格是其中的一个原因,大批量地购买则是另一个原因。而很重要但却被忽视了的第三个原因是,据悉Google已经避开了更为可靠但也更加昂贵的硬盘,转而选择了成品的廉价的一般用户级别的驱动器。这很好理解;对超过10万个这样的硬盘的仔细研究表明,这些驱动器是高度可靠的——虽然不像它们的制造商在广告上宣称得那么可靠,但是仍然极少可能出现故障。一个硬盘在损坏之前,平均能正常工作大约30万个小时。考虑到一整年也不过9000个小时,这代表一个硬盘能够持续运行的时间超过33年。
一个成品的廉价硬盘和类似地备份磁盘,在同一年内同时坏掉的可能性低于千分之一——这是非常低的可能性。这些结果也意味着,全世界的消费者所使用的上亿个成品的硬盘不仅仅廉价,而且是惊人可靠的信息存储设备。
专家表示,廉价存储的趋势将会一直持续到21世纪的第二个十年。全世界的公司都在为下一代数字存储设备而积极工作着。2007年,日本硬盘制造商富士通公司(Fujitsu)宣称,他们已经通过在常规的硬磁盘上运用一种新的存储机制,获得了每平方英寸1T的硬盘存储密度(storage density)。另外一个研究组通过研究纳米技术,以克服一些未来可能阻碍硬磁盘存储密度增加的物理限制。随着制造商在推进以基于芯片的存储器作为基于硬盘的存储器的中期替代物,尤其是在诸如笔记本电脑这类便携式设备上推行,关于固态基存储器的研究也在急速进行。这种硅基存储器拥有一个额外的优点,那就是极低的能源消耗,因为无需电力,一个磁盘就能旋转每分钟5000次或者更高——这在能源价格高昂的时代是一个很大的优点。
2008年春天,惠普公司宣称,他们已经成功生产出了一种大家一直在寻找的电路元件,那就是记忆电阻器(memristor),大约15纳米大小,而且他们还将能够把它压缩到4纳米大小,这可能是目前大规模生产的电路元件大小的十分之一——这将使得固态存储器的空间增大10倍成为可能。同时,美国IBM公司宣称他们的赛道存储器(racetrack memory)技术,将更进一步,可能导致存储器的空间增大10到100倍。这些还只是众多以求增大硬盘和硅基存储器存储空间的研究思路中的其中三个。此外,所有大型存储器制造厂的工程师们都在积极地研究替代性的存储方法,包括全息方法(holographic)、生物方法和量子计算方法。而可能的中期成果是,存储空间将继续翻番,而存储器的成本大约每18~24个月下降一半,这将留给我们丰富而廉价的数字存储空间。
驱动力3:易于提取
“记住”不只是将信息存入存储器中,它还包括日后能随意又轻松地提取那些信息的能力。作为人类,我们所有人都非常熟悉,从我们大脑的长时记忆中提取信息是多么大的挑战。外部的模拟记忆,比如书籍,承载了大量的信息,但是要在书中找到特定的某一页信息则既困难又费时。许多存储的信息所隐藏的价值仍然被困在纸堆里,不太可能被利用。虽然我们可能已经存储起来了,但在实际中却无法轻松提取的模拟信息,跟被遗忘了没有什么区别。相较而言,从数字存储器中提取信息则容易许多,便宜许多,也迅速许多:在搜索框里输入几个词,点击一下鼠标,几秒钟之内一系列相匹配的信息就被提取出来了,而且以整齐的列表格式呈现在你面前。这种毫无障碍的提取方式极大地提升了信息的价值。
当然,人类也一直在尝试使信息提取变得更容易更简单,但是他们过去一直面临着重大的障碍。以书面信息为例。从碑刻和卷轴过渡到装帧的书籍,它们共同帮助保存了信息,而且确实提高了可检索性,但是书籍并没有彻底改变信息提取的方式。类似地,图书馆帮助积累了信息,但是在查询信息方面,图书馆的作用就没那么大了。只有完全进入了第二个千年,当藏书切实可用的索引(可能最初是从广泛的组织,发展到细分条目,后来发展到章节、希伯来诗歌与《圣经》)变得常见的时候,图书管理员才能够根据书名和作者找到某一本书。
作为现代图书馆兴起的一部分,人们花了几个世纪的精制提炼才发展出标准化的书籍编目和上架技术。主题索引,以及书中所用词语按首字母在字母表中的顺序排列所得的列表(当时还没有标明页码),都是在13世纪被引入并迅速传播开来。它可以帮助一个人根据他想更深入了解的某个主题范围去选择合适的部分。但是为每本书编制这样一个索引很费时间,而且索引也并没有让读者在一本书中找到想看的某个段落而变得容易。
又过了几个世纪,页码,这个在一本书中精确找到特定信息的前提,在16世纪初期出现了,历史真正进入了印刷革命时代。只有当主题索引和页码被结合起来时,现代书籍的样子才开始出现,也奠定了在大型的文本语料库(corpus)中提取信息的基础。
商业和国家的兴起,使得轻松又准确地对书面文件进行归档及提取成为必要。归档系统(filing system)是模仿图书馆的两级系统(two-stage system)设计的:文件被放在档案柜里,每份文件根据名称、日期,或者类似地标准进行分类。这样的系统使得及时提取信息成为可能,但是仍需要很高的日常费用:文件必须被仔细地存档,否则它们可能就永远地丢失了;而且归档系统的组织必须非常小心地进行设置,因为以后就很难再改动它了。
因此,精通如何对模拟信息(从文件到书籍)进行归档和提取,在信息工作者当中成了一项很受欢迎的才能,而且团体组织会使用大量的财力物力去制造并维护信息提取所必需的工具(索引和目录)。到了模拟时代的末期,信息提取已经取得了长足的进步。通过结合书籍目录和主题索引,信息能够从图书馆中被提取出来。但是那是一个单调乏味的任务,昂贵费时又不精确,因为主题目录仅仅包含每本书最重要的主题词,而且书籍的主题索引依赖于作者和编辑的准确性。此外,这样的提取系统需要非凡的资源,团体组织可能负担但是个人很难承担得起,或者至少无法获得与团体组织相同的水平。因此,我们收藏的大部分个人信息——草图和绘画作品,照片和自制的视频,录有个人信息的盒式录音带、日记本、笔记本、剪贴簿、官方文件、银行对账单,以及合同——我们都无法像公共图书馆整理他们的藏书那样去仔细地组织、分类并编录索引。作为替代,我们使用了众多不同的分类系统。
信息提取中存在这些挑战的根本原因是,大部分的模拟信息存储是连续组织的:没有额外的线索,一个人不得不去翻阅,或者甚至为了找到某个特定的部分可能需要读完一整本书;缺少明确定义的归档系统,一个人必须一份一份,一页一页地去浏览文件,一张张地去查看照片。录音带和录像带同样也是连续的。如果一个人想找到某个特定的场景,再看一遍(可能速度可以快一点)是唯一的选择。
缓解这些挑战的标准方法是创建并维护单独的提取工具,可以让我们更加精确地提取信息:目录可以帮我们找到想要的书或者文件;主题索引和页码帮我们可以找到一本书中相关的段落;在录像带外面注明它的话题和内容,与记着场景和时间点的列表一起,帮我们可以找到想看的场景。但是这些提取工具既不灵活又复杂,而且需要时常小心翼翼地去维护。
在数字时代,所有这些都改变了,虽然它们不是在一夜之间改变的。尽管软件具有可延展性(malleable),而且数字信息处理几乎没有内在固有的约束,但是人类在设计第一代数字系统时,还涉及现实世界中信息组织的隐喻(metaphor)。因此,早期为数字计算机设计的文件系统,通过记录哪个数字文件存储在哪个目录下,复制了图书馆图书目录的核心元素。同时,软件工程师们开发出方法,以便在数字文件内部轻松地提取和组织信息。他们也受益于硬盘的兴起,硬盘不像大部分模拟存储设备,它们允许直接地提取非连续的信息。
到了20世纪60年代末期,IBM公司的英国工程师特德·科德(Ted Codd)构想出了他称之为关系数据库(relational database)的理论概念,其本质上就是,信息以表格的形式被组织,行组合的是一份文件中相关的信息,而列存储的是结构相似的数据(比如名称、日期和序列号等)。通过被称为关键字(key)的标识符(identifier),一份特定的档案可以被提取,但是不像模拟目录那样,这些关键字是灵活的。如果一个人想通过事先没有创建关键字的信息,以图书目录中的“出版日期”为例,去搜索和提取文件,他也可以随后再添加关键字。拥有了这样的关系数据库,图书馆中传统的模拟卡片目录(card catalogue)就可以被更为通用的电子版本所替代。书籍的记录不仅仅可以通过作者的名字或者标题提取,也可以通过名字或者标题的一部分片段去提取,同时还可以通过诸如出版商、主题关键词这类信息,或者甚至它们的组合去进行提取。
起初,昂贵的数字存储器被明智地用作首要的信息存储器。随着数字存储器价格的直线下降,越来越多的信息被数字化,这助长了对更好的信息提取工具的需求。
在20世纪70年代的美国,著名法律联机检索系统Lexis和Westlaw使得他们的用户,可以接触到拥有数以万计法院判决书全文的庞大数据库,但是这些判决书仅仅只能用一组数量有限的关键字去检索。然而,用户想要的是通过搜索判决书中用到的词语去寻找相关的判决书,而不仅仅是搜索案件名称、案卷编号、日期,以及被录入索引的几个主题词。解决办法是,让数据库中每份档案的每个词都可以检索。这样的全文搜索仍然要求输入准确的词语或条款,因此这也不是一种一定能成功找到想要信息的方法,但是它显然比仅预设少量几个检索关键字的搜索方法要更简单也更强大。
最初,全文索引和检索仅被大型的信息数据库提供商所使用,但是到了21世纪的开端,它已经成为所有主要个人电脑操作系统的一个标准功能,为人们的笔记本电脑带来了强大的精确信息检索功能。同时,数字设备变得或多或少能够自动地生成并管理文件的元数据[6],而不仅仅只拥有像名称或创建日期这类众所周知的类别。
数码相机能够自动为每一张照片存储一长列的元数据,比如相机光圈、快门速度、焦距长度、日期和拍摄时间。当照片文件被复制到硬盘上时,这些数据被保存了下来,并且以后能够被用于直接搜索和提取照片文件。用户也可以自己添加元数据。越来越多的数码相机(尤其是手机上的照相机)为拍摄的每张照片添加了地理位置功能——经度和纬度,并存入元数据的序列中,以帮助我们人类日后辨认出这张照片是在哪里拍摄的。
最新的进展是,索引、检索和提取这些现代元素的无缝融合,这消除了文件水平上的搜索(类似于在图书目录中搜索一本书)与文件内部搜索(在一本书中搜索某个段落)之间有史以来的差别。这个融合的数字信息检索通过一个简单的整合界面进行运作;信息在所有水平上都是可以检索和提取的,而且几乎立刻以一种视觉上一致的方式被保存起来,而不管是哪种信息格式。这就是我们所熟悉的很简单的检索方式,在笔记本电脑上如此,无论是微软的搜索服务,还是苹果公司的聚光灯搜索服务。在互联网的搜索引擎中也是如此,比如Google公司简洁漂亮又功能强大的搜索界面。
取舍之道
这与模拟时代的差异是惊人的:通过便捷的提取,大量的信息,将不再是无尽的比特之海,也不会再有被信息淹没的风险,而是我们人类记忆强有力、通用而快速的扩展。
然而,便捷的提取还存在另一个不那么明显、但或许更为麻烦的问题。随着新的数字提取工具克服了传统模拟存储系统连续存储的本性,搜索时间大大缩短了,但是作为显示在我们电脑屏幕上的搜索结果,它们已经与它们当时的语境都脱离了。相比之下,传统的连续式文件检索提供了相当多的背景信息。它可以帮助一个人理解情况如何随着时间变化,而且可以弥补被数字检索直接获得的信息片段所丢失的大量背景和详细信息。很多被用于数字提取的排序结构(ordering structure)忽视了这种背景信息。
这种“去语境化”并不是数字时代独有的现象。美国加州大学欧文分校的教授西蒙·科尔(Simon Cole)充分详尽地解释了,由执法部门采集的有语境的指纹如何被去语境化,变成抽象的数值特征以便于比较、搜索和提取,导致指纹错误识别概率明显的上升。在其他时候,原始的背景信息不仅被剔除掉,而且被另一个不同的背景所替代。
就像美国加州大学洛杉矶分校的地理学教授迈克尔·加里(Michael Curry)告诉我们的那样,邮政地址系统,包括邮政编码,首次从一个基于某个地方特定背景的系统变成了一个基于地理位置的更为抽象的系统。然后,市场营销公司获取了这些去语境化的地理数据,比如,邮政编码,将它们与人口统计学的信息相结合,从而将它们再次置入语境中。因此,比如如果我们今天听到邮编是90210,它让人立刻想到的不是加州某个地方的景象,而是富人和名人居住区的景象。
数字工具加速了向抽象排序和分类系统过渡的进程,剥离了原始的背景信息。这种清晰而抽象的排序分类在数字检索中更容易实现和体现出来,即便这样一种方法可能对最终的结果不利。近来,全世界的软件工程师急忙改进我们的数字工具,以求(再次)找回少量的背景信息——比如,通过使用元数据和标签。但是目前,我们将不得不与非常便宜、普遍又易于使用的提取工具作抗争,同时也得与它们产生的去语境化和再语境化的结果中固有的、但又很少被意识到的缺点作抗争。
驱动力4:全球性覆盖
廉价的存储器和易于提取的特征使数字化记忆变成了一个强有力的工具,这个工具扩展了人类能够记住的信息。然而,想要获取存储信息的人们仍然不得不去该信息的所在地。全球性的数字网络消除了地理距离的限制;为了获取一个连接到全球数字网络数据库中的信息,一个人仅仅只需要接入那个网络。这从根本上改变了搜索和提取的经济学,因为亲自去某个资料库获取信息的时间和成本被更为低廉的网络通信费用所替代。
商业数据库供应商最先领会了全球数字网络在信息获取方面的潜力。在20世纪七八十年代,他们将自己的信息数据库连接到全球数字网络中,这为他们开辟了新的市场。这些新的商业用户大部分都将不会到很远的地方去搜索和检索一个数据库,而会发现通过更为便利和实惠的远程访问检索信息的价值。互联网只不过是深化了这一变化。远程访问的沟通成本降低到可以忽略不计的程度,将潜在的客户群从商业用户拓展到所有用户。
随着沟通成本的下降,通过全球网络可访问的信息的丰富性也上升了——从简单的文本到高清的视频。仅仅几十年前还只能穿越大西洋去获取信息的人们,如今在自己舒适的办公室或者家里,以微不足道的成本达到同样的目的,而且非常快速,也不用管所谓的营业时间,每周7天第天24小时都可以获取到数据。
20世纪90年代末,世界上绝大多数人,即便是工业化国家的人们通过拨号连接传输接入互联网的速度,充其量也只有每秒大概7000比特。到了2008年,超过3.3亿人拥有了宽带连接,接收数据的速度超过每秒10万比特。为了获得这个翻了15倍的巨大增速,连接速度必须大概每15个月就翻一番,这样便超过了处理能力和存储能力已经获得的显著增涨(每18个月翻一番)。同时,每月的连接费用则保持相对平稳,这造成了通信成本同样惊人的下降。此外,因为几乎所有的宽带连接都提供了一个平稳的月租费,所以,他们为用户创造了一个更进一步最大化利用数字网络的经济动机。
有三个驱动因素促进了这一发展。
第一个因素是,互联网的包交换(packet-switched)结构。与电话系统不同,它直接连接通信双方,互联网上的信息以小信息包的形式传输,这样可以找到彼此独立的、从发送者到接收者的最快路径。这使得用户能够更好地对可用的网络基础设施进行利用。
第二个因素是,铺设了大量适合宽带连接的光纤。在1999年间,据估计,美国每天铺设了4000英里(1英里约合1609米)的光纤。第一次网络泡沫和电信泡沫的破灭,导致了存储能力的过剩,使得高达95%的长距离光纤最初没有被“点亮”(或者说,未被使用)。虽然这严重地伤害了投资者,但是也使得随后的快速发展成为可能。当投资者看到了Web 2.0服务刺激宽带快速增长,大量的资金又被投入进去以寻求宽带基础设施的进一步提升。
第三个因素是,技术促进了在不铺设新光纤的情况下,改装现有的基础设施以满足需求的增长。光被用于在光纤中传输信息。如果有人能够缩短一个光脉冲表征一个信息位所需的时间,那么,就能够加快现有光纤的传输速度。缩短波长以及通过同一根光纤同时传输多极化的光脉冲,则能够产生另一个数量级的速度提升。现在,现有铜线电缆的传输速度,也已经通过改进DSL(数字用户电路)技术的原始版本得以大大提升。至少从中期来看,在成本不变的情况下,存取速度很可能继续提升。当然,这些可获取全球互联网信息,且让人负担得起的丰富带宽,并不意味着每个人都能获得它。发展中国家以及工业化国家农村地区的人们则继续被遗忘,或者以更低的速度和更高的成本接入互联网——这需要许多不同社会做出重要的政策考虑。
取舍之道
对于全世界数以亿计的人们而言,信息获取已不再取决于地理位置或者支付高昂通信成本的能力,而仅仅取决于信息提供者制定的政策和收取的费用。其影响是深远的:连接到全球互联网的数字信息突然间变得有价值了,而没有被连接到全球互联网的信息则已经与被完全遗忘的信息无异。数字化与广泛而廉价的存储器,易于提取的特性,以及全球性覆盖相结合,使得信息在人类能够负担的情况下,永远保持有效,永远可以获取。
当然,我们存储在我们个人硬盘里的信息不会自动地与全世界相连接,即便我们已经接入了互联网。有人可能会认为,是商业的信息提供商,而非个人,提供了他们的数字网络存储。即便这个观点是正确的(而且我们将会立即讨论它的优点),我们共享的数字化记忆将仍然会有明显的扩展,而且使遗忘变得更难。
原因就是信息经济学。不像大多数物质产品的生产,比如鞋子或木制椅子,信息产品几乎全部的成本都花在了第一个元件的生产上,而随后复制品制造的成本则相当微不足道。
以一部卖座的电影为例:制作它是最昂贵也最困难的部分,生产拷贝给电影院放映的成本则微不足道。对于书籍、音乐,以及信息数据库而言,同样如此。因此,任何人都有一个强烈的动机想要一个信息数据库,以尽可能多的方式去利用它。增值成本[7]与潜在的额外收益相比,基本是可以忽略的。这推动了信息的收藏者让许多人使用他们的信息资源。
由于同样的原因,商业的信息供应商拥有一个强烈的经济动机,他们将甚至不相关的信息数据库都捆绑在一起销售。这可能听起来不太好理解。举个例子,为什么让消费者能够在访问法庭判例数据库的同时,还能访问包含主要报纸及通讯社内容全文的数据库,是商家明智的策略呢?乍看之下,律师搜索判例与记者研究新闻故事似乎毫无共同之处。但是正如亚诺斯·巴克斯(Yanos Bakos)教授和艾里克·布林约尔弗森(Erik Brynjolfsson)教授所说,这个策略是非常明智的,这比单独出售各个信息库的访问权限要更好。他们的论证直截了当:信息供应商并不确切知道他们的客户想要什么信息,而一个信息库越小越专业化,就越难知道它是否能满足客户的偏好。另一方面,一个信息数据库群能越大地满足更大客户群的偏好,就能吸引一个更大的市场。由于信息生产的经济学,给一个人的信息群增加信息集所造成的高成本,并不会完全抵消更高的潜在收入。这导致那些拥有信息的人将信息授权给商业信息供应商,同时对于这些信息供应商而言,他们会向第三方信息提供商寻求授权,以便扩大他们能够提供的信息群。信息市场中的推动力和吸引力相结合,这促成了几千年来我们人类已经习惯了的遗忘逐渐消亡。
让我们重新再审视一下前面的那个假设,即只有商业信息供应商提供在线的信息,而个人则不会。从技术上来讲,没有什么能够阻止个人在线地提供他们的信息。互联网是一个数字网络,其中的每个参与者既可以是一个发送者也可以是一位接收者。消除了信息寻求者和信息提供者之间、读者和作者之间传统上的差异,自早期互联网以来已经成为一个经常被讨论的特性。起初,它的经济效果是有限的,当时大部分人通过缓慢的拨号连接访问互联网,并且信息存储非常昂贵,但是多年以来这种状况已经发生改变了。全世界越来越多的人通过宽带连接接入互联网,而宽带连接能够提供更高的信息传送率,而且低廉的连接费用激发了一种利用这个顺畅信息通道的动机,这个动机包括与他人分享信息。为了限制网络的潜在负担,一些宽带提供商禁止用户操作网络服务器,此后对于全世界而言,他们的信息资源只是充当了简单的网页。但是,一些专业的网络托管公司每月收取一定的费用在他们的网络服务器上提供空间。由于2008年的激烈竞争,每月10美元将能够获得50G的网络空间,以及1000G的每月信息传输量,这足够托管2500万页文档,数以万计的数字照片,或者十多个高清视频。克服这些限制的另一个方法是,利用点对点(P2P)的音乐和视频文件共享软件,以及针对所有其他文件的共享软件。它们的效果很好,有几千万用户已经发现了这种方法,并且宽带提供商已经更难以从技术上阻止用户了。而且,由于现在点对点信息共享已经成为了一种如此普遍的现象,宽带用户仅仅只是期望他们的提供商不要限制他们的信息共享行为。
依靠网络公司最近的一次高潮,个人也可以很方便地与他人分享信息。这是经常被提供商描述为Web 2.0的服务,它们的目的在于促进对基于相互共享信息的在线社交的创造。
网络相册Flickr网站和视频网站YouTube是这种服务的绝佳示例。任何人都可以上传图片和视频,并且可以免费地将它们存储在网站服务器上,同时全世界都可以访问它们。这样,共享信息就变得异常简单。Flickr和YouTube网站背后的公司——雅虎和Google,都是著名的在线信息提供商。廉价的存储器和宽带访问的全球传播,是他们能够负担得起免费提供这些服务的原因之一。他们还希望最终能利用社交网络,因此,在线社交正在形成。或许最为重要的是,这帮助他们强调了他们作为通往全球信息海洋门户的卓越角色。
全世界数以亿计的用户已经拥抱了这些服务和类似地服务——想想社交网站facebook,Myspace,或者twitter吧。对于他们而言,自2000年以来互联网已经发生了深远的改变。正如我在介绍里所说的那样,在2000年以前,互联网仅是访问信息的工具,今天互联网还是共享信息的工具。这意味着,用户从被动的接收者转变为主动的贡献者,这与数字化对生产和消费信息自身之间的关系所造成的变化非常相似。
当然,戈登·贝尔,那个把自己的职业生活记录捕捉在数字存储器上的软件工程师,他着重强调,他自己掌控着能否以及如何让他人获取他个人信息的途径。贝尔本人已经决定不让其他人窥探他的信息宝藏了。他解释说,他的生活博客是为了帮助自己记住,而不是为了让其他人访问他的文件:“许多人都把他们的生活放到网络上,但我不支持这种做法。生活博客的创建完全是私人化的,是为了帮助个人自己。”他的观点可能很好,但是正如他自己承认的那样,这种做法并不能代表目前的互联网用户。
正如我已经提到的那样,美国三分之二的青少年使用互联网去创建信息,并与其他人分享信息。这个巨大且还在不断增长的用户群体已经内化了这种运用互联网信息再创造(bricolage)的文化。他们享受着经济学家称之为网络外部性(network externalities)的巨大好处——每个新用户都加入进来共享信息,这增加了所有现有用户的价值。不过,有人可能会说,即便用户将互联网视为一个全球性的、在个人之间共享信息的工具,用户仍然可以选择谨慎地允许他人通过全球网络访问信息。如果他们不想或者不再想让他人访问,他们也可以这么做。毕竟,数字信息之美正在于,清除信息就像点击“删除”键一样简单。这乍听起来好像是对的,然而,至少有两个原因说明,这几乎不可能是对的,这两个原因都是信息网络如何运转的基础。
第一个原因是,一旦一个人已经分享了信息,这个人就基本上失去了对该信息的控制。如果我让其他人访问我的信息,我必须信任他们不会违背我的意愿去使用我的信息。但如果他们辜负了我的信任,我能做的却微乎其微。谁也不想让一些技术高超的黑客闯入自己的电脑窃取信息,然而这却会发生在许多毫无戒心的用户身上,而且它也并不总是需要高超的技术。就像帕丽斯·希尔顿[8]在2005年经历的那样。
通过手机供应商提供的一项功能,希尔顿将手机里存储的信息备份到供应商的中央电脑上。访问存储的信息需要一个密码,或者对于那些忘记他们密码的用户,需要输入他们最喜欢的宠物的名字。
作为一位名人,希尔顿宠物狗的名字是众所周知的。一个17岁的少年运用这个信息进入了希尔顿备份的手机通讯录和数字照片文件,然后将这些信息通过点对点文件共享给了全世界。这个少年随后被捕,并且因参与另一起案件而被审判。但是伤害已经发生了。这不仅仅是帕丽斯·希尔顿的私人信息被曝光了;她手机通讯录中所有人的手机号码,往往还有未编入册的,也都暴露了。许多人不得不换掉他们的手机号码,他们需要将新号码逐一告诉给自己的朋友、同事和商业伙伴。所有这些人都失去了对他们手机号码的控制,不是在那个少年进入希尔顿文件的时候,而是更早,当他们把手机号码告诉给希尔顿的时候。
这可能听起来像一个极端案例,而且手机供应商迅速修补了这个缺陷。但是,如BBC所报道,facebook上有超过1亿毫无戒心的用户可能都存在私人信息被曝光的风险。不妨想想,其实每天都上演几百万次的信息滥用情况:我们告诉某个朋友或同事一些有价值的信息,也许是一个好主意,一个事实,或者仅仅只是闲谈八卦,他再将这个信息传递给第三个人。他并没有征求我们的同意,事实上,我们甚至都不知道。如果我们知道的话,也只是偶然地发现我们的话被传出去了。在模拟时代,这个危险多少还被个人传播信息的有限能力缓和了。我们很少有人能够控制一台印刷机或者管理一个电视节目。然而,即便这个信息传播地很慢或者仅仅只传给了少数几个人,它仍然能造成相当大的损害。这也是为什么我们不把所有事情都告诉所有人的原因,而且谨慎地决定何时告诉谁哪些内容。
此外,由于在模拟时代大多数这种个人沟通都是口头的,在某些情况下一个人还可以假装那都是一个巨大的“误会”,最终这个事件将会被遗忘。在数字时代,情况更加复杂。信息的全球性覆盖,让它能够更快地在比以前更广阔的范围内传播。数字化使复制和共享变得更容易更快捷,因此也更难以控制,同时不断增加的媒体丰富性(音频、视频以及文本)使信息变得更加难以否认。而且,由于数字拷贝是原始文件的完美复制品,跟踪信息流向某个可能的漏洞,或者识别出它的源头非常困难。在数字时代,召回信息以及阻止他人分享信息,已经变得非常困难,尤其是一旦某个信息已经开始传出狭窄的地理学和人口学范围的时候。
第二个原因是,每次在线交流本身(即便不分享文件),就等于让交流伙伴了解了关于自己的信息,交流伙伴也可能把这个信息拿来与他人分享。这会让我们自己不再是我们信息资源的主人。
如果我在亚马逊网站上订购了一本书,我就留下了一个信息痕迹,亚马逊就可以运用它与其他信息一起,为我推荐书籍。也许有人能够预料到这一点。但是,当我仅仅只是浏览亚马逊的在线商店的时候,同样也是如此,即便我并没有明确告诉亚马逊去监视我的浏览习惯。无论如何他们都会这么做。有时,我会从中受益:当亚马逊根据我已经留下的信息痕迹所推荐的一系列产品吸引我的时候。大多数在线零售商都会这么做,就像大多数公司都会提供基于网络的电子邮箱、社交网络和信息共享一样。同时,互联网搜索公司会仔细地监视用户在搜索什么内容。
有些人可能反对我们并不必去实体店或者可以在线购物的看法,反对我们发送或接收电子邮件、写博客、在虚拟世界里工作、使用搜索引擎,或者允许cookies(信息记录程序)。他们认为,这仍然需要我们的参与,其他人才能记录我们的数字踪迹。
但是,这个论证明显是不诚实的,至少有两个理由。首先,往往用户并不知道他们的数字活动正在被记录并被提交到数字存储器中,从浏览亚马逊网站到使用Gmail起草电子邮件。类似地,当输入一个网址或者填写一份订货单的时候,用户可能很享受他们的网络浏览器中的这些自动完成的功能,但是并不清楚他们是否理解了,这也意味着他们的网络浏览器会保存他们的活动记录。用户可能喜欢他们现在能够运用强大的全文索引和检索快速搜索他们硬盘的感觉,但是他们可能没有理解,这是因为他们存储在他们个人电脑里的任何内容都被默认地编入了索引。断开这些记忆的常态很复杂,而且在许多情况下也是不可能的。其次,即便用户清楚地知道他们的活动被持续而广泛地记录为数字化记忆,他们唯一可用的简单补救方法,将是把自己变成“数字隐士”,戒掉在线聊天,同时还要戒掉许多离线的交流。这是因为,每次与世界的交流都会产生一些信息。通信理论家保罗·瓦茨拉维克(Paul Watzlawick)曾经在一个更为普遍的背景下指出,“一个人无法不交流。”而且这种情况下,只要是在沟通过程中运用任何数字设备,它将有可能被添加到我们的“数字人生”中。
当信息被添加到这种由多种信息源混合而成的数字网络中,信息的重新组合可以创造任何东西,从完全平庸的到具有难以置信创造力的,从有趣的到深刻的,从简单的到复杂的。我们的个人电脑逐渐充当了多功能信息处理器,我们的硬盘可以提供充足的存储空间,精细的编辑和混合软件能够让更多的人负担得起,人们可以很容易地使用、剪辑、编辑和添加。而且,如今对于成千上万的用户而言,将数字信息重新组合都变得触手可及了。但是这些新文化产品的创造者将信息与其已有的背景剥离开,并将它与一个全新的背景相联系。俄罗斯的“妖精编辑”,之前我们提到过,他们给卖座的电影重新配音,它之所以如此非同寻常,恰恰是因为他们用一段全新的对话替代我们熟悉的台词,将我们以为我们知道的电影重新置入新的背景中,并且给了它们一个非常不同的电影镜头。音乐采样,即重新利用著名音乐的片段作为一张新唱片的元素,也是一种类似地概念。
美国堪萨斯州立大学教授迈克尔·韦施(Michael Wesch)的视频《Web 2.0》提供了一个非常吸引人的例子。同时,这也是数字化再创造文化兴起的一个完美而具有说服力的解释。
2007年年初,他将视频上传到YouTube网站上。几个星期之内,已经有几百万人看了这个视频。这在模拟时代是不可能发生的事情。但是更为重要的是,在随后的几个星期中,有人将韦施的视频翻译成了不同的语言,有人制作了评论视频讨论韦施的一些设想,但那些评论视频也在模仿他的艺术风格,甚至完全对韦施的原始作品进行了重新混音。韦施的视频变得很有名,不仅仅是因为有几百万人看了它,更是因为许多人将它作为他们自己作品的起始点。
对于那些跟踪YouTube以及众多其他信息共享网站上发生了什么的人而言,韦施的视频以及它所触发的故事他们非常熟悉。通过重新组合他人已有的信息而不仅仅是被动使用自己事先记录的内容进行积极创作的能力,已经触发了巨大的创造潜能。自然而然,这也造成了被共享的数字信息在原创作者无法掌控的情况下,出现被去语境化和再语境化的局面。
取舍之道
信息提取已经造成了信息的去语境化和再语境化,因为信息片段是在剥离了它们相应背景的情况下被提取的,而且被呈现在众多搜索结果构成的新背景中。不过,花上足够多的时间和努力,一个人往往能够从搜索到的结果追溯到信息的源头,从而在最初的语境体验它们。这就像使用索引在一本书中寻找某个段落——一个人仅仅通过阅读一个句子或者一页内容可能无法掌握完整的背景。但是,如果内容足够重要,那么他们就可以阅读整个章节甚至整本书。通过数字化再创造,这变得不再可能,因为组成再创作的作品的信息片段被从它们的原始语境中抽离出来了,没有办法追溯它们的信息源。
假设一张照片被用在一张幻灯片中,一个句子摘录自某个人的小说,或者某些调子借用了某首歌,在这些数字再创作的作品中我们没有可参考的信息去追溯“源头”,因此那张照片最先被拍摄时的背景,那个句子被写出来时的背景,或者那个音符最先被创作和演奏时的背景都无法追溯。如果什么也追溯不到了,就加大了误解的危险。
因此戈登·贝尔可能不会泄露他已经在他的数字笔记中存储了什么,但是如果他参与互联网中信息创造与共享的文化,他将会发现随着时间的推移,他数字笔记中的许多内容可能出现在其他人手中。有时,他可能会谨慎地分享信息,信任他的信息接收者。但在平时,他可能没意识到或者已经忘记了他的在线交流所产生的信息,已被其他人所存储和运用。请不要误解我:共享信息常常是极为有益的,即便在模拟时代,完美的信息控制也只是一种幻想,只有那些最坚定的隐士才能实现。然而,在数字时代,作为个人,我们控制信息的能力被再次大大减弱了。
毫无疑问,过去60年间的技术突破,促进了对数量不断增长的信息的存储和提取。这大大降低了加工、存储和提取数字信息的成本,也成为了很多人共同使用新工具强烈而持久的动机。或许同样重要的是,数字存储器如何为我们提供了一种延续和保存的策略,以超越我们个人必然会死去的命运。正如哲学家罗伯特·诺奇克(Robert Nozick)所说,它让我们留下痕迹,从而意味着“一个人的生命拥有某种意义”。因为使用了数字存储器,就算有一天我们去世了,我们的思想、情感和经验依然不会遗失,仍然能被子孙后代所运用。借助这些,我们能够继续活着,逃脱了被遗忘的命运。随着现代社会生育率的垂直下降,除了我们想要与子孙后代共享信息的传统背景之外,保存我们生活记忆的渴望可能会更加强烈。这是一种非常人类化的策略,以确保我们没有白活一场,以及我们在死后不会被迅速遗忘,就仿佛我们从没来过这个世上一样。
广泛的数字化,让越来越多的信息被转化为一种常见的二进制代码。通过廉价的存储技术,保存数字信息已经不仅变得可以负担得起,而且往往比选择性地删除一些信息所耗费的时间成本更低。简便的提取工具,也使得我们能够史无前例地利用我们巨大的数字信息资源。同时,通过快速又负担得起的数字网络实现了全球性覆盖,这已经不仅使得远程访问这些信息资源成为可能,而且促进了创造、再创造和共享的文化。
在这种文化中,我们已经抛弃了传统的信息控制形式。同时,随着更多的人在寻找除了生育之外超越我们必死命运的策略,我们人类对更加完整数字化记忆的需求将会继续上升。这将导致整个世界被设置为记忆模式,而且即便有的话,也只有很小的动机去遗忘。
[1] 赖特为20世纪上半叶最有影响的建筑师之一,影响了整个美国建筑的发展。——译者注
[2] 该文标志着情报学的诞生。——作者注
[3] 艾字节(exabyte)相当于10亿吉字节(gigabyte,GB),或者100万太字节(terabyte,TB),等于10亿个字节的10亿倍。——作者注
[4] 校验和(checksum),指的是在数据处理和数据通信领域中,用于校验目的的一组数据项的和。这些数据项可以是数字或在计算检验的过程中看作数字的其他字符串。——编者注
[5] bricolage,指使用手头现成工具制成的物品。——作者注
[6] metadata,与目标文件相关的一个数字文件的数据。——译者注
[7] 增值成本一般是产品生产中必需的成本支出,如产品加工过程中所消耗的材料、人工、能源、设备损耗等。——作者注
[8] Paris Hilton,美国希尔顿集团继承人之一,女商人、模特、时尚设计师、歌手、演员及作家。——译者注