摩尔定律:全世界半个世纪的发展规律

    摩尔定律已经成为工业界一切呈指数型增长事物的代名词。……下一个十年,摩尔定律可能还将有效……可以肯定的是,创新无止境。03

    ——戈登·摩尔,英特尔公司创始人,2003年

    联邦政府是美国最大的雇主,共雇用了约200万名工作人员。04

    联邦政府主要由三大块组成:一是总统行政办公室(The Executive Office of the President),二是15个内阁部门(Cabinet Department),三是70多个独立的联邦机构(Independent Agency)。

    总统行政办公室的结构

    摩尔定律:全世界半个世纪的发展规律 - 图1

    总统行政办公室是直接为总统服务的中枢部门。

    其下辖白宫办公厅(The White House Office)、行政管理预算局(OMB)、经济顾问委员会(Council of Economic Advisers)、科学技术顾问委员会(PCAST)等机构。其中,最重要、最大的机构当属白宫办公厅和行政管理预算局,它们控制了信息、掌握了财权,是15个内阁部门和70多个独立机构的管理和协调单位,可谓中枢中的中枢。鉴于这两个机构的重要性,本书将会多次提及。

    作为全美最庞大的组织和机构,联邦政府也一直号称他们是美国最大的信息生产、收集、使用和发布的单位。05

    数据和信息的区别
    很多情况下,“数据”和“信息”两个词经常替换使用。但严格地说,数据和信息这两个概念有很大的区别:
    数据是对信息数字化的记录,其本身并无意义;信息是指把数据放置到一定的背景下,对数字进行解释、赋予意义。
    例如:“1.85”是个数据,“奥巴马身高1.85米”则是一则信息。
    但进入信息时代之后,人们趋向把所有存储在计算机上的信息,无论是数字还是音乐、视频,都统称为数据。

    如果要考察信息的多少,就必须以物理存储器上保存的数据量作为度量。因为所有的信息,都是以数据的形式保存在物理存储器上的。由于人类的数据量不断增多,近几十年来,科学家也相应定义了一些新的名词,来表示新的存储单位,以方便对客观世界的描述。

    美国联邦政府到底收集了多少数据,其总量无从得知,但我们可以从现有的一些研究资料中窥见一斑。

    理解数据的存储单位

    摩尔定律:全世界半个世纪的发展规律 - 图2

    (部分例子参照了All too much,The Economist,2010年2月25日)

    2009年美国各行业数据存储量对比

    摩尔定律:全世界半个世纪的发展规律 - 图3

    (数据来源:International Data Corporation)

    2011年5月,麦肯锡公司下属的全球研究所(McKinsey Global Institute)出版了一份专门的研究报告《大数据:下一个创新、竞争和生产率的前沿》。06该报告对美国政府目前拥有的数据量进行了估算,在制造业、新闻业、银行业、零售业等17个行业当中,美国政府共拥有848拍字节(Petabyte)的数据总量,仅次于离散式制造业07的966拍,居第二位;居第三位的是新闻传媒业,共有715拍字节。

    这是美国政府作为一个行业的总体情况,下面我们来考察联邦政府中具体的单个组织。

    以商务部下属的美国普查局(USCB)为例,它目前拥有2560太字节(Terabyte)的数据。“太”,代表2的40次方,它的大小,已经大大超出了人类的直接感知能力,只能通过形象的比喻来描述:如果把这些数据全部打印出来,用4个门的文件柜来装,需要5000万个才能装得下。沃尔玛是世界上最大的零售王国,它每小时要处理100多万笔电子交易记录,可谓每分每秒都在源源不断地生产数据;2010年,其数据库大小为2500太字节左右,还没有赶上美国普查局。

    除了美国普查局,国家安全局(NSA)和中央情报局(CIA)都拥有超级巨大的数据库。2011年5月,历经十年,美国人终于在巴基斯坦将本·拉登击毙,报了“9·11”的一箭之仇。帕拉契尼(John Parachini)是兰德(Rand)公司情报政策研究中心的主任,他在接受《巴尔的摩太阳报》的采访时介绍说,国家安全局是从电话监控的记录当中发现了本·拉登的蛛丝马迹。08该局对全美的电话进行监控,所收集的数据量是惊人的,它每6小时产生的数据量就相当于美国国会图书馆所有印刷体藏书的信息总量。而美国国会图书馆,是世界上馆藏量最大的图书馆。

    再说中情局,其本职工作就是收集情报信息。业内专家普遍认为,其数据库比普查局、国安局的还要大,很可能拥有全世界最大的数据库。

    普查局、国安局、中情局只是联邦政府数百个机构当中的几个例子,还有财政部、卫生部、劳工部,这些都是数据密集型的行政管理部门。即以财政部为例,根据行政管理预算局的信息收集年度报告,2009年,财政部因为收集信息产生的社会负担为76亿小时,占全部联邦政府收集信息社会负担总数的78%,09之所以如此,是因为收税和退税的过程极为繁琐,但76亿小时收集工作会产生多少数据量,其大小也难以想象。

    再换一个角度,我们来看看这个联邦政府的硬件资产。

    1998年,联邦政府共拥有432所数据中心,专门负责各类数据的存储和维护工作。2010年,数据中心的总数跃升到2094所,翻了几倍。

    庞大的数据资产,是需要经费来支持的。1996年,联邦政府的年度IT预算是180亿美元,十多年来不断地上升,2010年,已经高达784亿美元;由于连年巨额的投资,联邦政府已经声称,他们是全世界范围之内最大的信息技术消费者。而据报道,这些投资中的一半以上,都用在了购买存储数据的硬件设备上。

    这是一个不折不扣的数据帝国。

    帝国形成的原因,已经有很好的解释,这就是摩尔定律(Moore's Law)。

    1965年,英特尔(Intel)的创始人之一戈登·摩尔(Gordon Moore)考察了计算机硬件的发展规律,提出了著名的摩尔定律。该定律认为,同一个面积集成电路上可容纳的晶体管数目,一到两年将增加一倍,10也就是说,其性能将提升一倍。换句话说,计算机硬件的处理速度和存储能力,一到两年将提升一倍。

    1971年至2011年不同中央处理器上的晶体管数量和摩尔定律

    摩尔定律:全世界半个世纪的发展规律 - 图4

    说明:纵坐标为晶体管数量,横坐标为年份。图中圆点表示不同品牌的中央处理器。该曲线表明,从1971年至2011年,大概每两年同一面积大小中央处理器集成电路上的晶体管就增加了一倍。(图表来源:维基百科)

    回顾这近半个世纪的历史,硬件技术的发展,基本符合摩尔定律。摩尔定律的一个重要结果,是推动了全世界对物理存储器的消费;其消费量增加的速度,有学者认为,甚至比摩尔总结的硬件发展速度还要快,从1990年代起,全世界的物理存储器,每9个月就增加一倍。11

    摩尔定律:全世界半个世纪的发展规律 - 图5
    戈登·摩尔
    出生于1929年,至今健在,他于1956获得加州理工学院的博士,1968年成为英特尔的创始人之一,也是摩尔定律的首创人。(图片来源:英特尔公司网页)

    其中的原因,是因为物理存储器的性能不断提高,同时价格还不断下降。1955年,IBM推出了第一款商用硬盘存储器,每兆字节的存储量需要6000多美元。此后,硬盘存储器的价格以越来越大的加速度下降。1993年,购买1兆字节的存储量只需大概1美元;2010年,这个价格下降到不足1美分。多数专家都相信,计算机硬件的技术将持续发展,价格还将下跌,直到2020年,摩尔定律还将仍然有效。

    计算机硬件这种令人“瞠目结舌”的发展速度,使全世界的数据处理和存储不仅越来越快、越来越方便,还越来越便宜,海量数据的积累最终成为可能。

    但像盛水的杯子一样,存储器毕竟只是容器。关键的问题在于,帝国的数据从何而来?海量数据的源头在哪里?

    美国联邦政府的数据来源,当然首先缘于它各个部门的业务工作,也就是业务数据。

    作为社会管理和公共服务的提供部门,收集数据、使用数据,是自古以来全世界的政府都在普遍采用的做法。但政府开始大规模、系统地收集数据,其历史并不久远。在美国联邦政府的发展历史上,业务数据的收集,有一个重要的里程碑,这就是“最小数据集”。