“大数据”战略:争夺全世界的下一个前沿

    联邦政府的每一个机构和部门,都需要制定一个应对“大数据”的战略。20

    ——《规划数字化的未来:美国总统科学技术顾问委员会给总统和国会的报告》2010年

    业务工作的管理数据,民意社情的调查数据,以及对大自然、动植物的特点和变化进行监控而产生的环境数据,是联邦政府的三大数据来源。这三种数据,其发展各有先后,收集方式各不相同,数据量也大小不一。它们之间,存在着一些交叉和重叠,有一些民意调查的数据,是业务数据,而一些因环境监控产生的数据,也可以是业务工作的数据。

    联邦政府三种数据源的关系和数据量的大小比较

    “大数据”战略:争夺全世界的下一个前沿 - 图1

    联邦政府三种数据源以及收集方式的对比

    “大数据”战略:争夺全世界的下一个前沿 - 图2

    由于无线传感器的快速普及,环境数据增长得最快,成为联邦政府数据量最大的来源。

    虽然环境数据增长得最快,但这三种数据,其实都在爆炸。这种爆炸,并不仅仅是数量一个维度的。2001年,著名的高德纳咨询公司(Gartner)在一份研究报告21中指出,数据的爆炸是“三维的”、是立体的,这三个维度,主要表现在以下三个方面:

    一是同一类型的数据量在快速增大;

    二是数据增长的速度在加快;

    三是数据的多样性,即新的数据来源和新的数据种类在不断增加。

    数据的爆炸性增长,也不仅仅限于联邦政府。如前文所述,2011年麦肯锡公司在其研究报告《大数据:下一个创新、竞争和生产率的前沿》中指出,在美国,仅仅制造行业就拥有比美国政府还多一倍的数据,此外,新闻业、银行业、医疗业、投资业、零售业都拥有可以和美国政府相提并论的海量数据。

    哈尔·范里安(Hal Varian)是谷歌的首席经济学家,也是美国研究信息经济学的著名学者。2000年,他对数据和信息产生的速度进行了研究,他认为,人类社会每年产生的信息量,实在太大了,已经没办法用准确的方法来计算现有的数字信息总量,只能估算。他估计2000年新产生的数据量为1000拍到2000拍。但到2010年,仅仅全球企业一年新存储的数据量就超过了7000拍,而全球消费者新存储的数据量约为6000拍。

    数据的三维增长

    “大数据”战略:争夺全世界的下一个前沿 - 图3

    这种数据量的增长,已经大大超出了人类的预期和想象。时至今日,数据已经像“洪流”一样,在全球的政治、经济生活当中奔腾。而且,随着信息技术的普及和进步,新的支流还在不断产生,各个支流流动、交汇和整合的速度,还在继续加快。

    作为美国社会的信息枢纽,联邦政府当然要正面迎对这个挑战。

    2010年12月,总统行政办公室下属的科学技术顾问委员会(PCAST)、信息技术顾问委员会(PITAC)向奥巴马和国会提交了《规划数字化未来》的专门报告,该报告把数据收集和使用的工作,提到了战略的高度。

    这个报告列举了5个贯穿各个科技领域的共同挑战,报告指出“每一个挑战都至关重要”,而第一个挑战就是“数据”问题。报告说:

    “如何收集、保存、维护、管理、分析、共享正在呈指数级增长的数据是我们必须面对的一个重要挑战。从网络摄像头、博客、天文望远镜到超级计算机的仿真,来自于不同渠道的数据以不同的形式如潮水一般向我们涌来。这些数据以不同的格式存储在不同的环境中,有的在计算机的硬盘里,有的在数据仓库之内。

    如何保证这些数据现在、将来的完整性和可用性,我们面临着很多的问题和挑战。如何使用这些数据,则是另外一个挑战……应对好这些挑战,将引导我们在科研、医疗、商业和国家安全方面开创新的成功。”

    在报告中,两个委员会还例举了美国癌症研究所以及中央情报局如何通过收集海量数据、建立数据仓库、实施以数据挖掘为核心的自动分析技术,获得了出人意料的创新和成功。

    委员会一致认为,如何有效地利用数据将贯穿所有科技领域的挑战。最后,两个委员会向奥巴马建议:联邦政府的每一个机构和部门,都需要制定一个“大数据”的战略。

    大数据(Big Data)
    大数据是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。
    但是,具体多大的数据才能称为“大”,并没有普遍适用的定义。一般认为,大数据的数量级应该是“太字节”(240)的。麦肯锡全球研究所认为,我们并不需要给“什么是大”定出一个具体的“尺寸”,因为随着技术的进步,这个尺寸本身还在不断地增大。此外,对于各个不同的领域,“大”的定义也是不同的,无需统一。

    其实,“大数据”这个名词并不新鲜,早在1980年代,美国就有人提出了“大数据”的概念。20多年来,各个领域的数据量都在迅猛增长,美国的企业界、学术界也不断地对这个现象及其意义进行探讨,“大数据”这个名词变得越来越流行、越来越重要,最后成为了国家和政府层面的发展战略。

    之所以要称之为战略,是因为“大数据”之“大”,并不仅仅在于其“容量之大”。当然,由于数据容量的爆炸,数据的收集、保存、维护以及共享等等任务,都成为具有研究意义的现象和挑战。但“大数据”之“大”,更多的意义在于:人类可以“分析和使用”的数据在大量增加,通过这些数据的交换、整合和分析,人类可以发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。

    如前文所述,数据,是记录信息的载体,是知识的来源。数据的激增,意味着人类的记录范围、测量范围和分析范围在不断扩大,知识的边界在不断延伸。

    2007年,雅虎的首席科学家沃茨博士在《自然》上发表了一篇文章《21世纪的科学》22,他发现,得益于计算机技术和海量数据库的发展,个人在真实世界的活动得到了前所未有的记录,这种记录的粒度23很高,频度在不断增加,为社会科学的定量分析提供了极为丰富的数据。由于能测得更准、计算得更加精确,他认为,社会科学将脱下“准科学”的外衣,在21世纪全面迈进科学的殿堂。例如,新闻的跟帖、网站的下载记录、社交平台的互动记录等等都为政治行为的研究提供了大量的数据,政治学这门古老的学科,将登堂入室,成为地道的“科学”。

    麻省理工学院的教授布伦乔尔森(Erik Brynjolfsson)则比喻说,大数据的影响,就像4个世纪之前人类发明的显微镜一样。显微镜把人类对自然界的观察和测量水平推进到了“细胞”的级别,给人类社会带来了历史性的进步和革命。24而大数据,将成为我们下一个观察人类自身社会行为的“显微镜”和监测大自然的“仪表盘”。

    这个新的显微镜,将再一次扩大人类科学的范围,推动人类知识的增长,引领新的经济繁荣。麦肯锡全球研究所在其2011年的报告中最后概括说:大数据,将成为全世界下一个创新、竞争和生产率提高的前沿。

    抢占这个前沿,无异于抢占下一个时代的“石油”和“金矿”。

    2012年3月29日,奥巴马政府又进一步推进了其“大数据”战略。奥巴马的高级顾问、总统科学技术顾问委员会(PCAST)的主席霍尔德伦(John Holdren)代表国防部、能源部等6个联邦政府部门宣布,将投入2亿多美元立即启动“大数据发展研究计划”(Big Data Research and Development Initiative),以推动大数据的提取、存储、分析、共享和可视化。霍尔德伦也是哈佛大学肯尼迪政府学院的知名教授,他在讲话中表示:像美国历史上对超级计算和互联网的投资一样,这个大数据发展研究计划将对美国的创新、科研、教育和国防产生深远的影响。

    奥巴马则强调联邦政府必须和公司、大学结盟,全民动员(All Hands on Deck),来应对“大数据”时代的挑战。

    人类知识的三大种类与科学的关系
    人类所有的知识,可以划分为三个大类:自然科学、社会科学和人文艺术。
    自然科学的研究对象是物理世界,讲的是“精确”,丝毫不能含糊,卫星上天、潜艇下海,差之毫厘,就会谬以千里。
    社会科学研究的是社会现象,探讨的是人和社会的关系,如经济学、政治学、社会学,它也追求精确,但因为关系到多变善变的人,导致了“测不准”,所以社会科学又被称为“准科学”。
    人文艺术则主要包括文学、艺术、哲学,它探讨的是人的信仰、情感和价值,并不强调精确,有时候甚至模糊就是美,所以位于科学的最外围。
    在科学的谱系里,社会科学正好介于自然科学和人文艺术之间。

    注释

    01 机器学习(Machine Learning),是人工智能的一个分支,通过在大量数据上运行分析程序,达到让计算机自动学习、积累智能的目的。

    02 Designing a Digital Future, Page. xvii, The President's Council of Advisors on Science and Technology, Dec 2010.

    03 英语原文为:“Moore's Law has been the name given to everything that changes exponentially in the industry. Another decade is probably straightforward…There is certainly no end to creativity.”—Gordon Moore, February 2003

    04 数据来源于美国劳工部对于联邦政府的介绍网页:With about 2.0 million civilian employees, the Federal Government, excluding the Postal Service, is the Nation's largest employer. http://www.bls.gov/oco/cg/cgs041.htm

    05 从1996年起,美国联邦政府就认为自己是美国最大的单个信息生产、收集、使用和发布方,见OMB Circular A-130。

    06 Big data: The next frontier for innovation, competition and productivity, McKinsey Global Institute, May 2011.

    07 离散式制造业(Discrete Manufacturing)是指将不同的现成元部件装配加工成较大型系统的行业,例如汽车行业。流程式制造业(Process Manufacturing)是指通过一条生产线将原材料制成可以出售的成品的行业,比如制药。

    08 Md.-based intelligence agencies helped track Bin Laden, 05-7- 2011, Scott Calvert, The Baltimore Sun.

    09 本书第五章第一节将会具体解释这个负担小时的计算方法。数据来源为:Information Collection Budget Of The United States Government,Office of Management and Budget,2010。

    10 摩尔1965年发表该定律时,认为这个周期是1年,1975年,他修订为2年;也有人认为,这个周期是18个月。

    11 “The capacity of digital data storage worldwide has doubled every nine months for at least a decade, at twice the rate predicted by Moore's Law for the growth of computing power during the same period.”Fayyad, U. and Uthurusamy R., Evolving data mining into solutions for insights, Communications of the ACM, Vol. 45, No. 8, 2002, pp. 28-31.

    12 英语原文为:“Smart data structures and dumb code works a lot better than the other way around.”—The Cathedral and the Bazaar, Eric Steven Raymond, 1999

    13 英语原文为:“Data is a precious thing and will last longer than the systems themselves.”— Tim Berners-Lee, www2006 conference BCS interview, 2006

    14 Uncle Sam's first CIO, Fortune Magazine, Interview by Geoff Colvin, July 13, 2011.

    15 英语原文为:“What I want to get done is what the people desire to have done, and the question for me is how to find that out exactly.”— Abraham Lincoln

    16 Election Polls—Accuracy Record in Presidential Elections, Gallup, http://www.gallup.com/poll/9442/election-polls-accuracy-record-presidential-elections.aspx.

    17 英语原文为:“The most profound technologies are those that disappear. They weave themselves into the fabric of everyday life until they are indistinguishable from it.”—The Computer for the 21st Century, Mark Weiser, 1991.

    18 A National Operational Wave Observation Plan, NOAA and USACE, March 2009.

    19 Commercial Fishing Fatalities — California, Oregon, and Washington, 2000-2006, Centers for Disease Control and Prevention, April 2008.

    20 原文为:“Every federal agency needs to have a ‘Big Data’ strategy.”—Designing a Digital Future, Page. xvii, The President's Council of Advisors on Science and Technology, Dec 2010.

    21 3D Data Management: Controlling Data Volume, Velocity and Variety, Laney, Douglas. Feb 2001.

    22 A twenty-first century science, Nature 445, 489; 1 February 2007, Duncan Watts.

    23 数据粒度是指数据的细化程度。细化程度越高,粒度就越小;相反,细化程度越低,粒度级就越大。

    24 The Age of Big Data, New York Times, Steve Lohr, February 11, 2012.