棱镜门背后的大数据革命
☆五个需要注意的问题
棱镜门事件爆发后,从斯诺登不断曝光的信息收集黑幕中,一夜之间人们突然意识到,数据的管理风险是无处不在的,不管是个人信息还是企业信息,在大数据时代都变成了极易被收集、窃取、分析和控制的“猎物”。这是因为对于大多数国家来说,大数据已经成为左右竞争局面的决定性力量,数据的安全风险也随之更加凸显。
● 强力机构可以轻而易举地利用技术收集我们的所有信息。
● 在今天,数据比任何时代更值钱,更能决定竞争的成败。
● 对每个国家、企业和个人来说,数据安全都已成为迫在眉睫的一项大挑战。
我们的国家和企业已经搜集并且存储了所有的数据,我们已升级了相关的技术,已为大数据产业的蓬勃发展奠定了基础。
接下来,中国人应该做些什么才能真正安全地发展大数据产业?我们应该如何对来自四面八方的个人、企业和国家数据进行保护?而且最为重要的是,我们如何才算是合法和健康地利用这些数据?
从企业和个人信息安全的角度来看,大数据有5个方面的问题需要我们注意。
网络安全
随着在线交易、在线对话、在线互动的兴起,在线数据越来越多,黑客们的犯罪动机也比以往任何时候都来得强烈。如今除了个人黑客之外,还出现了国家黑客,比如美国国安局。他们的组织性更强,更加专业,作案工具也是更加强大,作案手段更是层出不穷。相比于以往一次性数据泄露或者黑客攻击事件的小打小闹,现在数据一旦泄露,对整个企业、个人和国家而言,无异是重大打击,一着不慎就会满盘皆输,不仅会导致声誉受损、造成巨大的经济损失,严重的还要承担法律责任(比如金融机构的安全漏洞)。所以在大数据时代,网络的恢复能力以及防范策略可以说是至关重要。
云数据
云技术是新时代的技术产物,现在人们快速采用和实施诸如云服务时仍然存在大量的压力,这是因为我们对它们可能带来的风险和后果仍然没有办法预料和控制。尤为重要的是,云数据是黑客的目标,这是一个极具吸引力并能获取高价值信息的目标。因此,这就对企业制定与云计算相关的安全策略提出了极高的要求。
移动化
这个时代在变得“移动化”,人们对数据的需求增加,而数据的搜集、存储、访问、传输等工作都需要借助移动设备,所以大数据时代的来临也带动了移动设备的猛增。比如越来越多的员工用自己的移动设备进行办公,他们上班时拿着移动设备来到公司,下班后又拷贝了数据离开。我们不能否认,这很便利,有利于工作,也帮助企业节省了很大一笔开支,但也给企业带来了更大的安全隐患。要知道,移动设备是黑客入侵内网的绝佳跳板,比如以色列攻击伊朗核电站的手段就是靠一块很小的移动硬盘接入了核电站的工业计算机,从而释放病毒进行了致命攻击。移动化给企业的管理和安全保护带来了难度。
微妙而紧密的供应链
在今天这个全球化的时代,每个企业都是复杂的和互相依存的,都是全球供应链的一部分,但供应链本身恰恰是最薄弱的环节。信息将供应链紧密地联系在一起,从简单的数据到商业机密再到知识产权,而某一环节信息的泄露就可能导致整个供应链上的企业遭到巨大损失,甚至会违反法律,受到司法制裁。对全球化来说,信息安全是如此重要,它在整个供应链上扮演着血液的角色——试想我们的血液如果进入了病毒,会是什么后果?
隐私安全
随着产生、存储、分析的数据量越来越大,隐私问题在未来的几年也将愈加凸显。所以新的数据保护要求以及立法机构和监管部门的完善应当提上日程。
基于这些问题,大数据时代发生棱镜门事件一点也不意外,如果美国人不这么做才会让人觉得奇怪。事实上,不止美国人在这么干,不是吗?也不止各国的首脑在遭到威胁,不是吗?在这次震惊全球的情报丑闻中,有人看到的是“小丑出场”,但也有人已经看到棱镜门事件的背后是一场注定影响深远的革命,是一场与大数据有关的全球性变革。
在这场变革中,聚合以及大数据分析就像是营销情报的宝库,不管对国家、企业还是个人来说,我们都可能因此受害,更可能采取绝佳的方式从中受益。人们难以忽视大数据对我们的思维和技术革新的影响,比如营销和管理。
在这场变革到来时,我们应该保持敏捷性并在机遇出现前就做好准备,在机遇来临时果断抓住,而不是坐等时机错失再去亡羊补牢。当然,对很多国家和企业来说,一切都还处于初级阶段,而且目前也没有太多的外在要求来强制它提升数据处理技术以保证信息的安全。但是,企业每天处理的数据规模依然在保持增长,大数据分析并不会等你主动靠近它,而是会在全球化的作用下主动走向你。它使得商务决策越来越依靠原生数据,使得信息的质量变得越来越重要。
同样,还有你无法忽视的数据安全。复杂的分析可以运用到相关的信息安全上,帮助你加固自己的数据仓库大门,以防成为强力机构随意提取的免费宝库。我们可以向全社会普及这些方案,鼓励中国企业和普通用户使用大数据分析来防骗和进行网络安全检测,使用大数据的社会分析技术以及多通道实时监测安全问题。
总的说来,大数据对中国具有无穷大的价值。我们从棱镜门事件中看到了它巨大的风险和安全隐患,但也体会到了一场山雨欲来风满楼的“鼎革之变”。这个世界是公平的,中国已错失大航海时代,但是上帝给了我们机会,让我们不会错失大数据时代。
☆全程展现——棱镜门的大数据背景
爱德华·斯诺登是前中情局雇员,他所披露出来的棱镜计划(PRISM),是一项由美国国家安全局(NSA)从小布什时期起开始实施的绝密电子监听工程。根据这项计划,美国的情报机构一直通过互联网公司进行数据挖掘工作,从音频、视频、图片、邮件、文档以及连接信息中分析个人的联系方式与行动。
监控的类型有10类:电邮信息、即时消息、视频、照片、存储数据、语音聊天、文件传输、视频会议、登录时间、社交网络资料的细节。其中还包括两个秘密的监视项目:
1.民众电话的通话记录;
2.民众的网络活动。
根据斯诺登的披露,从欧洲到拉美,从传统盟友到合作伙伴,从国家元首通话到日常会议记录,包括公民个人信息,美国情报部门都在进行监控。国安局可以接触到大量的个人聊天日志、存储的数据、语音通信、文件传输、个人社交网络数据。比如,美国政府要求电话公司提供数百万份的私人电话记录,详细到个人电话的时长、通话地点、通话双方的电话号码,把这些信息全部收集起来进行分析,然后选择重点监控对象。
有美国参议员证实,国安局的电话记录数据库至少已经有7年的历史。项目年度成本2000万美元。在2012年,作为总统每日简报的一部分,项目数据被引用高达1477次,可见它的使用频率。
美国政府辩称,阻止恐怖主义高于保护隐私权。奥巴马说:“你不能在拥有100%安全的情况下同时还拥有100%的隐私和100%的便利。”盟友英国也站出来支持说:“英国的守法公民永远不会知道政府部门为了阻止你的身份被盗或者挫败恐怖袭击所做的一切事情。”
听起来他们十分委屈,但用户数据实实在在地泄露了,而且里面99%以上的人与恐怖主义没有半点关系。这些全球数据不但在用户自己的国家被存储,甚至也被传回了美国供国安局进行分析,比如脸书在它的隐私条款中称,所有用户必须同意他们的数据“被转送和存储在美国”。而《爱国者法案》给予了美国政府使用这些数据的权力。由于世界主要技术公司的总部都在美国,那么只要是接入了互联网或使用谷歌、思科等美国公司提供的联网设备,人们的隐私就可能被棱镜项目所侵犯,被转送和储存到美国政府相关的数据库。
斯诺登说,出于对隐私权的担心,他才采取了曝光行动。对此他坦言:“我不想生活在一个做那些事情的社会里,我不想生活在一言一行都被记录的世界里。”当他决然地迈出揭露行动的第一步时,我们才突然发觉,原来数据收集技术已经发达到了如此让人惊骇的程度。
☆现实——技术储备引发的变革
“棱镜”在技术层面是非常高端的大数据武器,是大数据革命的结果,这当然需要雄厚的技术储备才能实现。美国靠强大的数据通路和丰富的数据源收集大数据。已曝光的资料显示,美国有多个项目与棱镜数据的收集有关,比如从互联网骨干枢纽收集数据的“布拉尼计划”,从光纤网收集数据的“上游计划”等等。这些计划的成功都得益于一个现实——美国拥有全球电信最骨干的网络。
第一,带宽的技术优势。
由于美国网络基础设施建设走在了世界前面,导致北美跟欧洲、亚太、拉美之间的带宽远远地超过了其他的洲际带宽。相比从亚太地区直接发送数据到欧洲,经过美国中转会更快捷实惠,因此美国成为了数据传输的过路站,这给它监听数据提供了最基本的条件。
就像我们在现实中交换电子文档时,不一定靠U盘这种物理距离最近的方式,可能会采取MSN或腾讯QQ之类的即时通讯,因为它的速度更快、更方便,而且人们不会计较这些文件绕经网络服务器是否会被长期扫描和监测。这就是技术优势的巨大作用。
第二,数据传输诱导策略。
美国通过扩大数据传输带宽,可以诱导更多的数据流经本国,从它的家门口过,给它做一系列的数据截留分析工作大开方便之门。越多的数据流经美国,它能做的分析监测就越全面,那么它最终的收益就远远超过了风险。比如美国曾租用中国的卫星来传送数据,以提高非洲跟美国之间的带宽,就是一种付出较小风险获得较大收益的表现。
第三,控制数据通道,从其他数据源快速收集信息。
这一策略包括与电信运营商的合作和对其数据源的监控。例如,联邦政府的海外情报监听法庭要求美国电信运营商(Verizon)每天都要向国安局提交元数据——电话记录数据,包括通话双方号码、通话长度等,虽然不包括通话内容,但已经提交了大部分的个人信息。
第四,通过与民营公司和其他国家建立技术联盟来收集和控制数据。
综上,美国最早意识到了需要加强信息管理与网络安全,而加强的办法就是用政府的手去控制民营企业及其他国家的相关服务商,建立技术联盟。
1978年美国国会通过了《外国情报监视法》(FISA),1986年又通过了《电子通信隐私法》(ECPA),1994年通过了《执法通信辅助法》(CALEA),从而建立起了全方位的保障体系,联邦政府可以从容地对本国及外国进行监听监视。
最重要的部分是与技术巨头有关的,即那些控制互联网的大型公司,在《执法通信辅助法》中规定,执法机关可以根据法院监听令直接接入电信网络,启动电信运营商交换机中的监听功能。这意味着美国法律要求电信运营商等网络、通信服务者必须为政府预留一定的接口以备不时之需。
根据《华盛顿邮报》的披露,在“棱镜”计划中,一共涉及至少9家美国的IT公司,微软是在2007年9月11日第一个加入其中的,苹果公司则是在2012年10月最后一个加入的。另外还包括思科、IBM、谷歌、高通、英特尔、雅虎、脸书和甲骨文等。它们几乎垄断了全球IT产业的所有领域,包含了从硬件到软件再到服务三个层面,自然为美国政府提供了强大的技术支持。
比如,如果你的联网电脑使用英特尔公司提供的某款芯片,就会发送一个序列号到英特尔公司,这也意味着在这台电脑上运行的一些信息也可以同时一并发送过去。另外,操作系统是网络软件运行的载体,联网后我们会经常收到自动更新的提示,这意味着垄断操作系统的微软公司可以轻而易举地掌握一台电脑的网络活动。同时,由于操作系统在不断更新,微软公司通常会最早发现其系统存在的漏洞,他们向政府安全部门提供的漏洞信息,会有助于情报机构攻击那些还没有修补漏洞的计算机。
再比如,人们用雅虎邮箱发邮件,用思科的网络电话通话,用谷歌的地图标注、搜索,用脸书发布社交状态,用MSN即时通讯聊天,所有这些网络活动,都会在各大公司的服务器上留下原始数据,而且还是人们主动提供的信息,自己花钱把信息送上门。
这些公司的服务器是如此之多,它们可以向美国政府开放直接访问的后门,帮助情报部门读取数据,甚至能够全程参与国安局的监控计划。这些大数据的技术巨头,成为了政府收集信息和分析数据的绝好帮手,而这在民众毫不知情的情况下就可以完成。
海外盟友的数据来源包括澳大利亚、英国、日本、加拿大和新西兰等国家,比如著名的“五眼联盟”就是由美国、英国、加拿大、澳大利亚和新西兰五国组成,双方互通有无,协同收集数据。联盟成员甚至可以彼此监听对方国内的数据,绕开本方国内的法律禁区,然后交换数据。
第五,建立尽可能多的海外非盟友“数据源”。
当然,只有盟友数据源是不够的,美国还有大量的海外非盟友数据源。比如斯诺登就透露说,为了窃取中国大陆的数据,美国采取的办法是直接在中国境内建立数据源合作伙伴。香港中文大学在1995年成立了香港互联网交换中心,它的前身为港中大连接美国的数据专线,拥有服务于全香港的网络数据交换服务器。美国在这个基础上可以方便地潜入进来,对数据进行窃取。
为数众多的黑客也是这一数据源的提供者,国安局旗下有一个叫作TAO的机构,拥有多达六百名高级黑客,来自世界各地(包括中国)。思科公司提供的设备为这项工作提前留下了后门,尽管思科强烈否认这一质疑,但随着曝光的深入,否认的声音已越来越缺乏说服力。
只要能获得海量的源源不断的数据,美国强有力的大数据存储和分析系统就可以派上用场。
第六,建设大型数据中心来保存数据。
为了保存这些海量数据,还需要一个庞大的数据库和处理中心。NSA在犹他州耗资20亿美元建立了一个大型的数据中心,足以保存5000亿G的数据,相当于全球500年的通讯量。为了实现这一目标,NSA专门开发了一个叫作Accumulo的大数据存储系统,并与相关的有军方背景的民用公司合作,开发这一系统的商用版本,来持续获取数据利益。
第七,对元数据的挖掘技术,使美国有能力构筑关联图谱。
元数据是最基本的数据单位,在移动互联网快速发展的今天,我们每个人几乎每时每刻都在产生数据。比如姓名、电话号码、邮箱地址这些都可以称为元数据,它可以拿来当作节点,把有过联系的人、号码、邮箱用线连接起来,就构成了数据和信息背后的人物关联图谱。这表明,元数据虽然单个看起来不怎么重要,但大量集中起来,却非常便于构建个体之间的关联。
再比如,对电脑来说,元数据记录了一台计算机的工作环境,包括操作系统、浏览器、应用软件版本等基本信息,那么收集这些元数据,则是黑客发起网络攻击的必备步骤。对元数据的收集与分析能力,说明美国的网络监控水平已经具备了大数据时代的显著特征。有了这种对海量元数据的存储与分析能力之后,这些庞杂的信息经过超级计算机的快速运算,就能从中显露出不易察觉的规律,从而为情报部门提供有效的情报信息。
在大数据时代,美国对于关联图谱的挖掘技术进展迅猛,使得从元数据中能够挖掘的隐私越来越多,简直到了无孔不入的地步。换句话说,现有的技术可以做到一切:侦测到你每天发送的短信数量、电话频率以及约会对象,并且深入地探查出你的全部生活和工作习惯,让你成为一个彻底透明的人。
一项调查显示,美国国安局拥有一个4.4万亿个节点、70万亿条相关联的图谱数据。按照全球70亿人口计算,国安局有能力为每人保存将近630种信息,可以分析出每个人多达1万种的关联。要知道,我们只需要4个时间点和位置就可以确定一个人的身份了,而且准确性已经高达95%,那么1万种呢?
这一技术的先进程度已超出普通人的想象,相关的技术告诉我们,即使你已隐姓埋名、流落天涯,只要他们有这个意愿,就可以轻松地找到你,并能穷尽你的一切社会关系,甚至比你自己知道的还要多。
第八,强大的分析工具:可视化和实时查询的大数据系统。
美国国安局还拥有一套大数据可视化和实时查询系统,名字叫作Boundless Informant。它的作用在于将监听、收集到的全球数据进行可视化和能够实时查询的分类,把不同的国家、地区用不同的颜色显示,构建出全球信息分布图。有了这样的大数据系统后,就具备了强大的分析能力,不管收集到多少数据,都可以轻松地整理、归类、分析和预测。
第九,拥有全数据挖掘技术,进行“无死角”数据收集。
美国一方面在挖掘元数据,另一方面也在发展对全数据的收集技术,争取做到数据收集无死角。像有一种叫作Narus的光纤监听设备,可以进行内容层监控,还有一种叫作爱因斯坦3号(Einstein 3)的系统,可以对数十亿邮件的全文内容进行扫描。语音监听和识别也是这一工作的组成部分,对多语种的语音视频内容进行分析辨别。
第十,为全球互联网的发展提供了可能性。
我们已经很难用一个特定的词汇来形容全球互联网的结构。但它的主要构成特点我们是清楚的,一方面它就像树一样,有根、主干和枝蔓,最后连接到每一个用户;另一方面它又是平状的,具有平等和无中心的特点,每一个节点的信息都可以在全球的网络中自由流通。也就是说从信息流通来看,互联网是一个扁平的世界,但在管理上,却仍然是自上而下的结构,有骨干网络来处理、管理所有的信息。
例如在中国,163和169骨干网承担着中国80%以上的网络数据流量,它们统称为中国公用计算机互联网(CHINANET),另外还有中国教育和科研计算机网(CERNET),全国科研机构的中国科技网(CSTNET),中国金桥信息网(CHINAGBN)。它们共同组成了由上到下的中国四大骨干网络。从网络监控和攻击的角度来说,自然是从上往下更好,这有利于获取更多的信息,也拥有更大的控制权限。
从棱镜门事件我们可以看到,由于具备足够的资金、技术和不受限制的权力,较大的机构是大数据的最大受益者,它们可以窥探个体的信息和收集、预测人们的关联数据,达到控制人们需求并实现一系列组织计划的目的。要想充分防范大数据技术的滥用,就需要发挥我们每一个人的创造性,由人去主导大数据的进程,而不是成为数据可以控制的一部分。
我们每个普通人都需要参与进来,思考大数据技术的合理开发,并加入这个神奇的新时代,成为它的主人。