核心:整理、分析、预测、控制

    “大数据”的核心并不是我们拥有了多少数据,而是我们拿数据去做了什么。如果只是堆积在某个地方,数据是毫无用处的。它的价值在于“使用性”,而不是数量和存储的地方。任何一种对数据的收集都与它最后的功能有关。如果不能体现出数据的功能,大数据的所有环节都是低效的,也是没有生命力的。

    ☆整理

    整理有两个目的,一是将所有的数据归类,把它们放到该去的地方;二是利于我们检索,随时调取数据进行利用。这和我们整理书架的目的是一样的。面对同样的数据,不同的整理方法决定着我们的效果是好还是坏。

    美国国会图书馆的检索工程更新很能说明“整理”的重要性。在国会图书馆,人们曾经经历过一段困难时期,因为信息量随着网络技术的发达不断暴涨,就连保存的推特(Twitter)信息(只是图书馆数据中很小的一部分)就达到了接近两千亿条,存储文件的体积更达到133TB。删除是不可能的,因为每一条信息都已经在这套社交网络中获得了读者的分享与转载——那么,如此庞大的数据应该如何整理?

    技术团队需要想尽一切办法、穷尽所有智慧才能拿出切实可行的检索方案,让图书馆的用户可以方便地利用这些信息。也就是说,技术人员必须着手建立一套帮助研究人员(包括其他用户)快速访问社交平台数据的系统,因为随着网络工具和文化潮流的不断发展,人们都在趋向于电子阅读而不是来看纸质书。

    从2000年开始,图书馆就启动了整理归档的工作——那时的难度较小,因为尚未接入社交网站,政府内部的系统储存的数据在一定时间内是静态的,增长速度较慢。虽然数据的总量也超过了300TB,但工作人员觉得:“总有一天可以整理清楚。”

    然而,推特的出现令图书馆的归档工作陷入了痛苦的僵局。图书馆方面实在找不到合适的办法来保证信息易于搜索,在这个过程中还不能出现无法容忍的错误。如果继续使用旧的方式——磁带存储,那么仅查询一条2006年到2010年之间的推特信息可能就要耗费一天,如果查询期限再加上一年,所要的时间就要增加四倍。

    国会图书馆的一位工作人员费舍尔说:“我们在庞大的数据面前感到头疼,整理成为了一个不可能完成的工作。如果无法把它们归类,这些数据就变成了包袱,需要它们的人检索不到,我们却又不得不保管它们。”

    推特的信息之所以难于整理,一方面是由于它的数据量过于庞大,另一方面的原因则十分现实,因为每天都会有新数据不断地加入进来。就像我们的微博一样,每分钟都有大量的新信息产生,人们不断在发微博。所以,这种增长速度会不断地提升,要用传统方法把它整理好,几乎是不可能的。

    此外,这类信息的种类也越来越多样,比如普通的推特信息、利用软件客户端发出的自动回复信息、手动回复信息、包含链接或者图片的数据等等。经常使用微博的人对此心知肚明。传统方法在新的数据更新特点面前,根本无从下手。

    费舍尔说:“如何寻找解决方案?道路是曲折的。我们开始的时候考虑分布式及并行计算方案,但这两类系统实在太过昂贵。要想真正地实现搜索时间的显著降低,就需要构建起由数百台甚至几千台的服务器构成的庞大的基础设施。天!想想都不可能,这对于我们这种毫无商业收益的机构来说,成本实在太高了,一点也不符合实际。”

    图书馆最后找到了大数据工程师。专家针对图书馆的具体情况,给出了一系列的实用方案。开源数据库工具Raik的创始人菲利普斯建议采取分类处理的方式,即利用一款工具处理数据存储、一款工具负责检索工作,另一款则用于回应查询请求,非常简单有效地完成了整理的工作,让海量的新信息与庞大的旧数据完美融合,也保证国会图书馆实现了数据库的更新换代。

    在整理完成以后,数据的总量增加了几十倍(每时每刻仍在增加),检索速度反而比以前更快,甚至已经实现了检索结果瞬间到位。

    ☆分析

    分析是指对于数据进行“有效分析”。数据往往规模巨大,成分复杂,且来源不一。尤其在大数据时代,数据往往同时具有四个特点,简称4个V:数据量(Volume)大、速度(Velocity)快、类型(Variety)杂、价值密度(Value)低。怎样在最短的时间内做出最有效的分析,就成了一项核心工作。

    随着大数据时代的来临,大数据分析也紧跟着应运而生。而且,传统的数据分析也在与大数据分析进行融合。

    目前人们对于数据的解决方法主要还是这几个方向:数据怎么做预处理?归档的文档怎么能够及时查询?如何使用你的挖掘和分析技术来看到视野范围内的全息的大数据内容?在海量数据面前,传统的分析方式是做不到的。

    数据分析的弱点也是需要我们警惕和谨慎思考的。去年六月份,有一位投行的华人高管蔡先生找到我。他正在考虑是否要退出欧洲市场,因为经济形势太不景气了。他觉得将来一定会发生欧元危机,一旦危机爆发,公司就会陷入破产的困境。

    没错,经济有可能低迷,这是一个潜在的事实。但是,我提醒蔡先生注意另一个事实,那就是这家投行在欧洲已有近五十年的经营史,树大根深,有了很庞大的市场,也有大量的老用户。假如这时退出欧洲,会不会让人们觉得这家投行一遇到风吹草动就弃械投降、根本不值得信任呢?

    蔡先生恍然大悟,他马上决定不能清算公司在欧洲的业务,不管未来有什么危机都要坚持下去,即便在短期内付出巨大的代价,也在所不惜。在做出这个决策时,蔡先生并没有忽视那些经济层面的数据,在我的建议下,他采用了另一种不同的思维方式,在数据的考量中纳入了更多更全面的信息。在困境中做出正确决策的人和机构,往往能够赢得更多的尊敬,而这不是传统的数据分析可以捕捉到的。

    蔡先生的故事在告诉我们数据分析的威力之外,也充分体现了数据分析的短处和局限。虽然人类的生活现在由收集数据的电脑在调控指挥,当人的大脑无法及时理解和判断情况时,数据也可以帮我们解读和分析它的意义,并且帮助我们弥补对于直觉、情感的过分依赖,减轻我们内心欲望对于理性的扭曲。但归根结底,数据并不能代替人的思考,只有明确数据的真实价值,才有助于我们摆脱对数据的完全依赖。

    真正的大数据分析就是要帮我们搞明白数据的真实价值,它在研究大量数据的过程中寻找模式、相关性和其他的有用信息,来帮助人们和企业更好地适应变化,并且做出那些真正明智的决定。

    在大数据的层面上,对海量数据有四个不同的方向和解决工具:

    1.技术上解决了廉价数据的问题;

    2.几乎可以实时地对数据进行分析,而不会有任何滞后,保证了数据的实效性;

    3.大数据的可视化和发现性,使得搜索与可视化成为热门应用,也让数据更加精确;

    4.在设备层面,拥有了经过优化的一体机设备,使得数据制造和分析更加便捷,成本也更低。

    即便拥有最好的技术,在对数据进行分析前,人们也应该先了解数据的真实含义——就像了解自己一样。如果你对于数据是陌生的,那么作为一个决策者来说,你对于自己的事业就是十分危险的。现在许多产品经理、设计师和高管在没有完全理解数据的真实含义的情况下,就直接根据数据来修改自己的产品设计、做出完全基于数字逻辑的决策,结果往往事与愿违,导致糟糕的结果。

    ☆预测

    大数据技术就像一面细致入微的显微镜,不但能够收集和分析最不起眼的信息,而且能够基于这些信息之间的逻辑关系做出科学决策。就像我们可以根据人的表情与言词判断他接下来的行为、量度他内心的情感状态一样,预测功能在商业、经济乃至其他领域都有助于政府和企业管理者做出更多的理性决定,而不仅仅是依靠直觉和经验。

    IBM公司的能源电力应用部门经理布兰德说:“我们运用大数据预测风电和太阳能,精确地预测来自太阳能和风能的电力产出,取得了很好的效果。这是一种前所未有的创新模式,将使能源电力行业解决可再生能源的间歇性缺陷。”

    IBM公司开发了一种结合天气和电力预测的智能系统,提高了系统的可用性并优化了电网的性能。它是足够改变游戏规则的新发明,结合大数据分析和天气建模技术而成,是现在全世界最先进的能源电力解决方案,可以提高可再生能源的可预测性。

    这项名为“HyRef”(混合可再生能源预测)的大数据预测技术,利用天气建模能力、先进的云成像技术和天空摄像头,接近实时地去跟踪云的移动,并且通过传感器来监测风速、温度和方向。通过精确的分析,能为风电企业提供未来30天的区域内的精准天气预测,或者未来15分钟的风力增量。这就使能源公司有条件将更多的可再生能源并入生产线,减少碳排放量,然后制造更多的清洁能源。

    这种预测能力让我们的生产模式得到真正的升级,而且可以应用到其他领域,比如天然气、煤炭或其他传统行业。不仅在实体产业,非制造业的服务产业对于大数据预测的需求更盛,也有着更广阔的市场。例如,可以帮助企业和政府机构进行业务(服务)分析与预测,对工作量身定制,降低成本,事先应对危机;再比如,可以对房地产销售的价格走势进行预测,它的精确性远远超过传统的房地产分析师。我们每个人都将从中受益无穷。

    ☆控制

    如果你正确地使用了大数据,收集、整理、分析和进行预测,它将为你提供梦寐以求的情报和洞察力。它的控制功用是如此强大,既能够让你掌握最全面的信息,也足以使你从容引导——使自己免受威胁,保护企业,解决潜在问题,并通过自检和优化提升效率。

    现在全世界每天都要产生超过3EB的数据,我们有理由相信,随着互联网、各种移动平台越来越广的拥有率和使用频率,这个数字正在不断升高。从棱镜门事件中我们已经知道,美国政府千方百计要加以运用的就是这些数据——以大数据技术来把它们吸纳进去,除了用于正面(反恐),也在试图监控和控制民众。

    有一家美国的顾问公司预测,在今后,美国国内还需要10多万个数据分析专才,以及100多万名能够运用数据的经理人。由此可见,大数据的应用在美国已经十分普及,他们将大数据大量地运用于社交媒体、移动网络和对舆情的分析上,进而达到控制选民、管理资讯和监控敌国的目的。

    谁对大数据的研究越早,准备越充分,谁体现出来的控制力就越强。毫无疑问,美国人已经走在了最前面。

    控制的基础是管理好这些大量的非结构数据,假如管理得当,我们就能从中挖掘出有效信息,实现企业和政府的管理革新。有先见之明的公司都正在从内部的各种来源以及云基础设施中收集越来越多的数据,它们构建可自控的数据中心,聘用和培养自己的大数据工程师。但还有更多的企业仍然徘徊在门外。后者注定会让自己的企业远远落后于人,它们没有办法获取及时有效与海量的信息,以及由此产生的洞察力,自然也就做不出明智的决定。

    2013年,我们与安全公司EOA北美分公司在东亚地区共同完成了一项大数据调查。调查的对象是300位来自中国各行各业的高级主管。结果发现,已经有49%的中国公司关注或者非常关心大数据管理问题,但还有38%的中国公司并不明白什么是大数据,对大数据还是一头雾水;另外有27%的中国公司表示他们对此并没获知太多信息,只知道细枝末节或停留在看客阶段。

    另外,我们还发现76%的中国公司没有使用恰当的工具来管理自身的系统数据(IT系统),而是采取其他的独立或缺乏互联功能的系统。有的公司甚至还在采用电子表格的方法对数据进行记录和管理。

    这是一次令人灰心的调查,但可喜的是,我们看到了积极的增长速度。相比于2012年或更早的时间,投身于大数据的中国公司正以疯狂的速度增加。随着设身处地感受到它的好处的公司越来越多,人们已不再准备持观望态度,而是立刻参与进来。

    要实现大数据控制的关键之一是“日志管理”,整合与自己有关的所有数据,比如企业日志,建立索引库,然后设计用户易于理解和使用的界面。要把数据充分利用起来,就必须使数据关联化和规范化,具备报告、反馈与防卫入侵的能力。每一家成功的电商网站和面向用户的企业官网,都是这么做的。

    现实的情况是,国内目前只有56%的受访者使用日志管理的解决方案来管理他们的数据。很多公司使用电脑系统自带的普通日志或者建立一个电子表格进行这项工作。更有39%的受访者向我们表示,他们根本没有对日志(数据)进行管理。

    “有什么用吗?”他们问。这表明,国内对大数据核心的认识和应用任重而道远。提高认识和加强推广成为了当务之急。

    此外,相关的技术更新、方案和平台必须跟上新信息产生的速度。数据的产量以几何级的速度增加,它比宇宙中的星星还要浩瀚。如果我们检索数据的时间太长,分析和预测就失去了意义,控制与管理更无从谈起,还会造成严重问题。