1.13 今天的大数据将不再是明天的大数据

正如我们在本章最开始所讨论的,大数据被公认的定义多少还有一些模糊。没有一个明确和广泛的定义,什么样的数据可以被视为大数据。相反地,大数据的定义是相对于当前可用的技术和资源而言的。结果,某一个企业或行业所认为的大数据,可能对于另一个企业或行业就不再是大数据。对于大的电子商务企业,它们眼里的大数据要比小厂商眼里的大数据“大”得多。

更重要的是,随着时间的推移,处理数据的工具和技术、原始存储空间和处理能力都会不断演进,大数据的界定也必然会发生变化。10年或20年之前,几百个领域,几百万个顾客的年家庭人口档案是非常庞大并难以管理的。而如今,这些数据可以存入一个U盘中,并可以使用低端的笔记本电脑对其进行分析。对大容量、高速度、高复杂度的界定会一直演变,对大数据也同样如此。


“大”会变化

今天的大数据明天可能不再被认为是大数据,就像10年前的大数据在如今看来什么都不是一样。大数据会继续演进下去。如今,在数据容量、速度、多样性、复杂度等方面被认为是不可能的或无法想象的事情,几年过后情况会完全不同。这是一个多年不变的定律,在大数据时代也同样适用。


10年以前,零售业、电信业以及金融业的交易数据非常庞大,并且难以处理。事实上,在20世纪90年代后期之前,对于很多企业,这些数据都没有被用在分析和报表中。如今,这些数据已被认为是一项必要且基本的资产。事实上每一家公司,不论大小,都会使用到这些数据。

类似地,我们今天所惧怕的事情,几年之后将不会再如此可怕。来自网页的点击流数据也许在10年内便可以成为标准化的、易于处理的数据源。对于大多数企业,积极地处理每封电子邮件、每次顾客服务谈话、每条社交媒体评论都可能成为标准化的实践行为。每秒钟在搜索引擎中跟踪几百个指标对任何人来说都不再是什么费力的事情。

在我们正在驾驭这一代大数据的同时,其他一些更大的数据源正在逐渐登上历史舞台。它们会是什么样子?如今还没有人可以完全回答这个问题。然而,以下是一些关于当前数据源如何迅速升级到更大量级的观点。

■ 想象一下网络浏览数据会从网页点击数据扩展到毫秒级的眼动和鼠标移动数据,因此用户上网冲浪的每一个微小细节都能够被捕捉到,而不只是点击数据。这是大数据的另一个层次。

■ 想象一下视频游戏遥感数据将会升级到不仅仅只包含按键和移动数据。想象一下它同样会包括玩家的眼动、身体移动以及游戏场景中涉及的每个对象的位置和状态,而不仅仅是直接交互的对象。这使得数据变得非常庞大。

■ 想象一下全球每家商店、分销商以及制造工厂中的每一件商品都拥有可用的RFID信息。想象一下那些可以每秒钟收集几十个指标,例如,温度、湿度、速度、加速度、压强等信息的芯片。这类数据的体积在今天看来是无法想象的。

■ 想象一下将顾客服务或电话销售的每一次谈话都记录并转译为文本。再加上所有相关的电子邮件、在线聊天,以及社交网站或产品点评网站上的评论。现在,去解析、整合并分析所有这些文本吧,你的大脑是不是已经要爆炸了?

大数据会一直存在下去。尽管几年之后,今天我们觉得恐怖的大数据会变得不再那么吓人,但总会有令人恐怖的新数据源出现。企业需要持续地调整它们的方法和目标,以适应企业所涉及数据的变化。然而,如果企业还不具备处理大数据的能力,也便谈不上对数据处理方法的调整和升级。所以,你需要现在开始!