1.1 什么是大数据

关于大数据,业界并没有一个统一的定义,但却有几个一致的观点。有两份资料很好地诠释了大数据的本质。第一个定义来自于Gartner公司的Merv Adrian在2011年第一季度刊登在《Teradata Magazine》上的一篇文章。他说,“大数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力。”〔1〕另一个定义来自于麦肯锡全球数据分析研究所(Mckinsey Global Institute)在2011年5月发表的一篇论文:“大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集。”〔2〕

这些定义暗示着大数据的界定会随着技术的进步而变化。以往的大数据或今天的大数据,在明天将不再是大数据。大数据的这个定义会使有些人感到不安。前面的定义又暗示着大数据的界定会随着行业甚至企业的不同而不同,因为它们所用工具和技术的处理能力可能大相径庭。我们将在本章的“今天的大数据将不再是明天的大数据”一节中对此展开更详细的讨论。

麦肯锡的论文中列举了一些有趣的事实,这些事实能够帮助读者认识今天的数据量是多么庞大。

■ 在今天,花600美元可以买下一个存储了全球所有音乐的硬盘。

■ Facebook每个月都会有300亿条新信息被分享。

■ 在美国17大行业中的15个行业,每个企业的平均数据量都超过了美国国会图书馆的数据量。〔3〕


大数据的“大”并不仅仅指容量

尽管大数据必然包含大量的数据,但是大数据并不仅仅指数据的容量。与过去的数据源相比,大数据的速度(例如,数据传输和接收的速度)、复杂度以及多样性都有所增加。


大数据并不是仅仅指数据的容量即数据量的大小。根据Gartner Group公司的定义,大数据的“大”也涉及大数据源的其他特征。〔4〕这些特征不仅仅包括不断增加的容量,还包括不断增加的速度和多样性。当然,这些因素也导致了额外的复杂度。这意味着当你在处理大数据时,你并不仅仅是拿到了一堆数据而已。大数据正在以复杂的格式,从不同的数据源高速地朝你奔涌而来。

所以,不难理解为什么我们要用浪潮来比喻涌向我们的大数据,以及为什么驾驭它们是一个挑战!企业的分析技术、流程和系统已经接近或者超越处理的极限了。我们必须利用最新的技术和方法开发更多的分析技术和流程,从而更加有效地分析和处理大数据。在本书中,我们将讨论所有这些主题,论证为什么驾驭大数据所付出的努力是值得的。

1.2 大数据中的“大”和“数据”哪个更重要

现在让我们先做一个小测验!在你继续阅读之前,请先停下片刻,并思考这个问题:术语“大数据”中,哪部分是最重要的?是(1)“大”,(2)“数据”,(3)二者同等重要,还是(4)都不重要?请花一分钟时间来思考这个问题,如果你已经锁定了自己的答案,请继续阅读后面的内容。同时,想象一下正在播放着“参赛者正在思考”音乐的游戏节目场景。

好了,既然你已经锁定了答案,让我们来看一下它是否正确。这个问题的答案应该选(4),其实“大”和“数据”都不是大数据中最重要的。根本而言,最重要的应该是企业如何来驾驭这些大数据。你的企业对大数据进行的分析,以及随之采取的业务改进措施才是最重要的。

无论如何,拥有大量的数据本身并不会增加任何价值。也许你拥有的数据比我拥有的数据多,可那又如何?事实上,拥有任何一个数据集,无论它们多大或者多小,其自身都不会带来任何价值。被收集来的数据如果从不使用,不会比存放在阁楼或地下室的垃圾更有价值。如果不投入具体的环境中并付诸使用,数据将毫无意义。对于任何大量或少量的大数据,大数据的威力体现在如何处理这些数据上。如何分析这些数据?基于这些洞察又将采取怎样的行动?如何利用这些数据来改变业务?

或许因为读了很多炒作大数据的文章,很多人开始相信正是由于大数据的大容量、高速和多样性,才使得它们比其他数据更具有优势且更重要。但这并不正确。正如我们将在本章后面“绝大多数大数据并不重要”一节中所讨论的,在很多大数据中,毫无价值或者价值很小的内容所占的比例要比以往数据源中高得多。当你把大数据精简至实际需要的容量时,它们将不再显得如此庞大。但这并不重要,因为不管它是保持原始大小,还是被处理后变得很小,容量并不重要,重要的是如何处理它。


重要的不是它的容量,而是你如何使用它!

当然,我们正在谈论的是大数据!我们并不关注大数据的数据量很大这样的事实,也不关注大数据确实会带来很多内在价值的事实。这些价值体现在你如何分析它们,并采取怎样的措施来提升你的业务。


当我们开始阅读本书时,第一个关键点是要记住大数据的数据量很大,而且大数据是数据。然而,这并不是使你和你的企业为之兴奋的原因。令人激动的部分在于,使用这些数据时采用的所有新的、强大的分析方法。后边我们将讨论到大量全新的分析方法。