1.14 本章小结

以下是本章的重点内容。

■ 大数据通常定义为,超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理能力的数据。

■ 大数据的“大”不仅体现在容量上,还体现在多样性、速度及复杂度等方面。

■ 大数据的威力体现在你所做的分析和所采取的行动上,而不是体现在“大”或“数据”这两个方面。

■ 大数据通常由某类机器自动地生成,而且其格式通常并不是用户友好的。默认的做法是先收集所有能收集到的数据,然后再考虑其中哪些是重要的。

■ 大数据是下一波新的、更大的、推动当前极限的浪潮。从分析的角度看,它和过去的数据源并没有什么区别。它们在第一次出现时,都显得庞大而难以处理。

■ 大数据会改变分析专家所使用的分析策略和工具,但它不会从根本上改变分析的动机,以及从分析中可获取的价值。

■ 很多大数据源是半结构化的。半结构化的数据源有一定的逻辑,但是可能并不漂亮。大数据也可以是非结构化的。在某些情况下,它甚至和传统数据源的结构相同。

■ 大数据最大的风险是某些数据源可能涉及隐私纠纷。在使用大数据的过程中,自我约束和法律约束都是必需的。

■ 征服大数据并不意味着要控制所有的数据,它就像从吸管中吸水一样,仅仅吸取那些重要的部分就可以了。

■ 大数据最令人激动的部分是,当它和其他数据结合以后所带来的业务价值。

■ 大数据和传统数据都是整体数据和分析策略的一部分。不要制订严格区分于传统数据策略的大数据策略。

■ 大数据会持续地演进。如今被认为庞大和恐怖的数据在10年之后只是小事一桩,但是那时候又会出现其他的新数据源!