1.8 探索大数据
开始着手处理大数据并不是一件困难的事情。很简单,收集一些大数据,让企业的分析专家团队开始探索这些数据可以提供些什么。企业没有必要一开始就设计一个具备生产级标准、持续的数据输入系统。企业所要做的仅仅是让分析专家团队先去切身接触那些数据,然后再开始分析探索工作。分析专家和数据科学家们会逐渐进入角色并完成好他们的工作。
有一个很老的拇指法则:数据分析工作有70%~80%的时间花在收集和准备数据上面,而仅有20%~30%的时间花在分析本身上。在刚开始处理大数据时,这个比例估计会更低。一开始,分析专家可能至少要花95%的时间,甚至几乎100%的时间去弄清楚某一种大数据源,然后才会去思考如何利用这些数据做更深层次的分析。
理解上述做法是非常重要的。弄清楚数据源的本质是分析流程中最重要的一部分。反复地加载数据、检查它们的表现、调整加载过程,从而选择能够更好地服务于目标的数据,虽然看起来不那么吸引人、令人兴奋,但却是至关重要的。如果没有完成这些步骤,也就不可能进入后面的分析环节。
确定大数据中有价值的部分,并且确定如何最优而精确地提取这些部分,这一过程非常关键。可以预料到这一过程会花费很多时间,但即使在它上面花的时间超出了你的预期,也不要感到沮丧。在弄明白新数据源的过程中,企业的分析专家和其业务赞助商应该积极地寻找代价小、见效快的方法。记得要向企业展示一些有价值的东西,不管这些东西是多么的微不足道。这样可以让人们保持对这一过程的兴趣,并帮助人们理解所取得的进展。一个跨部门的团队绝不能在组建一年之后,还宣称他们仍在试图搞明白如何通过大数据来做一些事情。必须能够时不时地迸发出一些想法,即使这些点子很小,然后迅速地采取一些行动。
前进过程中产生的价值
搞明白如何将大数据源应用到你的业务中需要付出很多的努力。企业的分析专家和业务赞助商们在工作过程中,应该积极地寻找代价小、见效快的方法。这样可以向企业证明他们所取得的进展,从而继续为其后面的努力工作赢得支持。这些进展也可以产生稳固的投资回报。
有一个很好的例子来自于一个欧洲的零售商,这家公司想要利用详细的网络日志数据。当通过一个长期而复杂的过程收集好数据之后,这家公司实施了一些简单的举措。他们开始鉴别每个用户所浏览过的商品。利用这些浏览信息,他们随后建立起一个电子邮件系统,向离开网站前浏览过该商品,但并未购买该商品的顾客发送电子邮件。这个简单的举措为这家企业创造了巨大的利润。
除了采取其他类似的基本早期措施,公司还需要对收集和加载网络数据进行投资。更重要的是,它们以前并没有过处理整套数据流的意愿和经验。想象一下未来当它们对数据进行更深层次分析后的回报。正是由于这些迅速而及时的进展,企业里的每个人才乐意继续下去,因为从对数据进行的这些早期举措中,他们已经看到了其强大的威力。况且,他们已经为未来的努力买过单了。