可以不精确,必须尽量多

    在我们从技术层面来萃取或者处理数据的时候,思维的混乱也会发生。其实,混乱的起源和类型本来就是“一团乱麻”。比如,我们在利用Twitter的信息进行情感分析来预测好莱坞票房的时候,就会出现一定的混乱。

    在这其中,混乱的表现其实就是格式的不一致。我们要想达到格式一致,就需要在进行数据处理之前仔细地清洗数据,而这在大数据背景下是很难做到的。

    为了规模的扩大,我们往往接受适量错误的存在,当然也包括思维的错误。正如技术咨询顾问凯艾尔先生对我说的,有时得到2加2约等于3.9的结果,也很不错了。值得注意的是,错误性并不是大数据本身固有的。它只是我们用来测量、记录和交流数据的工具的一个缺陷。

    大数据也不需要进行抽样才能获得最后的结果,以得到最终的规律。因为它获得的数据是全体的样本数据,从巨大的样本数据中进行分析总结,所以它能够允许不精确,但一定要有足够多的数据量。并且,它也不需要数据的来源(比如用户)具体回答什么问题,而是实打实地去获取用户的“一切行为”,记录他们的全部信息,并一样不差地全部复制过来,变成用以分析的参考数据。

    大数据不仅让我们不再期待精确性,也让我们无法实现精确性。当然,数据不可能完全错误,但为了了解大致的发展趋势,我们愿意对精确性做出一些让步。如果说哪天技术变得完美无缺了,不精确的问题也就不复存在了。错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。如今,大数据给我们带来的利益,让我们能够接受不精确的存在了。

    假设你要测量一个葡萄园的温度,但是整个葡萄园只有一个温度测量仪,那你就必须确保这个测量仪是精确的而且能够一直工作。如果变成每分钟测量十次甚至百次的话,不仅读数可能出错,连时间先后都可能搞混掉。因此我们为了获得更广泛的数据而牺牲了精确性,也因此看到了很多如若不然无法被关注到的细节。如果每隔一分钟就测量一下温度,我们至少能够保证测量结果是按照时间有序排列的。

    试想一下,如果信息在网络中流动,那么一条记录很可能在传输过程中被延迟,甚至干脆在奔涌的信息洪流中彻底迷失,在其到达的时候已经没有意义了。虽然我们得到的信息不再那么准确,但收集到的数量庞大的信息让我们放弃严格精确的选择变得更为划算。

    再假设如果每100棵葡萄树就有一个测量仪,有些测试的数据可能会是错误的,但众多的读数合起来就可以提供一个更加准确的结果。而它提供的价值不仅能抵消掉错误数据造成的影响,还能提供更多的额外价值。因为这里面包含了更多的数据,也不会更加混乱。

    凯艾尔说,我们为了高频率而放弃了精确性,结果观察到了一些本可能被错过的变化。虽然如果我们下足够多的工夫,这些错误是可以避免的,但在很多情况下,与致力于避免错误相比,对错误的包容会带给我们更多好处。

    有时候,当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。这又是一个关注焦点的转变,正如以前,统计学家们总是把他们的兴趣放在提高样本的随机性而不是数量上。因为在进行数据转化的时候,我们是在把它变成另外的事物。

    然而,除了一开始会与我们的直觉相矛盾之外,接受数据的不精确和不完美,我们反而能够更好地进行预测,也能够更好地理解这个世界。因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性,所以通常我们不会再花大力气去提升数据的精确性。

    大数据的非标准性,迫使我们要讲究效率但可以不追求极致精确。

    ● 要知道,95%的数据都是非标准化的,5%的数据是标准结构化数据。

    ● 大数据处理要考虑全部数据就要接受非标准数据,不能以部分代替全局,数据分析的一个必经过程就是将混杂的非标准化数据标准格式化。

    ● 网络上的贴标签方式就是很好的归集到标准化数据上的一个例子。因此人们需要收集纷繁复杂的数据。

    ☆描述性的分析

    什么是描述性的分析呢?

    通俗来说,就是我们常看到的报表、图标、统计图等等。我们期望通过描述性分析来了解过去发生了什么,为什么发生,以及了解现在正在发生什么乃至未来会发生什么。然后进行理性的思考,我要做什么样的事情,我想要未来发生什么,能够在未来让这件事情发生。

    也就是说,在最好的情况下,我们能够将描述性分析对未来做出某种预测,并且保证预测的精确性。

    ☆实时性

    对于任意数据来说,实时性都是非常重要的。

    它不仅仅是一大类的思维和方法学,而且实时性一定比绝对的精确性更重要。众所周知的购物篮分析,就是基于历史的数据做出相对精确的分析。最好的时机是用户还在浏览、找东西的时候,而不是最后结账的时候,所以这是当你在超市购物的时候所能想到的一个非常实用的问题。