中国的大数据逻辑:因果关系﹥相关关系

    在今天的时代,我们需要更换思维,以全新的头脑和运算逻辑来看待每一件事物,才能从中发现新的东西,释放更多的生产力。大数据就为我们提供了一种可以全视角观察世界的新方式。

    ☆重要区别——从因果性的分析到相关性的分析

    国外的大数据思维认为——如同欧美的大数据专家们在采访中所讲的,一项重要的思维转换就是从传统的因果性分析向相关性分析转换,只有以相关性为主,才能真正体现大数据的思维特点。他们认为,大数据的出现有一点是常被人忽视的,那就是悄悄地改变了人们过往普遍追求的因果性的思维逻辑。

    美国大数据专家罗伯特说:“大数据主要从相关性着手,而不是因果关系,这从本质上改变了传统数据的开采模式。”

    比如,他举例说,谷歌的研究人员在2009年发表了一篇论文,成功地预测到了季节性流感的爆发,引起了医学界的轰动。研究人员对2003年到2008年之间的最频繁搜索词条(多达5000万)进行了非常全面的分析,希望能够发现某些搜索词条的地理位置的特征——是否和美国流感疾病预防和控制中心发布的数据相关。

    罗伯特说:“疾病预防控制中心会定期跟踪全美各地的医院以及私人诊所的病患,然后汇总和发布相关的信息,但往往会滞后一两个礼拜,这是必然的,这些信息的人工整理需要一定的时间,但谷歌的大数据能发现实时的趋势,这些词条都是实时的,有对应的时间和地点的记录。”

    最后,谷歌公司将得出的预测与疾病预防控制中心记录的最近两年内的实际流感病例进行对比后发现,大数据处理结果找到了45条检索词条的组合,通过合适的数据模型计算后,通过相关性的预测得出的结论,与官方数据的重叠性高达97%,这表明通过相关性分析是可以解决此类预测问题的。

    欧洲有一家航空公司,它的会员不下数百万。会员的一个重要信息就是邮箱的地址。另外,推特的账号申请也需要一个邮箱地址。通常来说,同一个邮箱地址就意味着航空公司里的会员和推特的会员应该是同一个人。

    于是,这家航空公司就做了一个筛选,从中归并出了十万个用户。接下来做什么呢?航空公司请了一家第三方公司的数据部门过来,任务就是看一看这十万名用户会在社交平台上干些什么,比如他们说些什么,关注些什么,以及喜欢介入什么样的话题去转发评论,或者喜欢关注一些什么样的商业媒体。

    这家航空公司的目的在于,研究一下自己需要在社交平台上发起什么样的活动,以及给予什么样的礼品或折扣,才能吸引这十万名会员前来参加,成为公司的贵宾用户,给公司提供利润的增长点。

    在这个故事中所涉及的数据虽然足足与十万个人有关,但还算不上海量数据。但它的本质其实就是体现了相关性的价值。航空公司寻求相关性,从而判断自己新的利润增长点在哪里,以及发现潜在的贵宾用户有哪些,然后据此做出高效的决策或采取针对性的营销活动。

    ☆中国的大数据哲学——因果关系优先

    相关性当然十分重要,通过上面的例子我们也已经体会到了它的魔力。通过相关性,我们发现了它对于预测的巨大价值,而其背后则是思维与分析方式的更新。相关性帮助我们从对过去的理解变更为对未来的预测。

    但是,因果关系仍然是相关性的逻辑基础。因为数据并不仅是冷冰冰的符号,数据只是事物之间发生联系的代表,而我们每个人都可以将自己作为一个普通个体的因素包容到这个分析体系中,个人的主观的东西会极大地影响体系的方向与决策,这种影响甚至是决定性的。比如人的本身存在的各种因素:风险、意外、热爱、冷酷,甚至是某些错误,都可以在大数据的变化中体现出来,这是相关性无法体现的,必须由因果性加以定义。

    “那么,重要的问题来了,因果关系跟相关关系的关系是什么?”

    因果关系代表主观性,是人的因素;相关关系代表客观性,是信息的因素。人与信息是结合的,不可分割,也就意味着因果关系与相关关系不可分离。尤其对于中国人来说,我们看到了一个相关性,就会想了解为什么,探究其背后的原因,而不只是商业或市场机会,也不仅仅代表某种现象。

    当你开始给出一个假设,建立一个模型,然后去验证这个模型时,这里面就会立刻带入你自己的主观因素,也就是原因。原因即因果性,它决定我们的方向。

    这种全新的思维方式和先后顺序是非常重要的。如果你只重相关性,就会因为缺乏因果关系的支撑而背离分析的初衷;如果只重因果性,则会由于忽视了相关关系,而在数据收集时丧失对海量数据和关键信息的把握。