第二节 大数据时代:信息量从样本变为全息信息
经验时代,人们盲人摸象的举动是无奈之举,因为互联网出现之前以及出现之初的几十年内,计算和存储技术落后,存储数据的成本非常高,人们无法收集、存储大量信息。例如:20世纪90年代末个人电脑刚刚起步的时候,512MB硬盘的电脑可以卖到近万元。在那个年代,这样的价格是普通家庭难以接受的。再往前50年,机械硬盘刚刚起步的时候,其内存是以KB来计算的。
从几十KB到1GB,人类就耗费了三十余年,当时人们的数据存储代价可见一斑。不过,存储设备技术基本上按照摩尔定律在飞速发展,硬盘存储技术,从1GB到6000GB(6TB)仅用了20年。现在,1TB硬盘电脑的价格,一般人都可以负担得起。
计算和存储成本高的时候,人们会尽可能节省存储空间,采集的数据在处理完之后就删除了。比如说买机票的数据:某一天全国各个航班的机票价格,卖出的数量,这些就是一套数据。但是这套数据只会保存很短时间,季度统计之后,这一天的数据就会被认为是垃圾。今天,数据处理成本极低,所以我们把所有的数据采集、存储起来,存储到一定数量之后,人们就可以利用这些完整的历史数据进行预测,预测未来某一天票价会上涨还是回落。
随着信息存储成本降低,我们已经在通往大数据时代的路上,那么,大数据时代的信息呈现是怎么样的呢?
维克托·迈尔·舍恩伯格所著的《大数据时代》是国外大数据研究的经典之作,维克托认为,大数据时代,人们处理数据的方式从抽样分析发展为对全体数据的分析。相应的,人们的思维模式也从原来的因果逻辑思维,逐渐演变成相关思维。
全息信息数据采集技术
随着科技的发展,信息采集的方式也发生了变化,经验时代的信息采集方式为采样,现在则采集全体信息。以图像采集技术发展为例:
市面上很多智能手机自带相机的像素已经达到上千万,专业摄影设备则轻松超过2000万像素,也就是说,我们照出来的照片越来越清晰了。但是,不管像素多高,我们在拍摄一张照片时,通常只能从一个角度用一种焦距拍摄。
2011年10月20日,一款新型照相机让人眼前一亮,Lytro公司发布了号称拥有革命性拍照技术的“光场相机”。这个相机能够采集到景物某个场景下某个瞬间的不同焦距的全部影像,人们事后在所得照片上随意改变焦点,移动视角,就能看到景物的每一处细节。
如上左图,如果想看后面的人,可以调一下焦点,后面的人便是清楚的。如上右图,如果想看图片里的花,花便是清楚的。这样的照片就是全息照片的雏形。当然,它离全息照片还有一定的差距。这样的照片只是拉伸焦距,无法改变角度,如果是全息照片,我们可以从照片下方看,从上方看,也可以旋转,就像我们处在当时的场景中一样。
今天,不仅是图像信息采集的技术发展了,人类各个方面信息采集的技术都有了很大进步,很多时候,我们可以采集的是更接近全体的信息,而不是采样。这样的话,采样分析的很多缺陷(比如随机性不够或者人为偏见)就可以避免,信息分析的结果就更加可信,更加有效。
苹果公司的传奇总裁史蒂夫·乔布斯总是能够走在时代前端,即使在与胰腺癌斗争的时候,他也采取了非常特别的方式。
普通癌症患者在接受治疗的时候,医生会对其DNA和肿瘤DNA进行采样分析,然后按照分析结果用药。乔布斯则支付了几十万美元的费用,成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。因此,乔布斯得到的不是一个只有一系列标记的样本,而是他的整个基因排序数据。
全数据分析能够帮助医生更加精确地用药,对此,乔布斯说:“我要么是第一个运用这种方式(大数据分析)战胜癌症的人,要么是最后一个因这种方式死于癌症的人。”最终,这位传奇人物仍旧没有战胜癌症,但是,这样的治疗方式帮他延长了好几年生命,为未来的大数据分析治疗癌症带来了一线曙光。
数据采集技术进步带来的颠覆和进步已经初见端倪,我们正在逐渐丢弃传统的采样分析方法,用新的眼光来认知世界。当看到的信息更加全面,当这个世界越来越完整地呈现在我们眼前的时候,受到冲击的不只是人的眼睛,还包括人的内心。样本数据的分析方法和全体数据的分析方法不同,相应的,人们的思维方式也发生了改变。
思维方式的改变——从因果关系到相关关系
根据全体数据进行分析预测的时候,数据很少会是简单的线性关系,绝大多数是杂乱的复杂关系,因为我们对于数据的观测不是处在平面上,而是立体的。比如以往分析个人的信用额,基本上是依靠个人信用卡刷卡记录,刷卡记录只是一个人的一点,或者说一个侧面。根据刷卡记录,必须通过因果分析的方法,得出一个人的信用额度。今天,通过大数据,我们能够更加全面地收集到个人方方面面的数据记录,比如聊天的记录,游戏的记录,上网的记录,刷卡的记录,当所有的记录全部呈现出来的时候,个人信用报告就是全方位的、立体的。
从线性数据到立体数据之后,变化的不仅是数据的量和维度,人们看待数据之间的关系的方式也会发生变化,从因果逻辑变成了相关关系。
比如:专家教授在讲课培训的时候,会将自己的经验讲述给听众。演讲者演讲的过程,其实是根据他们的认知和经验进行逻辑推理的过程,传达理论的时候存在前因后果。因果关系思维正是经验时代典型的思维方式,是在采样环境下提炼信息的逻辑。
大数据时代能找到因果关系最好,但通常找到相关关系就足够了。事实上,经验时代我们推理出来的因果关系只是我们认为的因果,本质上未必是因果,很可能两件事只是相关关系。而在大数据时代,我们更注重数据的全面性,所谓全面,不只是量大,维度也要多,据此就可以找到曾经认为不相关的东西的关联性。
现在,我们上网购物的时候,选中某件商品之后,网站下方会向我们推荐相关商品,比如“猜你喜欢”或者“买此商品的人还曾经买了这些商品”。这样的推荐系统就是网站根据销售的大数据,找出了商品之间的关联性。
商品推荐系统是亚马逊首创的。在这个系统诞生之前,亚马逊聘请了一个由书评家和编辑组成的团队,这个团队撰写书评、推荐新书,创立了“亚马逊之声”这一板块,这个板块也在很长时间帮助亚马逊建立了竞争优势。
后来,亚马逊公司创始人及总裁贝索斯发现,通过书评团队推荐书籍非常繁杂,成本太高。他产生了一个创造性的想法,即根据客户之前的购物喜好为他们推荐书籍。这个想法产生之后,亚马逊尝试了很多不同的解决方案,最终,1998年,格雷格·林登和他的同事研发了协同过滤技术“item-to-item”,依托这个技术的亚马逊数据推荐系统逐渐完善。
今天,亚马逊三分之一书的销量来自于这种推荐系统。当然,原来的书评团队早就解散了。
现在亚马逊的推荐模式在电子商务领域,以及互联网其他领域已经非常普遍。比如:我们今天在某个网站阅读了一篇文章,网站会向我们推荐相关的其他文章。这些推荐都是计算机数据处理的结果,计算机并不知道事物之间的因果关系,但是通过数据处理,找到了其中的相关关系。大数据时代的关联分析不仅仅是在推荐系统方面,还体现在信息预测上。
安大略理工大学的卡罗琳·麦格雷戈博士和一支研究队伍与IBM以及一些医院合作,用一个软件来收集病人的即时信息(心率、呼吸、体温以及血氧含量等),通过大数据分析来对病人的病情进行诊断。在新生儿案例上,大数据检测得到了和医生相反的结论。一般医生认为:对于早产儿来说,病情恶化前的疼痛是全面感染的征兆。大数据检测的结果是:当早产儿体征表现正常的时候,是下一次风暴即将来临的前兆。
因果逻辑与大数据的关联逻辑存在很大差别,这也是很多企业决策失误的原因之一,企业家和经理们做决策的依据是自己的认知,用原有的经验在预测未来行业的方向。当这个世界突然要发生转变的时候,他们如果没有与之相对应的经验,决策的时候就极有可能犯错。
在经验时代,当所有人都在盲人摸象的时候,企业之间比拼的是决策者的头脑和思维。当进入大数据时代,仅仅有思维和头脑已经不够了,因为有人已经站在大数据顶端,全面地看到了整头大象,只知道埋头工作不知道抬头看方向的企业,是要被淘汰的。如今企业在做经营决策时不能再依靠经验模式,而是要用大数据分析的方式来进行。