化蝶:数据可视化的华丽上演

    图形是解决逻辑问题的视觉方法。08

    ——杰克·伯廷(1918-2010),法国统计学家,1977年

    随着数据仓库、联机分析和数据挖掘技术的不断完善,业界曾一度认为,商务智能系统已经功德圆满,很好地完成了智能分析的使命,因此早期商务智能的产业链条只含有这三块。

    但技术无止境。

    进入21世纪之后,风生水起,新的技术浪潮又使商务智能的产业链条向前延伸了一大步:数据可视化。

    数据可视化(Data Visualization)
    数据可视化是指以图形、图像、地图、动画等更为生动、易为理解的方式来展现数据的大小,诠释数据之间的关系和发展的趋势,以期更好地理解、使用数据分析的结果。

    数据可视化也是几代统计学家上百年的梦想。

    故事可以追溯到19世纪中期。1850年代,土耳其、英、法等国与俄罗斯之间爆发了克里米亚战争。这场战争共死亡50多万人,异常惨烈。弗罗伦斯·南丁格尔(Florence Nightingale)是英国的一名战地护士,也是一名自学成才的统计专家。她在考察了英国士兵的死亡情况之后,发现由于医疗卫生条件恶劣导致的死亡人数,大大超出了前线的直接阵亡人数。南丁格尔将她的统计结果制成一个图表,该图表清晰地反映了“战斗死亡”和“非战斗死亡”两种原因死亡人数的悬殊对比,强烈的视觉效果引起了英国社会的极大反响,最后直接促成了英国政府出台建立野战医院的决定。

    南丁格尔后来被誉为现代护理业之母,她的这份图形,是历史上第一份“极区图”(Polar Area Diagram),也是统计学家对利用图形来展示数据进行的早期探索。

    1854年4月至1855年3月,英国军队士兵的死亡原因

    化蝶:数据可视化的华丽上演 - 图1

    图形说明:每月的死亡人数以30°的扇形面积表示,内环蓝色代表因战斗死亡的人数,外环红色代表非战斗死亡的人数,也就是可以预防、改善的医疗卫生原因。(图片来源:SAS公司)

    一份图表催生了一座医院,改变了一个制度。

    南丁格尔的贡献,充分证明了数据可视化的价值,特别是在公共领域的价值。官僚们麻木的神经尤其需要强烈的视觉效果来冲击、来刺激。生理学也证明,人的大脑皮层当中,有40%是视觉反应区,人类的神经系统天生就对图像化的信息最为敏感。通过图像,信息的表达和传递将更加直观、快捷、有效。

    更重要的原因在于:人的创造力不仅仅取决于逻辑思维,还取决于形象思维。数据可视化的技术,可以通过图像在逻辑思维的基础上进一步激发人的形象思维和空间想象能力,吸引、帮助用户洞察数据之间隐藏的关系和规律。

    到了20世纪70年代,由于计算机技术的兴起,美国一批有远见卓识的学者都看到了这个领域巨大的潜力。耶鲁大学的统计学教授弗朗西斯·安斯科姆(F. J. Anscombe)就是其中的先驱人物。1973年,他发表论文《统计分析中的图形》,专门阐述了图形在统计研究当中不可替代的作用。他认为:

    “未来的计算机不仅要能计算,还要能将计算结果转变为直观的图形。我们应该研究这两种结果,因为每一种都有助于我们理解问题。”09

    在这篇文章中,安斯科姆教授提出了“安斯科姆四重奏”,通过这个例子,他强调:在研究数据、使用数据的时候,图形和计算同等重要,有的时候,图形甚至是解决逻辑问题更为直接有效的方法。

    这个著名的“四重奏”,是4组同时呈现在你面前的数据(X,Y)。

    当你粗略浏览这4组数据之后,你会感觉其数值大多在5到11之间,比较杂乱。稍做对比,你会发现:

    X1=X2=X3

    X4的值,除一个之外,全部都等于8

    Y1≠Y2≠Y3≠Y4

    如果再进行简单的统计学计算,很容易得到以下结果:

    X1、X2、X3和X4的平均值都等于9,其方差等于10

    Y1、Y2、Y3和Y4的平均值都等于7.50,其方差等于3.75

    4组数据都符合线性回归:y=3+0.5x

    第一组数据

    化蝶:数据可视化的华丽上演 - 图2

    第二组数据

    化蝶:数据可视化的华丽上演 - 图3

    第三组数据

    化蝶:数据可视化的华丽上演 - 图4

    第四组数据

    化蝶:数据可视化的华丽上演 - 图5

    也就是说:

    4组数据当中,X和Y之间的关系都是相同的,个别数据的偏离,可以视为随机产生的干扰。

    但当我们用散点图把它们在坐标中标出来之后,面对图形,就会立刻发现,统计学“欺骗”了我们:

    4组数据当中,仅仅只有第一组数据严格符合利用统计学作出的线性回归结论;

    图形是解决逻辑问题的视觉方法:安斯科姆四重奏的真实分布

    化蝶:数据可视化的华丽上演 - 图6

    (图片来源:维基百科)

    第二组数据存在某种规律,但显然不是线性的;

    第三组数据大部分符合线性回归的模型,但有一对数据明显异常,它是第三对数据(13.0,12.74);

    第四组数据则呈垂直分布,其之所以貌似符合线性回归的分布,是因为其第8对数据(19.0,12.50)在其中起了很大的扭曲作用。

    1983年,耶鲁大学的政治学教授爱德华·塔夫特(Edward Tufte)率先奠基了数据可视化这门学科。塔夫特系统地考证了人类用“图形”表达“数据”和“思想”的渊源,整理了种种历史古籍中的图形瑰宝,并结合计算机的发展给统计领域带来的革命,出版了《定量信息的视觉展示》(The Visual Display of Quantitative Information)一书。这本书后来被公认为“数据可视化”作为一门学科的开山之作。

    这本书的出版,也有一段曲折。因为塔夫特整理了从古到今很多优秀的图表,他坚持要在新书中使用高质量、高精度的彩色插图,几乎所有的出版商都认为这是赔本买卖,没人愿意出版。塔夫特最后无计可施,用自己的房子做了抵押,自费出版了这本书。

    结果当然令出版商大跌眼镜:这本书最终获得了很大的商业成功,塔夫特教授也由“政治学”专家成功转型为“信息学”专家。近十多年来,他又先后出版了《视觉解释》(Visual Explanations)、《美丽的证据》(Beautiful Evidence)等几本重量级的著作,本本都洛阳纸贵,造成了不小的轰动。他本人也成了数据可视化领域当仁不让的掌门人。2010年3月,奥巴马任命塔夫特为顾问,要求他运用“数据可视化”的技术推进联邦政府专项资金使用情况的透明度。

    塔夫特教授强调数据可视化的关键在于“设计”,他认为:

    “信息过载这回事并不存在,问题出在糟糕的设计,如果你用来表达数据的图形让人感觉杂乱不解,那就要修改你的设计。”10

    进入21世纪之后,大数据的爆炸使人们急需展示数据、理解数据、演绎数据的工具。这种需求,刺激了数据可视化专业市场的形成,其产品迅速增多,使现在的市场可谓绚丽多彩、百花齐放。从最早的点线图、直方图、饼图、网状图等简单图表,发展到以监控商务绩效为主的仪表盘(dashboard)、记分板(scorecard),到以交互式的三维地图、动态模拟、动画技术等等更加直觉化、趣味化的表现方法,曾经冰冷坚硬、枯燥乏味的数据开始“动”了起来、“舞”了起来,变得“性感”!

    数据可视化把美学的元素带进了商务智能,给它锦上添花。一幅好的数据图像不仅能有效地传达数据背后的知识和思想,而且华美精致,如一只只振动翅膀的彩蝶,刺激视觉神经,调动美学意识,令人过目不忘,留下栩栩如生的印象。

    2010年2月,奥巴马宣布了联邦政府新的年度预算。《华盛顿邮报》立即对这份新鲜出炉的预算进行了分析报道,它利用数据可视化的技术,抓住了读者的眼球。在图形中以线条的粗细表明各项收支金额的大小,左边是收,右边是支,中间的红色部分是赤字缺口,形象贴切。奥巴马政府收入多少钱,要办哪些事,各项收入与支出的轻重大小,一目了然。

    奥巴马政府2011年度预算开支的可视化展示

    化蝶:数据可视化的华丽上演 - 图7

    说明:一眼就可以看出,赤字约占美国总支出的1/3,个人所得税是美国政府最大的财政来源,而国防支出是其最大的支出。(图片来源:《华盛顿邮报》,2010年2月1日11

    2012年2月,《纽约时报》又用另外一种形式对2013年联邦政府的预算进行了可视化展示。他们用圆形的大小表示金额的多少,颜色表示增减,绿色代表增加,红色代表缩减,变化额度越大,则颜色越深,而且整个图形是动态的,会放大、缩小、移动,也引起了很多读者的兴趣和转载。12

    每年的10月,诺贝尔奖花落谁家是全世界的热门话题。2011年10月,《福布斯》(Forbes)对100多年来各项诺贝尔奖的获得情况做了一个可视化的展示。这是一个以时间为横坐标、以大奖得主的国籍为纵坐标的散点图。不难看出,1940年以前,德国是世界科学和文化的中心,但二次世界大战之后,这个中心毫无疑问转移到了美国。还能看到,美国人的崛起首先在物理领域,其次是医学领域,再次是经济学领域。1969年,开始设立了诺贝尔经济学奖。这之后,美国人几乎囊括了全部的诺贝尔经济学奖。

    2013年度联邦政府预算开支的可视化展示

    化蝶:数据可视化的华丽上演 - 图8

    说明:左边为强制性开支,右边为自主性开支。强制开支中最大的圆为医疗保险和医疗补助,其为绿色,表示较去年增加了,鼠标停留处显示其大小为1.18万亿,较去年增加了8.4%,是强制性开支中最大的一块。图为网站截屏。

    百年诺贝尔奖得主的分布(按国别和奖项)

    化蝶:数据可视化的华丽上演 - 图9

    说明:获奖人的国籍,有时候难以甄别,例如,历史上曾出现以难民身份获奖者。又比如,2009年,高锟获物理学奖时,为英国国籍,但持有香港身份证并居住在香港,制作者将他归入中国。制作者还指出:在美国的314位获得者中,有102位(32%)是在美国本土之外出生的,其中有德裔15位、加拿大裔12位、英国裔10位、俄裔6位、华裔6位;而德国的65位获奖者中,只有11位出生在海外;日本的获奖者,则全是在本土出生的。(图片来源:《福布斯》,2011年10月5日)13

    作为一个新兴的行业,数据可视化的发展潜力不容小觑。2010年起,谷歌的首席经济学家范里安(Hal Varian)就一直在多种场合强调,下一个十年,将出现一类新的专业人才:数据科学家。其中一种,正是数据可视化工程师,这种人才既懂得数据分析,又精通构图的艺术,集故事讲述和艺术家的特质于一身,将是我们大数据时代的导航员。

    数据可视化的这种“导航”作用也极大地推动了商务智能的大众化。通过把复杂的数据转化为直观的图形,并呈现给最普通的用户,商务智能已经不再是少部分高级分析人员的专利,而是贴近大众生活、浅显易懂、人皆可用的工具和手段。

    美国联邦政府也意识到“数据可视化”的战略意义。2004年,联邦政府在国土安全部成立了国家可视化分析中心(NVAC),专门推动该项技术在政府部门的应用,特别是在情报分析领域的应用。

    可视化技术的出现,使商务智能的产业链形成了一个从数据整合、分析、挖掘到展示的完整闭环。它的起点是多个独立的关系型数据库,经过数据整合之后形成统一的、多源的数据仓库,再根据用户的需要,重新取出若干数据子集,或构造多维立方体(Cube)进行联机分析,或进行数据挖掘,发现潜藏的规律和趋势。如果挖掘的结果经得起现实的检验,那就形成了新的知识,这种知识,还可以通过数据可视化来表达、展示和传递。

    商务智能的这四个产业链,每一块都相当复杂,彼此的独立性也很强。一个好的商务智能产品,并不见得一定要面面俱到,时下不少公司,都专注在一个链条上大做文章。

    商务智能的历史,是一个渐进的、复杂的演进过程。至今为止,它的内涵和外延,还处于动态的发展之中。它的各个产业链条,还有不断丰富扩大的趋势。特别是作为其“智能灵魂”的数据挖掘技术,潜力非常巨大,可以预见,将对人类社会的发展产生深远的影响。

    大数据时代的竞争,将是知识生产率的竞争。以发现新知识为使命的商务智能,无疑是这个时代最为瞩目的竞争利器。

    完整的商务智能流程

    化蝶:数据可视化的华丽上演 - 图10

    说明:虚线代表可选择路径

    注释

    01 A Different Game: Information is Transforming Traditional Businesses, Economist, Feb 25th, 2010.

    02 英语原文为:“What information consumes is rather obvious: it consumes the attention of its recipients. Hence a wealth of information creates a poverty of attention…The scarce resource is not information; it is processing capacity to attend to information. Attention is the chief bottleneck in organizational activity.”—Designing Organizations for an Information-Rich World, Simon, 1971

    03 人类第一台计算机到底在哪年发明的,近年来学界对此有所争议。本书以1946年2月在宾夕法尼亚大学发明的ENIAC计算机为准。

    04 数据分析技术,在商业领域多被称为“商务智能”,在政府领域则多被称为决策支持系统。

    05 英语原文为:“Our systems are great at producing data but not at producing information. In our daily life, we deal with huge amount of data and information. Data and information is not knowledge until we know how to dig the value out of it.”—Forbes, 24 August 1998

    06 英语原文为:“As more and more organizations recognize the need and significant benefit of OLAP, the number of user analysts will increase. Historically, a small number of experts in operations research have been responsible for performing this type of sophisticated analysis for business enterprises.”—Providing OLAP to User-Analysts: An IT Mandate E.F. Codd, 1993

    07 英语原文为:“Every day I wake up and ask,‘How can flow the data better, manage data better, analyze data better?’”—Rollin Ford, Chief Information Officer of Wal-Mart 08 英语原文为:“Graphic is the visual means of resolving logical problems.”—Graphics and graphic information processing, P.16, Jacques Bertins, 1977

    09 英语原文为:“A computer should make both calculations and graphs. Both sorts of output should be studied; each will contribute to understanding.”—Graphs in Statistical Analysis, F.J. Anscombe, 1973

    10 英语原文为:“There is no such thing as information overload, just bad design. If something is cluttered and/or confusing, fix your design.”—Edward Tufte 11 Taking apart the federal budget,Data Source: White House Office of Management and Budget; GRAPHIC: Wilson Andrews, Jacqueline Kazil, Laura Stanton, Karen Yourish. The Washington Post, Feb1, 2010. 图片翻译处理:肖准。

    12 Four Ways to Slice Obama's 2013 Budget Proposal, February 12, 2012, New York Time 13 American Leadership in Science, Measured in Nobel Prizes(Infographic), Jon Bruner, Forbes, Oct 5th, 2011. 图片翻译处理:肖准。