3.1 开箱即用的可视化工具

开箱即用的软件是目前最简单的解决方案,适合新手学习。只需对数据进行一些复制粘贴,或者载入某个CSV文件就可以开始了。直接选择想要的图形类型,然后稍微调整一下选项即可。

3.1.1 可选项

开箱即用的工具彼此之间有很多不同,这取决于它们各自面向的对象。其中一些(例如Microsoft Excel和Google Documents)主要用于基础的数据管理和图形创建,而另一些则更偏向于深入分析或可视化研究。

1.Microsoft Excel

几乎所有人都知道这款软件。图3-1显示了输入数据时的电子表格。

3.1 开箱即用的可视化工具 - 图1

图3-1 Microsoft Excel的电子表格

输入一定数据之后,在菜单栏单击“图表”的选项就可以生成想要的图表了。Excel提供了各种标准的图表类型以供选择,包括柱形图、折线图、饼图和散点图(scatter plot)等,如图3-2所示。

3.1 开箱即用的可视化工具 - 图2

图3-2 Microsoft Excel的图表选择

有些人对Excel嗤之以鼻,但其实它并不至于如此不堪。比如说,虽然我不会用Excel来做深度分析,生成的图表也不会用于出版,但如果我手中正好有一个Excel格式的小型数据集(这种情况很常见),同时又想快速找找感觉,那么自然就会随手点击几下鼠标用它生成一个图形。

图形也可以很好玩

我在计算机上制作的第一张数据图就是用的Microsoft Excel,是为了应付小学四年级的一次课外科学研究。我和搭档试图研究蜗牛在什么样的平面上爬得最快。这是一次史无前例的研究,我向你保证。

虽然还是个小屁孩,那时候我就已经开始喜欢上制图了。我花了很长时间才学会(当时计算机对我来说还是个新鲜玩意),但在最终掌握之后,回报是令人激动的。我在电子表格里输入数字,然后立刻就能得到图形,还可以随意改变颜色,一切都棒极了。

正是Excel的方便易用让它获得了大众的欢迎,这很好。但如果你想要高质量的数据图就不要止步于此。其他工具会更适合你。

2.Google Spreadsheets

Google Spreadsheets其实就是Microsoft Excel的云版本,两者的界面非常相似(参见图3-3)。

3.1 开箱即用的可视化工具 - 图3

图3-3 Google Spreadsheets

它也提供了标准的图表类型,如图3-4所示。

3.1 开箱即用的可视化工具 - 图4

图3-4 Google Spreadsheets的图表选择

不过和Excel相比,Google Spreadsheets拥有更多优势。首先,你的数据都存储在Google的服务器上,所以你可以在任何安装了浏览器的计算机上查看自己的数据,只要登录你的Google账号就行。同时你也能很方便地把自己的电子表格共享给其他人,还能做到实时协作。此外,Google Spreadsheets还在Gadget(小工具)选项中提供了很多其他的图表类型,如图3-5所示。

3.1 开箱即用的可视化工具 - 图5

图3-5 Google小工具

大多数小工具都没什么用,但其中也有几个好的。比如说,你可以轻而易举地为自己的时间序列数据创建运动图表(就像Hans Rosling做的那样)。此外还有一种可交互的时间序列图表,如果你访问过Google Finance的话,就会发现它非常眼熟(参见图3-6)。

3.1 开箱即用的可视化工具 - 图6

图3-6 Google Finance

►访问Google Docs试用一下spreadsheets,地址是http://docs.google.com。

3.Many Eyes

Many Eyes是IBM视觉传达实验室(IBM Visual Communication Lab)主导的一个研究项目,目前还在进行中。它是一个在线应用,带有一系列交互式的可视化工具,可以识别带分隔符的文本文件。Many Eyes的初衷是想了解人们能否以群组的形式探索大型数据集——这也正是它的名字的来历。如果一个群组内的众多双眼睛来观察某个数据集,是否会从中挖掘到更多有意思的地方?效率是否会更高?

虽然Many Eyes目前尚未提供多人的数据分析功能,作为个人使用来说它依然很有价值。其中涵盖了绝大多数传统的可视化类型,例如折线图(图3-7)和散点图(图3-8)。

3.1 开箱即用的可视化工具 - 图7

图3-7 Many Eyes的折线图

3.1 开箱即用的可视化工具 - 图8

图3-8 Many Eyes的散点图

Many Eyes的优势在于其中的可视化数据图都是可交互的,而且有一些定制选项。比如说在散点图中就可以用第3种指标来测量各个数据节点,而且鼠标悬停到感兴趣的数据节点上时还能查看具体的数值。

除了传统图表和一些基础的地图工具之外,Many Eyes还提供了多种更为先进和试验化的可视化方法。单词树(word tree)可以帮助我们研究一整段文本,例如书或文章中的某个段落。首先选择一个单词或短语,然后就能通过与它相连的单词了解到它在整段文本中的使用状态。比如说,图3-9就显示了在美国宪法中搜索“right”一词得到的结果。

3.1 开箱即用的可视化工具 - 图9

图3-9 Many Eyes的单词树显示了美国宪法的部分内容

针对同样的数据,我们还可以轻松地在各个工具之间转换。图3-10是一种特殊风格的单词云,被称为“Wordle”,同样显示了美国宪法的内容。单词使用得越频繁,字号就越大。

3.1 开箱即用的可视化工具 - 图10

图3-10 美国宪法的Wordle

如你所见,Many Eyes有许多选项便于我们处理数据,而且它也是目前数据探索中用途最为广泛的免费工具(在我看来也是最好的)。不过有一两点仍然需要注意。第一是其中的大部分工具都是Java小应用程序,所以如果没有安装Java,可能就无法充分利用它。(对大多数人来说这其实不算什么问题,但我确实认识一些人,不管是什么原因,他们对自己电脑上安装了什么非常在意。)

另一点对多数人来说则可能更为敏感一些:上传到网站的数据是存储在公共空间里的。所以最好不要用Many Eyes来挖掘你的公司客户信息,或者销售数据。

►访问http://manyeyes.com,试着上传你自己的数据并可视化它。

4.Tableau Software

Tableau Software是一款只面向Windows的软件,相对比较新,但在过去几年中开始受到越来越多的欢迎。它的设计初衷主要是用于视觉化的数据研究和分析。很明显该软件在美学和设计上花了不少心思,这也是人们喜欢它的原因。

Tableau Software提供了许多可交互的可视化工具,在数据管理方面也表现不错。数据可以从Excel、文本文件和数据库服务器中导入,生成标准的时间序列图表、柱形图、饼图、基本地图等多种图形。你可以挂接动态数据源,将各种图形混合搭配形成定制视图,或者通过仪表盘视图随时关注数据的状态。

最近,Tableau发布了Tableau Public,这是免费版本,包含桌面版的一部分功能。你可以把数据上传到Tableau的服务器,创建可交互的图形,然后轻而易举地发布到你的网站或博客上。不过和Many Eyes一样,上传到服务器的所有数据都是公开的,所以需要小心。

如果想用Tableau,但又想确保数据隐私,就需要购买桌面版本。本书写作时,桌面版本的售价是个人版999美元,专业版1999美元。

►访问http://tableausoftware.com了解Tableau软件。网站提供了带完整功能的免费试用。

5.your.flowingdata

对个人数据收集的兴趣让我开发了自己的应用,your.flowingdata(YFD)。这是一款在线应用,用户可以从Twitter收集数据,通过一系列可交互的可视化工具探索其中的模式和联系。有人通过它来追踪自己的饮食习惯或者起居时间。还有人用它来记录自己婴儿的每日状况,稍微改动一下数据就成了一本宝贝剪贴簿。

YFD本来主要针对的是个人数据方面,但有些人发现这个应用对于通用类型的数据收集也很有帮助,例如网络活动监控或者火车时刻表。

►访问http://your.flowingdata.com,尝试通过Twitter来收集个人数据。

3.1.2 取舍

尽管这些工具都非常容易使用,但也存在一些缺憾。只需鼠标操作无疑十分便捷,但随之而来的却是丧失一定的灵活性。你可以改变颜色、字体和标题,但仅限于软件所提供的那些元素。如果界面上没有你想要的图表按钮,你就只有唉声叹气的份。

另一方面,有些软件可能确实提供了充分的功能,但你可能需要学习大量的按钮。比如说,我曾花了一个周末去突击学习某款软件(前文并未列出),而且很明显,如果投入更多时间,我就能通过它完成很多事情。但是这款软件的整个操作流程完全匪夷所思,让人根本没有心思学下去。而且要想针对不同的数据集重复一遍流程也很困难,因为我必须记住之前点击过的所有按钮。而相比之下,通过代码来处理数据就会更加容易,因为针对不同的数据集只需稍微改动一下代码就可以解决。

不要误解我的意思。我并不是说这些开箱即用的软件就应该完全弃之不用。它们能帮你快速且方便地研究数据。但当你开始接触更多的数据集时,可能这些软件就不能满足所需了。到这个时候,你可以借助于编程手段。