可视化、美丽和树形图

    在我们深入探索Geograph项目档案本身之前,一些有助于探索档案集的动机和可视化技术是值得考虑的。传统制图绝大多数集中于可以通过传统媒体进行再制造的静态产品,这一点是可以理解的。在过去15年中,我们的绝大多数工作是交互式的——吸引数字技术来重新考虑地图的本质和角色,并且把它们作为可响应的图像方式,目的是为探索而查询(Fsher 1998)。我们的目标是保证在交互平滑性过程中的艺术品质,以及通过开发富信息的景象和激发思考和探索的动态行为所获得的满足。然而,我们最近的一些工作已经重新重视数据密度,重新集中于最根本的制图设计决策,这些决策和那些高效利用空间生成布局和符号学(数据编码)相关。制图工作的一部分是由硬件进步所驱动,这些进步使得处理和显示大的数据密集型图片变得更可行。实际上,该工作响应了以新的有效、优雅的方式来图形化表示各种更大的数据集合的需求;由于我们遵从了Tufte的建议“在小空间展现很多数字”(Tfte 1983),因而这些数据变得更易于访问。

    可视化数据探索之美在哪里

    我们把美丽看做和一些激励相关的主观品质,该品质可以带来积极的感性体验。在可视化过程中,通常都是开发者或设计者觉得美丽。为了更全面地审视艺术(如Kosara 2007),适当地号召项目社区正式地对可视化作品提出批评意见。但是,在一个可用的知识体系开发出来之前,我们在开发优雅的图形上还是依赖于广泛的原则和经验法则。以上这些很多方面都已经应用于《Beautiful Code》(Oam和Wilson 2007),而且有助于数据可视化应用。例如,Brian Kernighan(Kernighan 2007)指出优雅的代码的特征,包括紧凑、优雅、高效和实用,而且通过“理想情况下,代码可以在单个页面显示”来非正式地量化紧凑性。Yukihiro Matsumoto认为让人难以理解的代码是不优雅的,而且应用该标准来开发Ruby编程语言(Mtsumoto 2007)。但是“难以理解”和复杂是不同的,不该混淆在一起。根据我们的评判标准,一个易于理解的简单图形但表示的数据信息量非常少谈不上优雅。相反地,美丽的数据可视化是通过易于理解的方式来表示复杂的东西——可能通过重点研究该数据的某几个方面或者突出某些特殊方面。这可能和Kernighan的原则一致:努力达到在单个“页面”上完成(数据可视化)的目标。我们的情况是通过以下几个方面来达到这个目标:努力扩展和综合已有的制图和信息可视化方法,从而高效地利用空间显示多个图片(在空间和其他方面的)关系;力求通过足够紧凑的方式,使得在一个页面或者屏幕可以完全显示,而且可以很优雅地同时展示全局结构(Gstalt)和局部细节(即时需求的细节);基于任何特定的数据集上的需求,努力设计和开发易于理解和有用的图形,使得真正的用户能够理解和使用图形来解决已知的信息需求。

    Tufte(1983)提出了“数据/墨水”比率的想法——这是一个启发式算法,鼓励平面设计师评估一个直接用于表示数据的页面的墨水比例。该比例越高,使用图形符号化就越高效,而且其表示的信息就越有深度。这种形式和功能指标可能有助于数据图像之美。相似地,我们可以考虑数据/地理位置比率,即一个图形元素在一个页面的位置程度反映了它所表示的数据的特征。传统的地形图在这方面表现很好,因为一个符号在页面上的位置通常可以确定其所代表的地理位置。在这方面,很多信息图形可能不是很高效,如一些地图(比如统计地图和电路图)。我们认为空间的有效利用是优雅的数据可视化的重要方面,因为它支持地理(或者其他)模式的可视化发现过程。在包含地理特征的大量的数据集情况下,比如大量的志愿者贡献的数据集合,空间的有效利用就变得更加切实重要。简而言之,在高效使用和展现空间上蕴涵着美——尤其是为了展现地理。

    使树形图变美:从地理角度出发

    树形图是层次的填充空间式(sace-filling)展现方式(Sneiderman 1992),如图6-3所示。正如很多美丽的想法一样,树形图基于一个优雅简单的思想。把一个数据项表示成一个矩形。如果该数据项本身包含一些其他数据项(任意层次的特征定义)的集合,这些数据项的每个都是通过一个更小的矩形来表示,这些小矩形落在“父”矩形的内部。反过来说,这些小矩形本身也可以包含更小的“子”矩形等。这些矩形在排列上可以填充整个图形空间,而没有任何缝隙。每个矩形或节点可以根据其所表示的数据的一些特征来调整大小;还可以根据数据对它进行着色或者有意义地标注。所有的矩形都是可见的,它们不会交叠。这些矩形在表示的紧凑性上具有一定的优雅性(单个着色和标注的矩形可以同时显示某些数据的三个或者更多独立的特征)。每个节点(一个矩形)的简单的几何图形本身就表示大量的数据集,因为一个树形图可以同时显示的节点数目几乎和一个屏幕上的所有像素一样多。由于层次的语义包含关系是直接表示为树形图中的几何包含关系(父节点包含子节点),这种方式让人感觉更优雅。

    我们认为采用树形图来表示大量的地理和专题分类记录信息具备潜在可能性,而且我们发现通过构建新的分类这种方式探索Geograph数据集中的海量记录数是可能的。

    然而,由于很多原因,树形图广受人们的批判。滑稽的是,人们批判的是树形图的艺术性(Cwthon和vande Moere 2007),但是我们认为这是功能实现上的问题,而不是设计本身。

    更值得注意的是,在树形图中任意放置节点可以显著降低“数据/位置”的比例。绝大多数现有的树形图布局算法定位这些节点是为了最大化它们的“高/宽”的比例(使长方形尽可能接近方正,对于审美和大小比较任务是很重要的),而且为了提高可阅读性(最大化水平上的线性连续性)。很少有人会关心如何使用图形的位置来表示该数据的某些方面特征。因此,树形图包含线性不一致性以及节点位置的任意放置(见图6-3)。这些对立面创建了制图学和统计图形的最佳实践,其中平面上的位置被认为是表示关系信息的最主要方式(Brtin 1983)。在树形图内的节点的任意位置都无法利用“认知地理第一定律”(Fbrikant等2002),该定律认为不同物体之间距离越近,就越相似。

    可视化、美丽和树形图 - 图1

    图 6-3:两个简单的树形图。(左图)通过传统的方块化(suarified)布局方式(按序着色)放置的20个有序节点。注意没有使用前后一致的位置来表示有序的1~20序列。(右图)空间树形图,其节点是根据它们相应的地理位置(按范围着色)来放置的

    我们认为在一个二维树形图中,根据数据中的一维次序或者二维次序,对所有层次的节点进行排序是可行的(Wod和Dykes 2008)。通过这种处理方式,我们解决了和树形图关联的一个关键问题,即主要的信息载体维度,通过一维(或者多维)的数据维度对它们进行映射,但这并没有达到充分利用的效果。简而言之,我们在树形图内部使用空间来表示一维上有序的或者二维上按空间排列的数据。