Geograph在使用条款上的观点
“地方”(pace)的概念是很复杂的,不能简单地通过经纬度来很好地描述。地方不仅仅是一个位置,而且它也说明了创建一个地方的感觉所包含的特征本质。它可以依赖于无形的、主观的甚至有时对立的特征,这些特征传统上无法通过数字数据集来很好地进行展示。志愿者收集的或社区参与者贡献的地理信息,如可以通过Geograph项目获取的地方的个人描述,为我们提供了新的多角度方式来访问信息。这些可能会反映很多观点,而且当我们努力通过更有效的方式来描述一个地方时,促使我们开始考虑对该地方的其他想法。
Ross Purves和Alistair Edwardes在Zurich大学做研究时,一直使用Geograph项目的数据作为描述地方的参考来源。他们的最终目标是通过为描述地理的数字图像自动添加索引项,用来改进信息检索,这些数字图形和某个地方的流行观点相关,如“山脉”、“偏远”或“徒步旅行”。他们的工作涉及验证先前的研究,并通过比较Geograph项目的数据和当前为了描述地方所付出的努力来形成新的观点,以及分析在地理描述中的术语共现度(Ewardes和Purves 2007)。
在学术上流行的方法涉及识别所描述地方的基层或场景类型。这些对地方的综合描述已经通过传统地人为主观测试的方式推导出。这些描述之间很难协调,而且通常参与的人数很少,使得人们很难对结果进行泛化或者重新做那些实验。Edwardes和Purves评估了Geograph项目的参与者所使用的方式,对场景类型如山地、丘陵、山谷、河流、岩石、湖泊、峡谷、悬崖、海洋、洞穴进行排序,发现和参与者的研究中报告的术语以及这些术语使用程度有很大关联(Ewardes和Purves 2007)。
随着数据集中所使用的术语在一定程度上得到了验证,我们共同确定探索自然、结构和Geograph项目数据三者之间的一些关系的地理特征存在着机遇。特别地,我们期望能够理解以下几个方面之间的关系:照片内容、照片位置以及这些照片提供者的标注中记录的关于某个地方的文本描述。可视化方式看起来很合适,而且树形图技术使我们能够探索Geograph项目的以上这些特征。
以下的例子记录了一些方式,这些方式中的空间树形图和其他图形被用于探索Geograph项目,因为我们开发了该项目数据集的共享知识库,用来表达我们对地方的描述的理解。
表示术语分类
Geograph项目档案在2008年4月进行了处理,当时大约为75万的图片提供了标题和文本描述来说明其地理信息。我们重点研究与六个基础层次相关的图片,或者通过Edwardes和Purves的分析,被认为特别有意思的场景:海滩、乡村、城市、公园、山脉和丘陵。对于这些场景类型,我们为每个在以下三个不同方面选择了最受欢迎的描述词:活动(主要是动词)、元素(主要是名词)和品质(主要是形容词)。这种方式产生了六种场景类型的术语共现分类,每种场景包括三个方面,每个方面包含和场景类型相关的很多描述符。树形图反映了对于选定的包含一个流行描述符的场景类型,其每个共现度所包含的节点的分类,并展示了在Geograph项目所使用的描述的一些结构。图6-4所表示的树形图采用了有序的方块化布局算法来优化节点的形状和位置一致性(Wod和Dykes 2008)。叶子节点(各个子图)是单位大小。
图 6-4:对于六种选定的场景类型,其出现在地理标题和评论的描述的树形图。节点大小表示术语的出现频率。颜色突出了包含一种继承随机方案的场景类型/刻面(fcet)/描述符分类。布局采用“有序的方块化”方法来维持节点之间的方块形状(见彩图14)
图6-4中的每个节点都采用一种继承随机方案来对场景类型进行着色,而且孩子节点(刻面、描述符和地理科学本身)继承了这种着色方案,只有微小的颜色差别。虽然颜色本身并没有独立的涵义,但是采用这种着色方案来突出这种分类方式的层次结构。这种布局和颜色编码的结合有助于我们通过展现结构和鼓励视觉对比来探索数据。例如,我们发现丘陵(hll)这个词比公园、乡村、城市、沙滩和山脉这些词更流行,因为它在树形图中占了更大的区域面积。在这些场景类型中,元素刻面始终比品质或活动更为流行。活动方面和公园相关性特别强。描述符“公路”在四种场景类型中都居首要地位,而不是“沙滩”或者“山脉”。对于丘陵和山脉,描述符如山谷和小路与丘陵一起使用得更频繁,虽然相对而言,这些描述和山脉更相关。而湖泊和山脉一起使用得更频繁。小径是对与丘陵相关的流行的描述符,而不是山脉。这种数据密集的信息之美的一个重要方面是很多其他关系是同时显示,而且可能是同样被报道。我们可以通过远远多于1000个的文字来继续描述这些图片。
基于对各种Geograph的图形数据的理解上的经验,我们这里已经采取了一系列的设计决策。一个有用的可选方案是采用“切片和切块”的布局算法。其结果是一个马赛克图,使得其内的每个场景类型和刻面的大小比例更易于关联在一起,因为是通过长度而不是区域来进行比较(在图6-5上方)。但是,把生成的节点拉长,意味着不同描述之间的标注和大小估计会变得更加困难。一个折中的方案是应用有序的方块化算法来对叶子节点进行排列(在图6-5底部)。通过这种在不同的分类级别所做的布局和颜色实验,有助于我们突出和探索数据集中的各种显著的“品质”。
图 6-5:对于六种选定的场景类型,其出现在地理标题和评论的描述的树形图。节点大小表示术语出现频率。颜色突出了包含一种继承的随机方案的场景类型/刻面/描述符分类。布局采用“切片和切块”的方法来增强维度(上图)间的比较和“切片和切块/有序的方块化”方法来改进标注的可读性,如下部的图(见彩图15)
通过颜色表示绝对地理位置
虽然图6-4和图6-5中的树形图提供了如何描述地方的一些信息,但是它们几乎没有提到该地方与地理位置之间的关系。我们探索了一系列的方式给树形图增加地理位置信息。第一种方式是采用颜色来提供大不列颠群岛之内的绝对地理位置信息。Geograph数据的地理位置信息是通过“东向”(esting)和“北向”(nrthing)坐标组的投影来存储的,它们记录了该地理位置到英国国家电网(Bitish National Grid)起源地区的东部和北部距离。
我们面临的挑战是通过一个颜色来表示照片地理位置的两个维度(东向和北向),该颜色能够把该照片和其他不同地区的照片区别开。绝大多数的颜色空间是通过三个部分(如红色、绿色和蓝色,或者色调、饱和度和亮度)定义的,因此只选择两个部分来表示一组坐标是有问题的。此外,绝大多数颜色方案在主观感觉上就是不一致的;换句话说,两种颜色之间在色彩板上存在固定的视觉差距。因此,我们决定采用CIELab颜色模型,其提供了一种在感官上感觉更一致的色阶方案。通过色彩空间的a和b两个分量表示每个照片的“东向”和“北向”位置,我们能够生成一个颜色地图,其中西南地区是橙色的,东南地区是绿色的,东北地区是蓝色的,而西北地区是紫色的。中部地区趋向于褐色,两个节点间的颜色相似度说明了它们所表示的照片的地理位置的相似度。通过这种方式对图6-6有序的方块化树形图中的节点(和图6-4不同)进行着色。
图 6-6:“有序的方块化”树形图,其颜色是通过CIELab颜色模型的一种色彩空间来显示绝对的地理位置,在该空间中,主观感觉到的颜色区别和地理位置的差异紧密相关(见彩图16)
从这个观点来看,地理位置对地方的描述带来的影响是显而易见的,这一点可能鼓励我们从空间角度来探索Geograph项目的数据档案。例如,小径、顶峰和石冢展示了高山草地不同的地理特征;白垩、古冢和交界点则表示丘陵的不同地理特征;而山脉、沙滩、乡村有不同的地理位置特征;在沙滩内的活动和品质有显著不同的地理特征。地理位置和地方之间相关的一些复杂性也很明显。
通过空间树形图表示相对地理位置
使用颜色来表示地理位置有一定的艺术之美,并为地理位置-地方(lcation-place)的关系提供了一定的洞察力,但是其在有效性上具有一定的局限性。特别地,它要求用户为颜色和地理位置的对应关系分配内存。图6-6显示的树形图也没有以任何有意义的方式来使用节点位置。因此,我们可以把每个照片的地理位置映射到树形图中的节点位置,这样北部的照片会出现在每个封闭的节点空间的上方,西部的照片出现在左上方等。由于树形图会通过非交叠矩形来填充空间,我们无法提供精确的地理位置空间映射,但是这种布局方式确实说明了节点的相对位置,因而增加了“数据/地理位置”的比率。如果我们对探索地理位置方面的地方描述符感兴趣,则可以采用CIELab着色方案来突出绝对的地理位置,或者在保留很强的制图隐式表现前提下,用颜色表示数据的一些其他方面(比如术语的重要性)。图6-7保留了有序的方块化布局方式来进行术语分类,但是根据地理位置,对每个描述符的节点进行重新排列。
在该图中,山脉的粉色、紫色和褐色显示了该术语是用于北部和西部,虽然如围栏、垫木、凹地和黑色这类术语和这种模式不一致,但是它们也显示了自己的地理特征。沙滩的生动形象的色彩显示了这种场景类型周围的海岸的自然特性,而城市更柔和的颜色则表示它是中央地带。
图6-8通过对所有节点使用空间排序方法,更进一步加强了显示效果。它显示了选定的六种场景类型的地理和分类特征。
表示地理位置位移
虽然在分类结构中,我们可以识别出一些空间模式,而为了使节点能够完全镶嵌于树形图空间中,节点的显示和真实的地理位置的偏移程度是不确定的。CIELab的着色方案可以提供这种偏移的表示;注意图6-7中的沙滩的品质和活动方面的不同颜色,或者在城市/元素/舞厅和小山/元素/农场之间的不一致性。我们可以做出进一步的改变,但是这种改变是通过说明在地理上,一张照片或者一组照片如何在镶嵌过程中从地理坐标转换过来。为了实现这点,我们遵循Skupin和Fabrikant(2003)的建议,他们认为认知上似是而非的制图需要采用合适的方法来表达这种位置错误。
图 6-7:“有序的方块化”树形图,通过CIELab色彩空间的颜色显示绝对的地理位置。包含描述符节点的叶子节点,使用空间有序算法,通过地理位置做关联排序(见彩图17)
图6-8在树形图上叠加了一组线条集合。这些线条把每个节点的树形图位置连接到其地理位置-线条越长,位移越大。例如,海滩上与品质和活动方面相关的位移向量,尽管它们在空间树形图中是并列的,但是这些位移向量证实了我们之前指出的不同地理特征。创建这些线条背后的设计目标是为树形图提供额外的空间环境,而同时保持能够探索术语分类。图6-8中,粗线条用于显示场景类型的位移,而不是刻面的位移。因此,在显示地理位移时,使用的是非常细的线条,因为在树形图中,在地理上的照片位置和叶子节点的位置之间可以描绘成千上万的线条。图6-9给出了一个示例,在该例子中,位移向量在其节点位置终端比其地理位置终端弯曲度更大。这有助于突出任何的节点空间聚类,正如图6-9给出的在多数情况下的例子,也提供了对位移趋势的总体概览。
这种术语分类以及相对和绝对地理位置的并发视图,允许我们考虑丘陵上的小径、顶峰和石冢,同时把它们与白垩、古冢和交界点区别开。
这种空间安排可能会吸引我们注意新的关系。举个例子,马路、小路和小径表示类似的功能,但是当和丘陵一起使用时,它们分别有不同的地理特征;钓鱼和曲棍球是乡村中不同地理位置的活动;比较乡村中的礼拜堂和大教堂,或者山上的高尔夫球场和公园的高尔夫球场。图6-10显示了海滩上的一些元素的特写,这些特写帮助我们从其他方面中发现以下几点:通过潮汐的积聚场所形成的英国海岸线的的各个方面;南部地区突出了海滩内的路径和悬崖;而东南部地区突出了与海滩/元素/海港相关的特定的地理集群,以及西北中部地区突出了海滩/元素/海港。
图 6-8:对于六种选定的场景类型,其出现在地理标题和评论的描述的空间树形图。节点大小表示词频,颜色表示使用CIELab方案的绝对空间地理位置。位移向量表示非叶子节点的绝对地理位置如场景类型、刻面和描述符(见彩图18)