“向导”和“偷窥”

    在完成数据获取、设计和系统实现步骤后,我们的网站就可以运行,准备好让用户“现场试验”。本着一组用户研究的想法,我们部署了系统,观察人们对系统会做出什么反应,产生什么样的见解,以及我们应该如何改进改站点。

    我们邀请了30名用户到我们的实验室,用来观察他们如何使用sense.us探索数据。每个人可以看到其他参与者对该站点的贡献。我们还在IBM企业内网现成部署了sense.us,这样公司内所有员工都可以访问。从这些研究中,我们调查了人们如何参与可视化,以及协作特征如何给人们的探索带来影响。下一步,我将总结观察到的一些最有意思的使用模式。

    寻找模式

    绝大多数用户的第一反应是参与“寻宝游戏”(savenger hunts),获取有趣好玩的观察,通常是由个人所处环境所驱动。例如,用户会搜索他们自己或朋友或家庭成员的工作,或者查看他们祖先的出生地数据。在探索过程中,人们通常会做出评论,记录他们认为最有意思的趋势。

    举个例子,参与者注意到在1930年酒吧服务员的人数减少为零,发表评论说其原因是由于禁酒令。有人发现在19世纪从加拿大移民的(美国)人口比率上升到最高值,然后稳步下降,就咨询是什么原因导致了这种趋势。而另一个用户注意到在大萧条后股票经纪人数骤减,留下了如图12-10所示的视觉评论。

    用户还通过人口金字塔发现了有趣的趋势。例如,用户探索了婚姻状态随时间的变化(见图12-11)。绿色带和紫色带意味着分离和离婚的流行率,该比率在1960年后显著上升。一名用户调研了学校出席率,发表评论说从1960年后,成人教育显著增长(如图12-7的右图所示)。

    “向导”和“偷窥” - 图1

    图 12-10:股票经纪人的标注视图,其评论意思是“大萧条‘杀死’了很多经纪人”(见彩图43)

    “向导”和“偷窥” - 图2

    图 12-11:人口金字塔显示在1940年(左图)和2000年(右图)每个年龄组的婚姻状态分布(见彩图44)

    另一种情况是,一个用户把金字塔的两边映射到大西洋中部地区(即纽约、宾夕法尼亚州和新泽西州)和西海岸地区的人口(见图12-12)。在1850年,“淘金热”年代,西海岸地区的人口和东海岸地区有很明显的区别,前者主要是年青和中年男性。90年之后,两个地区的人口统计则更接近对齐,虽然有用户提出西海岸地区人口在比统计的晚10年后才开始平滑。

    “向导”和“偷窥” - 图3

    图 12-12:人口金字塔比较了在1850年(左图)和1940年(右图)西海岸和大西洋中部地区的人口(见彩图45)

    比起特定的视图,有些用户则对重现模式更感兴趣。一个用户对探索历史上男性主导职场的职业生涯感兴趣,但是发现在后半个世纪,女性的人数不断增加。用户系统性地探索数据,把视图保存在书签线索中,然后命名为“女性的崛起”,并和其他人分享。

    类似地,一个更有数学思想的用户对于工作波动模式感兴趣,他创建了一条曲线,显示工作波动重现概率。另一个用户搜索被科技所取代的职位,如银行出纳员和电话操作员。每一种情况,其结果都是通过多视图所“蜿蜒”出来的一次旅行或者一个故事。

    使一切变得有意义

    用户观察了数据,他们通常会张贴问题寻找解释,或者假设该数据可能导致产生某种趋势。很多这种问题和假设吸引了其他用户的回复,开始了对社会理解的一个循环过程。在我们的现场部署中,一个用户对散点图评论咨询为什么新罕布什尔州有这么高的人均零售额(见图12-6)。另一个用户指出新罕布什尔州没有征零售税,而拥有美国第二大零售业的特拉华州也没有征零售税。照这种方式,讨论通常涉及引入可视化中不包含的上下文信息。比如用户迭代式构建了一条事件时间线来标注军事建设(见图12-8),而另一个用户标注了引入义务教育的教师图。

    社交数据分析的一个例子是牙医在劳动力比率中的盛衰以及复苏(图12-13)。第一个评论指出了这种趋势,然后咨询其发生的原因。一条作为独立的话题回复该问题的主题为“和氟化作用有关?所以上升……和溺爱小孩,给他们吃了很多糖有关?”;而另一条回复主题是“由于预防性的牙医行业变得更有效,牙医寻找继续工作的方式(如很多人现在每年看两次牙,而十几年前每年只看一次)”。然而,最有说服力的,可能是包含链接到不同观点的评论,同时显示牙医和牙科技术。因为牙医人数比例已经下降了,而牙医人数又得到了显著增长,意味着在该领域内的专业性。针对这条评论,另一个用户问:“我想知道如果学校学牙医的费用变得太昂贵以至于人们根本不敢想,或者当他们上技校后,牙医从业费用很高,那牙医数量会减少吗?”视觉数据分析、历史知识和个人轶事都对理解过程(snsemaking process)有影响,阐明了塑造该数据的各种因素。

    “向导”和“偷窥” - 图4

    图 12-13:标注的工作向导视图(左图)突出显示了1930年后牙医人数的减少,(右图)由于牙医人员排序的上升,牙医从业人数得到增长(见彩图46)

    评论的另一个作用是帮助解释数据,尤其对于数据集合中模糊的涵义或异常现象。对于IPUMS项目,虽然我们很努力工作,但是丢失数据以及标签晦涩的问题依然存在。为了比较所有人口统计普查年份的数据,必须形成共享的分类机制。以职位数据为例,使用的是20世纪50年代的模式。该模式不包含一些现代社会的职位如计算机程序员,而且一些标签含义不明。

    一个很显著的职业被标记为“技工”(Oerative),泛指主要包含有技术的劳动力。这个术语对于用户几乎没有意义,其中一个用户问:“技工到底是啥?”其他用户回复同样不解或者提出某种理解,如“我肯定它指的是工厂工人”。另一个人同意,指出工人的数量很大,技工的盛衰时间似乎和工厂的机器操作员的盛衰一致。

    照这种方式,用户集体参与数据验证和解疑中,通常在数据中“种”下了“标记贴”(sgnposts)来帮助其他人理解。总的来说,大约16%的评论涉及数据命名、分类和收集问题。

    人群中“冲浪”

    我们观察到绝大多数最初是由他们自己的兴趣或者在概述中找到的兴趣项所驱动来探索数据的(如“噢!看看这些可怜的农民是怎么消亡的”)。最后,用户将没有更多的想法或者厌倦了探索。这时候,我们观察的每个用户都是不再探索可视化,而是去探索评论列表。有些用户认为这么做他们可以更快地发现有意思的观点。表达这种意思的评论包括:“我相信其他人发现了一些更有趣的东西”和“我需要站在别人的肩膀上”。

    其他试验者对于他们知道的某些人或者发现其他人所调查的东西感兴趣。一个用户说:“我觉得自己就像数据偷窥者。我真的很喜欢看别人都在搜索什么。”在数据驱动的探索和社会导航之间切换很常见:通过评论列表发现的视图通常可以点燃新的兴趣点,并激励更多的可视化过程中的数据分析。在经过一些探索之后,参与者习惯性地回到列表寻求更多的兴趣灵感。因此,我们观察到在数据驱动的探索和社会导航之间正面的反馈循环:探寻社交活动有助于促进探索新的分析问题。换句话说,用户可以很流畅地在“向导”和“偷窥”两个角色之间切换。