Jeffrey Heer
必须承认的是,我不信任美丽的数据,至少在没有上下文的情况下,我是不信任它的。第二次世界大战之前,荷兰政府收集了详细的民事记录,登记备案了荷兰居民的人口统计信息。这种做法的出发点很好,收集人们的注册信息来为政府服务管理提供信息。然而,德国入侵后,这些数据被用于有效地锁定少数族裔(Coes 2006)。1940年前荷兰还有大约14万的犹太人,而其中只有大约3.5万人幸存了下来。
虽然这种例子也许有点极端,但对我来说,这种发人深省的故事说明了一个基本的道理:数据之“美”取决于这些数据如何为人所用。数据蕴涵着帮助人们改进对事物的理解,并做出更优决策的潜能,因此数据是“美丽”的。要让数据实现其价值,需要做到收集并保护正确的数据,让合适的用户访问并理解使用它们。AOL公布的匿名性不足的查询搜索数据所造成的骚动是近期关于数据保护失败的一个实例。
幸运的是,绝大多数例子并不像这两个故事这么悲惨。实际上,更普遍的现象是数据都被浪费了:把数据收集并存储在数据仓库中——有时付出的基础设施代价很高——但还是尚未被充分利用。对于公司和政府,不断衰竭的数据意味着机会的错失以及很低的投资回报率。数据的价值和人们从中抽取出有价值信息并用它来指导实际行动的能力成正比。
然而有些自相矛盾的是,一些数据集拥有的“美丽”(或者潜在美)要高于其他数据。显然,选择收集什么数据以及如何设计数据存储的基础设施、模式、访问机制决定了在避免数据给人们带来伤害的同时,激发数据给人们带来信息和启发的潜能。但是,攀越美丽巅峰的“最后一里”(lst mile)是人类-信息相互交互的问题,即为了支持对数据的分析和通信,人们应该如何展示和探索数据。
本章将介绍一个交互式可视化应用的案例研究,以帮助培养人们实际应用美丽的数据:sense.us的设计,它是一个对美国的150年人口普查数据进行协同式探索和理解(snsemaking)的Web应用。我将谈到建立庞大的、政府部门收集的数据集的步骤——美国人口普查——而且通过一组交互可视化方式使所有用户都可以访问这些数据集。我还将描述我们设计的分享和讨论机制,该机制的设计目的是吸引数据的浏览者们在对社会的理解和思考方面组成一个群体。我们的目标是通过培养集体数据分析来实现数据的潜在之美。