在开放数据和免费服务下建立数据网络

    科学展示和科学交流的艺术很大程度上在于设计可以剔除不准确或者是误导性结果的流程,同时又要提出证据来论证一个人们可以理解的简单解释。科学,可以看成是一个把世界的各部分简化为简单模型的过程。这个问题的一部分是将模型过分简化,而只是为了强调某一论据或者让复杂的系统易于理解。

    我们的做法则是提供全部细节让人们直面真实测量的复杂性。通过在创建主数据集时采取尽可能透明的方式筛选数据记录,我们致力于在复杂性产生的问题和对清晰有用数据集的需求间保持平衡。网络存储空间几乎可以零成本获得,而且有着大量优质、免费的托管服务,这使得运行一个公开的研究记录成为了可能。这样就无法再为在文章中出现“数据不再一一列举”找理由了。不过要提供一个完整的记录又产生了几个新问题。

    第一个问题是简单的体积问题。研究记录本身往往是由一系列不系统的文本和图像组成。并不存在一个由人类或者机器容易解析的通行标准。在将所记录信息转向为人所用的过程中,提取和过滤是必不可少的。我们选择GDoc电子表格作为已提取数据的主数据源。自记录中提取数据的过程,目前仍然是主观和人为的。电子表格为人类提供了一个自然的界面,在个别实验科学家看来,它同样为网络服务提供了一个有效的数据再加工和展示界面。

    我们可以考虑直接从实验报告中抓取数据。使用一些通俗格式和正则表达式分析和转换,从记录的feed中读取数据自动填充电子表格是可能的。我们还没有做到这点,因为我们期待在这个阶段中有人为筛选的过程。随着项目的扩大,到了一定规模这样就不行了。在何种规模引入自动抓取将取决于项目、数据类型,以及目前呈现的数据集对与精度和准度的需求。

    数据一旦公开化,它就会对任何有兴趣的研究者敞开大门,而且G公司的Doc API也使得在大范围的服务中利用数据成为了可能。这其中包括可视化或分析服务。这些服务将会依赖于对电子表格数据结构的理解,这意味着工具通常是针对某个特定数据集编写的。但是,即使在这种情况下,有效利用大范围的服务、数据源以及可视化工具来造就高效的数据展示仍是直接可行的,这些展示小到表格和简单图表,大至五维、七维甚至更多维的可点击界面。开放的标准和系统提供了把数据和信息移动到最有效之处的能力。关于真正的开放和自描述数据格式的承诺是了不起的,但是并不现实,即使是像化学这样依赖数据的科学也一样,因为以一个实验者理解的方式把记录恰当地翻译为系统的可机读格式,并要使得编码的计算机或者人类也可以理解,这是科技上和社会科学上都有的困难。这里我们已经展示了把电子表格(那些实验者所熟悉和认可的)的数据转换成RDF,不过其他的格式一样也会很简单的。

    这样普遍的数据格式为开创能够综合多源数据的服务提供了可能。包含溶解度信息,或者数据集中其他信息的大范围数据源可以集中进行综合分析。这就使得ChemSpider这样的聚合和连接农场服务成为可能,不仅仅是自动聚合数据,从技术上已经可以实现对多源数据所需校对级别进行判断,并在需要时引入人工校对。这个中心化,反过来提供了一个有价值的索引服务,而这个服务提供了一个在线的中心位置,在那里用户能够搜到他们寻找的数据。我们描述的所有工作的中心主题之一,在于免费托管系统的使用,这个系统可以在为用户避免复杂性负担的前提下提供足够多功能。对大多数的记录、聚合、分析、可视化以及展示步骤来说,这里拥有更加先进、大众或者更加尖端的可用工具。为了记录这次研究,我们本可以使用一个商业电子实验室记录本或者是一个专门设计的在线系统;然而,我们选择了免费的wiki服务。主数据的呈现可以使用一个带有内容管理系统的数据库后端来提供复杂的可视化;但我们选择了一个在线电子表格并利用其JavaScript API来展现一定范围的可视化服务。虽然有很多功能高级和复杂的三维可视化环境,但是我们选择了Second Life。

    我们的部分决策理由是费用。我们使用的所有服务器都是免费可用的,并允许本质上无管理的发展过程有成长的空间,也吸引了新的低门槛的合作者。然而,此决策更多的考虑则是运用一个适合目标却不过于复杂的服务。在实验者和理论及分析型专家之间构建一个有效的连接通常都是一个挑战。将电子表格应用为数据源,不仅能够自动或人为地转换成一个有良好描述能力的格式(一个正式的关系数据库),或者是一个自描述且可扩展的格式(RF),也能简单地直接转换为复杂的可视化,这个应用也阐释了为何将电子表格作为结合点。实验科学家们喜欢并且理解电子表格。计算科学家们也许更倾向于文本格式,或者是可以用代码操作的数据库,类似XML和RDF的格式。把这些用户群集合在一起的关键将是具备能够自动进行格式来回转换的能力。

    最后,整个工程的关键是信任和透明度。由于记录需转化为数据,数据需转化为信息,而最终信息会被转化为一个模型或者理论,在以上每一个阶段内容都有可能丢失。那些通常杂乱无章的细节,在更大的图像出现的时候总是被抛在脑后。这是完全合适的。科学,正是一个以允许人们预见未来的方式进行总结观察的过程。正如我们对服务的选择,一个科学模型或者理论如果可以做到通常用最少的时间完成实验,那么它便是有用的。然而,传统上,这个总结的过程是以无法探寻细节为代价的。在网络的世界里,存储是廉价的,在此不再需要赘述。而当前,如何做出选择,在于如何展示隐含的细节,在汇总过程中如何过滤,以及如何保持汇总结果和原始记录间的链接。

    这些并不是简单的决定,我们并不会宣称我们百分之百正确。尽管如此,我们相信这个工程能够作为这项尝试的样本。四个月来,一个原本是火车上两人间的讨论已经发展成为一个跨国的数据收集、可视化以及建模尝试的项目,而这些参与者们是实实在在全部共享所有的数据和分析。如果新的研究者感兴趣,那么合作可以容易地得到发展。我们开放的数据和服务已经创建了激发兴趣的新的可视化服务,而且不需要任何实验者自身的直接参与。这些可视化不仅对于实验者是有用的,而且,自身也是极其美丽的。不过,它们只能再现任何人利用我们发布的数据能够做到的一小部分。同时,它们通常提供通向充满瑕疵和缺陷的原始记录的链接,允许任何一个用户评定其有效性和他选择的分辨率下的任意某个数据。

    美丽,通常被认为是类似简约或对称的,这是一种用简单的数学描述便可使全貌再现的感觉。而与此相比,现实中的实验数据却大相径庭。那些存在或者有时埋藏于实验数据中的美丽,或许需要大量的过滤才能浮现出来。但是,若真正的美丽存在于理解那些真正于世界最深处发生的事情之中,只要我们可以,那么我们就能够仅仅依据已知的分析来发觉那有限的一点点美丽。通过提供尽可能多的记录,我们可以让其他研究者发现和揭示更多埋藏在表面深处的美丽之路更加平坦。