关于真实数据的问题

    要在真实世界中搜集“数据之美”,并将其展示给感兴趣的公众,至少有两个问题需要解决。第一个问题:世界本身是嘈杂的。在大多数情况下,重复搜集同一块数据两次会得到不同的结果。这是因为搜集过程不可能完全无误差。温度、压力、湿度、动力源、水或试剂的质量、称量精度的波动,还有人类的误差都会使“正确”结果变得模糊。实验测量的艺术在于如何设计数据搜集过程,使随机误差与操作错误对结果的影响最小化。在最好的情况下,这涉及如何精确优化实验设计,检测误差的大小及来源。在最差的情况下,人们就只有不断重复实验,直到得到他们满意的结果为止。

    对于处理误差导致的不确定性,传统实验的做法是进行重复实验并将结果付诸统计分析。重复的例子可以在大多数科学期刊的大多数文章中找到,很多图表中有“典型结果如上所示”。“典型结果”一般意味着“我们获得的最好数据集”。尽管理论上详细的统计分析是一种更严密的方法,但是也可能存在争议并让人误解。医学期刊的评论页中常常对从分析中删除不相关数据的适当方法产生争议。之所以对“典型”结果产生怀疑,对统计方法怀有争论,是由于无法接触原始数据。如果底层数据可得,人们自己便可很简单地进行分析和检查。虽然争议似乎不会因此减少,但是至少人们可以更加知情。

    这个问题的第二部分是,一直到最近,印刷期刊的版面限制了可发表的数据总量,如此,便使得支撑论文论点的完整数据及数据分析的发布变得困难或者根本不可能。然而,在出版开始逐渐转向线上的当今世界,这个理由变得牵强了。起码在数据量处于KB级至GB级的研究中,将论点所依赖的完整数据集发布出来是可能的。因此一直有很高的呼声来要求发布完整的数据。不过,这样就产生了如何呈现数据的问题;数据可能不一致,也可能包含错误,但是起码可以显示出所得结论的总体描述。简单地说,问题就是:如何清晰地展示出隐藏在数据表面下的美丽,同时又可以不刻意避免或者隐藏数据表面的瑕疵。

    我们认为要成功调和这些相互矛盾的要求,关键在于透明。以尽可能全面的方式提供原始数据,并处理和筛选数据的完整描述,意味着任何用户都可以深度挖掘到他或者她需要的细节。原始数据通常很难或者不可能自然而然地以一种机器可读、可处理的形式发布,所以筛选和提取过程同时也包含了对分类和简化的决策,从而提供清楚明了的数据以作其他用途。这里描述了我们在“美化”一系列开放来源[1]数据时所采取的方法,以一种开放的形式筛选和发布数据,允许任何人将其收为己用。结果表明,以上描述的方法已经使得多个研究人员能够配备一系列可视化和分析的工具,创建一个协作网络来有效地分析结果、提议后续实验,并将结果发布给更广大的读者群,而这皆是传统研究通信所不允许的。

    [1]开放来源即crowdsource,指的是一种任何人都可以提交数据和参与各项任务,也可译作“众包”。