验证开放来源数据

    由于数据是由不同的研究人员采用不同的方法搜集的,因此很可能出现矛盾的值。这可能会导致出现异常值或者直接出现相差很大的结果。习惯上,如果没有额外的信息,研究人员只能将每个测量值给以相同的权重或者应用统计方法来剔除异常值。然而,由于我们采用了需要完整记录每个值测量过程的开放记录本方式,每个测量都可以通过记录的信息上下文来进行评估。在若干情况下,这样可以允许熟悉此方法的科学家在测量条件不适当或者忽略一个重要参数的事实基础上,剔除有问题的数据点。

    就溶解度来说,事实证明:混合时间和蒸发条件都是重要因素。对硝基苯甲醛在甲醇中溶解度的确定就是一个很好的例子。在五个测量值中,有三个明显低于另外两个(见图16-2;http://oru.edu/cccda/sl/solubility/ugidata.php?solute=4-nitrobenzaldehyde&solvent=methanol)。测量方法基于对硝基苯甲醛的甲醇饱和溶液配制,然后蒸发掉甲醇,称量残留物重量。其中的关键就是完全饱和溶液的配制,配制过程通常是在搅拌条件下添加溶质,直到试管中有不再溶解的可见固体。通过检查这些测量实验的详细情况可以发现,测量值较低的三个实验都只是稍作搅拌,而测量值较高的两个实验则搅拌了好几个小时,这说明实验需要长时间搅拌(htp://usefulchem.blogspot.com/2008/12/mechanical-turk-does-solubility-on.html)。

    原始实验记录的可获得性使得所有研究人员都可以发现存在疑问的测量值,也可以从“失败”的实验经历中受益。这就是科学研究的本质。在记录实验细节和高效之间需要达到一个平衡。初始实验的目的通常是帮助研究人员找出需要注意的影响因素。遗憾的是,这些信息通常不会在研究社区内分享。

    对于这些存在疑问的结果,通常我们不是直接剔除它们,而是在这些测量值上加上“请勿使用”的标记,并给出原因。这使得其他研究人员可以点击进入原始的实验室记录本页面并自己检查原始数据。错误可能发生在任何地方,甚至包括验证结果的过程中。“错误”的数据在某些用途上也可能是有价值的。完全透明可以让数据的用户来决定在分析中包含什么数据。这也同样会减少(但是不会消除)隐藏错误的风险。这里有一个这种标记的例子,即香草醛在甲醇中溶解度的测量报告(htp://usefulchem.blogspot.com/2008/11/what-is-solubility-of-vanillin-in.html)。

    显然,在我们标记为可疑或者不可信的数值和没有标记的数值之间有一片灰色地带,尽管未被标记的数值在有些问题或者领域还存在争议。一天下来,它们可能会得出科学的判断,同时,也会产生大量分歧。每个案例的实验原始数据都可以被获取与查验,而且电子表格的历史版本同样如此。我们需要保持以下两者的平衡:提供一个有用的数据和每个决断与错误的呈现程度。然而,这个任务是很具有挑战性的。