提供可以追溯到记录本的原始数据
作为Jean-Claude Bradley教授所指导的一个药物发现研究大计划(Badley 2007)的一部分,我们希望预测各种各样的化合物在非水溶剂(比如乙醇、甲醇等)中的溶解度。Bradley研究组用来合成潜在抗疟疾目标化合物(Badley等2008)所用的Ugi反应主要成分有醛类、羧酸、异腈和基本氨基酸,这些物质的溶解度是最让人感兴趣的。化合物的溶解度是化合物可在某个特定溶剂中溶解的数量。构建并验证一个可以预测溶解度的模型需要大量溶解度数据。出人意料的是,世界上并没有唾手可得的非水溶剂溶剂度数据。因此我们选择开放数据来源,将数据测量开放给想要参与的任何人(htp://onschallenge.wikispaces.com/)。不过这样就产生了一系列问题。由于任何人都可以提交测量值,我们没有直接的方法来检查测量值的质量。
因此创建数据集的第一阶段需要创建如何测量每一个数据的详细记录。不同贡献数据的测量技术、精度和准度都不一样,但是所有的背景资料都以人类可读形式提供。这种将完整研究记录在实验完成时就发布出来的“彻底分享”方式称为开放记录本科学(htp://en.wikipedia.org/wiki/Open_Notebook_Science)。这种方式虽然在专业研究者中并不普遍,但是它很符合我们公开一个完整和透明的数据集的愿望。我们利用在Wikispaces托管的wiki(http://onschallenge.wikispaces.com)来保存实验记录,利用诸如Gdoc和Flickr(http://flickr.com)等其他服务来保存数据(见图16-1)。
图 16-1:使用免费通用服务来托管实验工作记录及处理过的数据。A)单个实验测量时期的一部分;B)Flickr上实验中所拍照片;C)托管在Gdoc上主要数据仓库的一部分(见彩图53)
从实验描述中提取出数据值的数据库储存在Gdoc的电子表格中,用来生成项目的主要汇总数据。各条测量值一个不漏地发布在此,并附有一条指向原始数据的链接。无论是机读还是人们来阅读数据,这条链接都是很重要的,因为它不仅提供了测量值的出处(即谁给出的断言),还提供了此断言证据的记录。人们可以点击链接来查看测量是如何进行的,机器则可以在必要时下载或者抓取这条记录。
在某种意义上,电子表格是从实验室记录本转换为可以评论和过滤数据的第一步。从技术角度来说,选择Gdoc可能是一种偏好,不过这是基于以下几点要求的:允许我们以原始格式发布和共享数据;有一个实验科学家熟悉的界面并不占用他们额外的工作;由稳定的大公司维护的免费托管服务,可以让世界上的任何人以最小的代价复制这个信息处理模型;最后,可以用强大并灵活的API访问数据。很少有其他的方式可以让普通科学家用熟悉的方式使用、添加、下载原始数据,并且也为其提供强大的底层数据程序访问。