结束循环:采用可视化技术启发新实验
前面说过,实验取得的数据可以采用很多种方式,从可视化到建模。这些活动都很有用,可以为手头的实际问题提供帮助。不过我们的主要目标是采用建模和分析来启发新实验的设计。随着开放来源努力的扩展,考虑可能的实验与优先度是很重要的,尤其是在最终目标是让更多感兴趣、但不一定是有经验的研究者参与进来的情况下。这种计算上的优先级在很多情况下都是有用的,如资源(经费、材料、时间)有限不能进行所有可能的实验。就溶解度来说,可能有实验员问:“我们已经测试了这些化合物,下一个该做什么?”数据的可视化既可引人注意又可在资源有限的情况下为下一个实验的选择提供帮助。这就建立了实验和计算的良性循环,使得实验者和数据分析者都可以人尽其才。
要确定我们(或者别人)下一步测试哪些化合物,我们需要一种方式来了解我们所测定的化合物在化学空间[1]的位置。然后就可以确定我们的数据在化学空间中所空缺部分的位置,并用此空间内的特定分子来拟合,从而进行这些实验。这需要集成我们数据集中找不到的信息。我们有化合物和溶剂的ID也有溶解度,但是我们不知道分子的特性,也就是它们在化学空间中的位置。要获取此信息,我们需要使用一系列服务创建化学数据的混搭(mshup)。我们提供了CDK(Steinbeck 2006)描述符的一个简易REST接口。类似http://www.chembiogrid.org/cheminfo/rest/desc/descriptors/c1ccccc1COCC这样的URL可以额外获取包含多个URL的XML文档,其中每个URL又指向一个含有特定描述符数值的XML文档。这里展示的可视化所采用的空间特性包括化合物分子量(M),预测的油水分配系数(AogP,化合物亲水亲油特性的一种度量),还有计算得到的分子表面积(TSA)。Web服务中还有更多的描述符可供我们使用。
由于这里所有的服务和数据都在开放Web上提供,三方用户就可以利用这些服务和数据来进行可视化。使用GDoc中的数据和Indiana University的Web服务,我们独立开发了一个可视化工具,可以提供所有化合物在某个特定溶剂中溶解度的多维可视化(htp://oru.edu/cccda/sl/descriptorspace/ds.php)。在图16-5中,X与Y轴都是一个特定的分子描述符,颜色表示化合物的类型,每个点的大小和颜色表示溶解度。另外,把鼠标在点上悬停可以激活一个含有更多详细信息的提示条,其中有结构和溶解度数据。此图清楚地显示了现有数据点所没有占据的化学空间部分(比如图A的左下方)。理论上讲,可以查询ChemSpider这样的数据源来给出空白部分化合物的建议。
要扩展多维展示的能力,我们准备了在Second Life[2](htp://www.secondlife.com;见图16-6)的3D环境中的可视化工具。和GDoc一样,Second Life也是一个古怪的科学可视化环境。不过,它一样满足了我们对项目其他部分所要求的条件。它通过一个通用的免费程序包为用户提供了一个简单(或者说相对简单)的环境。其他专门开发的可视化工具经常很复杂而且价格昂贵,和它们相比,Second Life显著降低了门槛。从可视化体验的角度来讲,Second Life同时也有很多优点。它可以在图表周围移动,放大缩小,甚至走进图表中,从内部的角度来查看图表。不同的用户也可以同时查看和操作同一图表。从开发者的角度看,Second Life提供了将数据带到Web之外的能力,可以使用前面提到的Web服务,同时也为用户提供了一个可点击界面,可以操作图表或者随着数据点中的链接访问数据源和实验记录。从理论上来说,使用一个完全在浏览器中工作的开源渲染系统可能更好,但是开源系统十分有限,而且没有其他系统提供了像Second Life这样的技术性能、简洁的界面和可用性的组合。从实际应用上来说,这些引人注目的可视化界面已经说明了问题。
图 16-5:化学空间溶解度数据的图表展示。A和B给出了同一数据组在表示不同化学特性的数轴上的两个可视化图表。点的颜色表示化合物的类型(红色的为醛类,蓝色为羧酸类,黄色的为胺类,黑色表示其他),点的大小表示溶解度的值。表C显示了可点击的界面,其中有单个数据点的化合物结构和溶解度值(见彩图56)
很明显,易访问的数据会让计算科学家可以进行一系列分析,不过实验和计算的紧密集成则可使得整体效率更高。虽然很多计算分析需要大量的人工干预,不能转换为自动化的在线服务,不过也有很多简单的分析能转换为可以与一系列平台交互的服务。这样,分析数据来指示实验方向、开发新的应用或者和混搭其他数据和应用都变得更简单了。这些混搭展示出了使用广为人知且易于转换、机器可读标识符的强大之处。此处的SMILES编码是关键的标识符,使用它可以从其他Web服务、数据源或者其他研究者实验数据中获取进一步的数据。在不久的将来,采用可以描述结果的RDF会极大地促进自动集成。
图 16-6:使用Second Life展示多维数据。三个空间轴分别表示三个化学描述符。球的颜色表示化合物的类别(和图16-5的定义一样),球的大小表示在当前溶剂中的溶解度。此可视化图表可以在http://slurl.com/secondlife/Drexel/165/178/24找到,即Second Life中的Drexel岛(见彩图57)
由于RDF提供了一个基于公认字典的自描述框架,在不知道服务在何处且不了解内部数据结构的情况下,搜索提供感兴趣信息的数据服务也是可能的。现在大多数的混搭服务都是在已知服务、已知数据结构上,通过单个公用键(如地理位置、搜索项、日期)工作的。开放数据Web的对象间关系都是自描述的,其真正希望在于任何人都可以创建任意的混搭服务,其中的数据搜索和信息资源都是过程的一个整体部分。
[1]即Chemical Space,指的是所有稳定化合物所组成的集合。
[2]即第二人生,是由Linden实验室开发的一个基于因特网的虚拟世界游戏。