DNA作为数据源

    用编程语言来说,DNA就是一个字符串:

    char(3*10^6)human_genome;

    人类的完整基因信息由30亿字符组成,即使在最没效率的自制编程语言中也可以很轻松地处理。但是确定这30亿个碱基的确切顺序需要化学、生物信息学和实验室过程的通力合作,当然还需要很多旋转的磁盘。

    人类基因组计划第一次将目标设定为对所有这些字符进行测序。全世界很多大型、高产的研究所都将学术竞争放到一边,着手这项可能持续13年花费数十亿美元的任务。他们的目标是制作出一个健壮、精确的人类基因组图谱,并向所有人免费发布。英国、美国和日本的科学家联合组织已于2001年2月在科学文献上成功发表了第一个人类基因组草图。如果不算附加注解和相关数据,基因组本身有10Gb的数据量,这在没有iPod或者U盘的时代是相当大的。然而,随着数据在世界各地的分发拷贝,对储存空间的要求以指数形式增长,因此整体的数据要大得多。科学家着手分析数据,将其用作基因标记与疾病指标的来源,并将其与其他来自老鼠、酵母菌、病菌的基因组对比。这10G数据已经构成了现代生物研究的基础。

    现在将时间快进到2008年。人类基因组已经得到了很好的注释(htp://ensembl.org),包括老鼠、黑猩猩、鸭嘴兽在内的其他四十多个物种的基因组也被测序了。在威康信托基因园区[1]中摩根楼一角的会议室中Sanger研究所的IT专家、信息学家和科学家正在一起开会讨论DNA测序的下个时代。

    若干互相竞争的测序技术平台已经给出了数字,并都期待着去探索基因信息的非富余本质。与已经被最初的人类基因测序测出的碱基对里的长读序列不同,这些短读序列将只有30~50个碱基,而前者则数以千计。但这30~50个碱基足以在特定的染色体上的特定位置进行读取,而这在多达30亿字符中有很高的确定性。数以百万计的碱基迅速使得在毛细血管状的基因序列中计算单个Kb变得逊色不堪,因为短读序列的数据要求的细节已经十分明了。白板上填满了手写的图解过程,那些过程正是运用了荧光碱基的图像,用来确定这些DNA短片段的正确序列。

    人们已经讨论过了要支持研究所的科研目标所需的仪器通量指标及仪器数量。白板上的一个数字与其他数字相比,更加引起了人们的注意。在以后六个月中,Sanger研究所将会测序出50Tb的最新数据,是每星期50Tb。

    会议上一片寂静。

    即使我们有能力支持大数量序列的人类基因测序仪器(100+),同时也拥有可供分析和注解数据的专用的现成硬件,但是整个生物学界也从未处理过具有如此原始信息的数据。

    新的测序平台将会大大地超越Sanger研究所现有的大规模数据需求。也就是说,数据需求已经在Sanger研究所15年的历史中飞速呈指数增长,最终达到了由17000个在线硬盘驱动的PB级储存系统。在未来12~18个月内,新的测序技术会产生相当于这15年总和的数据。

    果不其然,测序仪器在基因园区里掀起了新一波的浪潮,6个月后,那场会议的寂静被工业史上最大规模信息设施打破了,有服务器农场、存储阵列、软件、数据库和信息管理工具。

    量的飞跃

    新技术在基因测序中产生了量的飞跃。上一代的仪器需要大量设备来产生1Mb的可用序列。测序一个单一的基因组就要花费好多年并且费用昂贵。

    测序一个基因组在比对不同物种的基因组时是很有用的。DNA序列中有生物学意义的部分在进化历史中保持不变,而且找出这些不变的区域可以帮助生物学家识别新基因,新基因则可能在疾病中扮演某种角色。

    由于单个Kb的测序很少是完全精确的,在统计学效能上,对同一碱基进行多个相互独立的测序是有切实好处的,不过这样就需要大规模的部署仪器。不过新一代的短读测序仪器每次运行都会读取同一碱基几百万次,可以为结果基因组提供额外的解析度,这对比较基因组很重要。

    有了这个额外的解析度,短读测序方法第一次使得构建大量个人基因组成为可能,从而提供了个人基因组数据库的洞察力。将这些基因组进行比较,可以帮助识别出为什么有些人比别人有更大的风险患高血压或者乳腺癌。基因序列中很少一些碱基的差异就能改变这些易患病基因体质;从一个单独的碱基(sngle nucleotide polymorphisms,SNP)到重复单元集合(cllections of repeating units,CNV),30亿碱基中的这些小变化正是很多疾病状态的关键。通过比对短读技术获取的几百万份拷贝DNA字符串中某些特定位置的碱基,就可以肯定两个体碱基差异是测序错误引起还是真的有微小的核酸变化。通过病例和其他的研究进行额外的注解就可以知道这些变化是不是和疾病有关。

    全是碱基

    这种基因测序平台的技术实现值得讨论一下。从本质上来说它是线性组装流水线,其中每个DNA都是原材料,计量后在测序仪器中准备参与光化学反应。将DNA剪切为数以百万计的短片段后,再将其复制几百万次,然后附着在一种特殊制备的玻璃片上。带有特殊标记的碱基会堆积在这些制备好的短片短上,并配对在互补碱基上:A对T,C对G。用激光照射时这些碱基会发出不同波长的荧光,然后就可以拍到含有几千个点的图像,每一个点都是一簇发光的DNA碱基(见图15-4)。此时对测序平台的要求就以乘法方式增长了。每张图像都只是百万像素的解析度,采用短读测序时每个碱基要拍四张图像(每个位置的每个碱基一张)。这也仅仅是148张图像。

    不过,每张图像都只只能覆盖DNA簇的一部分。DNA会分成330个单独的块进行拍照(48840张图像),然后是8条线(390720张图像)。通常情况下,DNA链是由正向和逆向双向测序(781440张图像)。同时还有测序运行是由激光强度和射流测量产生的元数据。

    一台仪器每天可以总计可以产生1Tb数据。

    这些数据传给图像分析软件,软件将基于荧光强度通过校准每一系列的图像确定碱基顺序。这样又生成的文件含有各个字符串,质量评分和荧光强度详细信息,同时附带了簇位置和其他相关的元数据。实际上,为了方便下游的分析,这些信息是写成两种文件格式的:fastq和SRF,一种被全世界同事采用的数据格式。

    DNA作为数据源 - 图1

    图 15-4:Illumina[2]GA2测序图像,其中每一个点都是由数千个DNA分子组成的簇,在激光下发出荧光

    图像分辨率与读取长度的简单增加对数据处理和分析有着巨大的影响。Sanger研究所新测序平台的最初版本可以进行每次36个碱基的短读。100个碱基对的读取长度(比如Sanger研究所研发实验室里运行着的原型机)就会导致图像数目变成三倍(2334320张图像)。在拥有40台仪器的一个平台中(你读到本文的时候可能已经不止这么多了),每个平台的每台仪器总共会产生9300万张图像,每次运行大约持续一星期,总计每周会产生75Tb的数据。

    数据是怎么处理的?

    [1]Wellcome Trust Genome Campus,位于剑桥南部的Hinxton,是Sanger研究所和欧洲生物信息学研究所的所在地。

    [2]Illumina是一家提供DNA测序仪器解决方案的公司。