第9章 霰弹枪法测序
如果你最终都不能让大家明白你的研究成果,那么你所做的工作就是没有价值的。
——欧文·薛定谔,1933年诺贝尔物理学奖获得者
尽管我们现在正以不可思议的速度揭示着人类基因,但是这些成就激发了我更大的胃口,我在考虑一项更为雄心勃勃的计划。现在我想回过头来全面观察整个人类基因组,也就是读取组成我们每个细胞中的所有染色体遗传密码的60亿个碱基对的每一个。尽管我早期的工作说明EST方法是一个可行的方法,但是我一贯的意图是最终测序整个人类基因组。为了这个目标我不得不发展和尝试新的途径。我确信一定有比由全世界的政府基金资助的科学家所信奉的那些方法更好的方法,这些旧的方法正带着中世纪的原始色彩。
我的批评者经常抱怨说,测序整个染色体,不论是从耗费的财力还是从付出的艰辛来看,我寻找基因所使用的表现序列标签法都可谓是一种廉价且不够水准的替代品。我能理解他们从哪来的这种想法:由于沮丧的心情,以及对沃森和其他人设法贬低我的方案的方式的回应,我的确曾经说过比较起人类基因组计划的估计30亿美元的报价,EST法是一个廉价经济的方法。但我也认为EST法并不能承载读取整个遗传密码的浩大工程;在我的第一篇描述它们的文章中我就表明过这一点,文章中我还断定EST法在通往最终解读人类基因组的方法的途中,它将作为决定性的里程碑,显示基因在大面积深不可测的DNA上所处的位置。
从我1986年涉足基因组学和第二年使用第一台自动DNA测序仪开始,我就梦想着有一个这样的工厂,在工厂里一排排的机器在自动解读DNA密码。现在我有了历史上第一台这样的科学设备并且决意要使用它。如若此梦想破灭,做政府支持的基因组计划也不失为理想之途。结果基因组计划就如同在一条长路上缓慢爬行,对我渐渐失去意义。官方把它看作是一宗要耗费大量劳力的事。这个方案的原型是酵母基因组计划,该计划花费了10年左右的时间和艰辛劳动,牵扯了几十个国家的1000多名科学家和技术人员。
每次序列解读,现行技术仅可以提供几百个编码的碱基对,那么我们所面临的挑战是,要设计出如何迅速读取整个编码序列的方法。面对测序数百万的碱基对这样繁重的任务,你如同一个苦行僧侣面对终生的修行苦役。你得学会把DNA打碎成容易处理的较小片段。为了处理它们你可以使用各种方法培育这些DNA片段。只有几千个碱基对的小片段可以简单地移接在标准质体上繁殖;对于有1.8万个碱基对以上的小片段,可以使用一种λ细菌病毒或者噬菌体;对于当时认为极其巨大的大约有3.5万个碱基对的片段,可以使用一种名叫柯斯载体的特殊质体,在早期的基因组学界几乎每个人都使用柯斯载体。这种规程是合理的,但是合理的不总是最快的;有时候倒不如随机安排的好。
在他们费时、耗力又花钱的计划中,苦行僧首先会小心地把柯斯载体按照生命之书中发现的正确顺序排列好。这样就得到基于柯斯载体的基因组图谱了。只有在这个作图阶段完成后长老才会给苦行僧钱并祝福他们可以开始一个一个地测序柯斯载体了。在测序之前关键的一步是创建图谱,虽然这可以完成,但要耗费太多的时间。佛瑞德·布拉特纳(Frederick Blattner)花了3年时间研究埃希氏大肠杆菌,才把比人类染色体小1000倍的埃希氏大肠杆菌的染色体λ克隆成基因组图谱,然后他才能开始测序。在人类基因组研究方面,为了建立染色体图谱,已经消耗10年多的时间和15亿美元的资金,但即使这样该图谱仍未完成。正如一个生物学家所评论的,“在一个字母一个字母、一个克隆一个克隆地测序人类基因组的漫长过程中,几个优秀人物将耗去他们整个研究生涯。”[1]
纵观这些计划的进展,我坚信有一个更好的方法去完成它。在大规模使用EST方法时,我信任随机,而不是有序。在建立我的早期DNA测序中心过程中,我也了解了DNA序列本身的价值。当时的科学家们处在一种奇怪的状况中,他们好像害怕真正地投身到DNA测序中,腺嘌呤、胸腺嘧啶、鸟嘌呤及胞嘧啶是复杂的,而且一般通用的方法又是单调乏味低效的。大多数基因组的作图阶段看起来实际上都是为了避免测序DNA而设计的。可是EST数据清楚地表明,在只有几百个碱基对的DNA编码中包含了大量信息:它不仅为绘制到基因组的片段提供了一个唯一的标记签名,而且往往可以提供足够的信息查看基因的结构和功能。那为什么不利用这个序列的信息能量呢?为什么不把单调乏味的克隆绘制和这种手工式的苦行僧方法摈弃掉呢?
几年前我提议使用霰弹枪法测序天花基因组时,我就想到过一个替代方案,就是把它的基因组分割为数千段容易测序的DNA片段,然后通过寻找特定的重复序列,再使用个别片段的序列来重建基因组。当你把所有的片段铺开,然后选择其中的一个,把它和剩余的进行对比直到找到相匹配的,对我来说这就像是拼图游戏的第一步。这个过程不断重复直到拼图被拼接好为止。然而,对于几千到几百万个片段的基因组拼图,寻找匹配的过程就不得不使用计算机来做了。在研究天花基因组时,我不得不放弃这种方案,因为我没有必需的计算工具把这些序列重新组合起来。由于EST方法的进步,比如新的数学算法的出现,以及1993年3月在西班牙的比尔巴鄂偶然参加的一次会议,所有这一切不久就都改变了。
我曾经被邀请在一个由圣地亚哥·葛瑞扫利亚(Santiago Grisolía)组织的会议上做一个报告,他是西班牙遗传学的领头人物,也是堪萨斯州医学中心大学生物化学系的高级讲师。
我是最后一个做的报告,很多听众看起来被我们的EST方法得到的最新结果和TIGR的发现,包括克隆癌症基因震惊了。提问的方向不可避免地转移到基因专利上来,一个天主教神学家对大会说寻求人类基因专利是不道德的。我问他是否寻求其他物种的基因专利也是不对的。他说不是,我就等他这句话呢。我告诉他TIGR正好测序了一个人类基因,这个人类基因与老鼠的一样,两者对应的是相同的一种蛋白质。难道寻求老鼠基因不等于寻求人类基因吗?
他吓了一跳,同时坚持认为人类基因组不会与任何其他的物种一样。当我旁边和我一对一说话的人们散开后,我面对着一个个子高挑、面容和善、满头银发的戴眼镜的人。谈到我在新闻舆论上的魔鬼形象,他说:“我想你被大家认为是个头上长角的人。”这个人是约翰·霍普金斯大学的哈密尔顿·史密斯(Hamilton Smith)。我早就认识他了,他在该领域名气很大并且获得过诺贝尔奖。我一见到这个人就很喜欢他;很明显,他对我和我的科学有自己独特的看法,并没有受到别人影响。
海姆(Ham)[14]曾经发现了限制酶,限制酶被比喻成分子剪刀,它可以在精确的位置剪断DNA链。今天,我们发现了数百种限制酶,它们每一个都在一个精确序列把DNA切成薄片。一些限制酶辨认4个碱基对,比如GTAC,那么不管它在序列的什么地方遇到GTAC,它都会把DNA链切开。另外一些限制酶只单独辨认8个碱基对,平均每隔10万个碱基对出现一次特定的8个碱基对。剪切酶成键越多,它对应的位点就越少。海姆的发现有很多应用,如果没有这些发现,分子生物学就不可能发展到今天这样的水平。1972年保罗·伯格(Paul Berg)利用限制酶诱导细菌生成异体蛋白,从而开创了现代生物技术的先河。基于所用酶得到片段的大小,第一个基因组图谱甚至被称为“限制图谱”。现在这些图谱的用处之一是在法庭上对个人进行遗传指纹识别。
海姆和我跑到一家酒吧里喝酒,很快我就明白这个低调的人想的只是科学研究的乐趣而不是早年成就的光环。海姆啜饮曼哈顿鸡尾酒,而我要了啤酒,他一直盘问我关于测序、序列精确度、自动化技术以及我们发现的基因等情况。我邀请他和我以及一些朋友共进晚餐,他解释说他今晚得出席一个晚宴,在宴会上他将被作为一个诺贝尔奖杯来炫耀,“真他妈的”他接下来说。我们加入到当地一个饭店举行的小型欢乐晚会中,这家饭店有真正的西班牙风格,我们在那里待到凌晨。
晚宴结束后我们返回酒店继续交谈。尽管海姆比我大10多岁,我还是能发现我们在早期教养方面有很多的共同点。我们都喜欢建造建筑物的游戏,都曾被哥哥激励(不幸的是,海姆的哥哥因为精神疾病被送进医院了),都受过医学训练,海姆也曾被征入伍并且就驻扎在圣迭戈。他甚至也和威廉·黑塞尔廷有过口角,因为海姆怀疑他试图阻止竞争对手的论文发表。第二天我邀请他加入TIGR的科学顾问委员会。
第二年,海姆第一次出席了委员会会议,会议期间他举手问道:“你把这儿称为基因组研究所。愿意做一个基因组测序吗?”随后他给我们介绍他研究了20多年的流感嗜血杆菌,解释为什么这个细菌比埃希氏大肠杆菌基因组小很多以及一些其他的特性可以让其成为基因组测序的理想候补者。我一直在寻找一个合适的基因对象来试验我的全基因组霰弹枪测序法,而且在我脑海里琢磨过一个想法,即作为一项测试,快速测序埃希氏大肠杆菌并与公共计划竞争(这一计划将花费那些苦行僧们13年的时间去完成)。但是我更喜欢测序流感嗜血杆菌的想法。作为测试霰弹枪测序法计划的对象,流感嗜血杆菌有很多优点,其中包括它有一个与人类DNA相同的成分(G/C碱基对容量)。现在有一个机会去测试生物体的第一个基因组,一个海姆非常熟悉的生物体。
我们的首次合作一开始进展很慢,对此海姆解释说,在生产含有流感嗜血杆菌基因组片段的克隆文库时存在一些问题。只是在几年后,他才坦率说出他的约翰·霍普金斯大学的同事对我们的计划不为所动,由于沃森和其他一些人对我的攻击,他们都用怀疑的眼光看我,而且也害怕他和我们结交会毁掉他的声誉。即使他们中很多人将会把整个研究生涯花费在流感嗜血杆菌上,但是却不能立即明白得到它的整个基因组序列的价值。海姆的一个博士后竟然问他,“我在这里面会得到什么好处?”他们的目光短浅且漠不关心迫使海姆绕开他的小组,就像我几年前为EST方法所做的一样。
不过,海姆认为他可以用嗜血杆菌制作一个文库。尽管当时的计算机只要有1000个序列就会堵死,但是现在我们有一个更好的程序可以重新拼接片段。海姆曾经建立了一些模型去模拟这种拼接,他认为实现2.5万的片段测序是可能的。虽然TIGR小组是充满热情的,但曾经设计过TIGR“汇编”算法的格兰杰·萨顿(Granger Sutton)也不能确定代码是否能承担把所有的测序DNA放回一起成为一个由180万个碱基对组成的完整基因组的任务。正如他拥有安静的性格一样,格兰杰也很谦虚:他的汇编程序事实上刚刚把超过10万个EST序列连接成对应的DNA串,我确定他的算法可以处理流感嗜血杆菌基因组。
在1994夏天,我着手申请一笔NIH的基金资助,提交了一份尝试我们新方法的申请。自然地,因为涉及相关政策我感到忧虑,NIH可能不会支持我们的新提议。海姆和我等不及答复就开始着手尝试新方法了。政府机构的酵母和埃希氏大肠杆菌基因组计划已经获得几年的基金支持了,如果我们使用这种新方法胜过他们,这将会是一个意义深远的里程碑:通过解读这种有200多万碱基对的人类细菌的密码,我们将会是第一个解码一个非寄生有机体基因组的小组。我决定挪用一部分TIGR的预算,大约100万美元,去支持流感嗜血杆菌基因组计划,而不是为一个来自NIH可能的拒绝再等待9个月。这是一次赌博,但是我确信我一定会赢。
4个月后我们得到了2.5万个流感嗜血杆菌的DNA片段的序列,而且格兰杰小组已经行动了。几周之后得到数据看起来是有希望的,从这些碎片中组合出几个非常大的片段。但是许多的小片段还是无法解释,它们是怎样安置在环状染色体上的,这一点还是不很清楚。
这些结果辜负了我们伟大的基因组梦想,我们梦想着所有来自于基因组的DNA复制体都是在埃希氏大肠杆菌中培植而且测序的,然后这些序列在计算机中比较和拼接,直到最后整个染色体跳出来。有很好的生物学原理解释为什么很少有这样的结果。分子生物学中有一个与生俱来的缺陷是,总是依赖于在埃希氏大肠杆菌中培植外来DNA片段。一些DNA明显对埃希氏大肠杆菌是有毒的,那些特别的片段会被细胞机制删除掉。由于在我们的环境中到处都是DNA在传播,包括通过病毒,因此限制酶也被细菌用来保护自己不受外来DNA的侵袭。
尽管如此,基因组缺失碎片之谜让我充分意识到基因组图谱会帮助我们排列序列和拼接片段,如同一个完整拼图的照片会帮助我们拼装拼图一样,即使有些片段已丢失。如同过去水手们使用简单粗糙的航海工具去寻找他们的航线一样,多年以来遗传学家们也曾使用各种各样的图谱:例如,他们可以制作一种叫作功能图或连锁图的图谱。在繁殖过程中,亲代生物体中的基因常常——并不总是——被一同遗传给子代。基因在染色体上离得越远,它们被传给下一代的可能越小。通过研究两个基因被一同遗传给下一代的频度,科学家们就可以估计出它们在染色体上的距离并且建立一个连锁图。第一个用这样的方法绘制染色体的人要追溯到20世纪初美国动物学家托马斯·亨特·摩根(Thomas Hunt Morgan)关于果蝇的开拓性研究。(基因的单位厘摩就是以他的名字命名的,一厘摩大约有100万个碱基对。)一厘摩解析度的图谱长久以来就是遗传学者的梦想。
另外一种基因绘图法是寻找给定基因的物理地址:确定它呆在哪一个染色体上,谁是它的邻居,以及近似在染色体的什么地方可以找到它。这就是大家所知的物理图谱。
但是我既不想将关联图也不想将物理图作为测序的先决条件,那是那些政府资助的竞争对手们所做的事情。佛瑞德·布拉特纳小组已经花费了3年时间去发展一个埃希氏大肠杆菌的λ克隆图,最后的结果只是一个传统基因技术的一流表演而已。1.8万个碱基对的克隆体叠成基因组就好像一块块乐高搭建玩具[15]。但是我不需要去绘制这样的图谱。如同任何一个玩过拼图游戏的人所知道的,如果你利用了边缘或其他可辨认的特点,那么即使你不知道较大的图像,也可以从底到顶地把拼图搭起来。毕竟,DNA序列自己最终是物理图谱,即所有的碱基对的确切顺序都将被给出。
在没有任何流感嗜血杆菌基因组图谱的情况下,我们发展了几种新的方法把大的片段集合拼接起来重新创造基因组。其中一种叫作PCR(基因扩增仪)的技术,我们用它从基因组里克隆DNA。两种被叫作引物的化学试剂决定了被克隆区域的开始和结尾。我们将使用的引物附于组合片段末端的序列,然后我们在每一个引物的联合体间使用PCR,即依次从每个序列的末端使用一个PCR探针,而在其他的组合末端使用其他的PCR探针。如果基因组里的任何DNA片段增强了,我们就很快地对它测序。这个序列然后会连接和排序这些片段里的两个。通过同时处理多重的复合体,我们可以相对快速地定位绝大多数的基因组。
PCR方法并不能处理每一个缺口,所以我提出了一个新颖的想法,该想法将会改变我们的测序方式尤其是人类基因组的测序方式。我们一旦使用计算机来尽可能地去拼接2.5万个嗜血杆菌基因组的全部片段时,最后得到叫作重叠群(该名来自于连接一词)的较大碎块,该碎块由一套重叠的DNA片段组成。为了把重叠群装配成基因组,我想我们可以从几百个任意λ克隆体的两端比较序列。如果一个λ克隆体的一端与一个重叠群相匹配,另一端与另一个重叠群匹配,那我们自然就知道这两个重叠群的次序和定位了。我们不得不设计一些新的方法去排序λ克隆体的端点,但是这项工作进展得很快。甚至从最初的几对端序列,我们就可以把序列集以正确的顺序连接起来。这种“配对端点”策略就如同知道了分开两个基因拼图特征的碎片的确切数目一样,并且成为全基因组霰弹枪法的关键。我们不久就得到了这个细菌的完整基因组,仅仅缺少了几个序列间断,而且我们有把握认为我们已经发现了制胜的策略。
基因组测序会议很快就要举行了,我想在会上提出我们的结果。尽管我们对自己所取得的成功感到骄傲,而且我也盼望着会议的到来,但我更喜欢在有人打击我们这个重要的划时代工作之前彻底完成我们在洛克维尔的工作。我的关于如何开始测试的离奇想法,走到现在几乎接近取得突破,即历史上第一个非寄生生物的基因组将被测序。现在我们离真正的成功是如此接近,我可不想失去这次机会。
当年9月,罗伯特·弗莱施曼(Robert Fleischman)在南卡莱罗纳的希尔顿海德举行的基因组会议上描述了我们的结果的主要部分。我觉得报告赢得了很好的认可,但是当鲍勃·沃特斯顿[16](Bob Waterston)站起来抨击我们的方法是无效的时我们惊呆了。他认为我们的方法永远不会有效的,最后我们只能得到11个片段,这些片段不能以任何次序排列。海姆尤其不安,甚至直到今天提到沃特斯顿在1994年的攻击时他还是感到不安。
在我们回到洛克维尔不久,我们就收到了NIH关于我们在年初时候提交的嗜血杆菌基金申请的答复,结果意料之中,也是必然的。得分很低,甚至连得到基金的分数都不够。评阅人的意见反映了基因组学界的看法:就如同沃特斯顿一样,他们认为我们的计划(已经开始实施了)是不会奏效的,甚至都不值得尝试。令我有一点欣慰的是在NIH的一种(非常罕见的)少数派报告方式的回应中,一小群同行评阅者不同意大多数人的观点,他们认为我们的计划应该被资助。
我把这份拒绝信钉在我的办公室门上。直到那时,我仍毫不怀疑我们一定会成功。海姆和我决定提出对那些批评的辩驳,并且请求弗朗西斯·科林斯直接支持该项目。我们列举了最新的数据,这些数据显示我们很有可能在很短的时间内得到有史以来的第一个基因组序列。我给弗朗西斯打电话告诉他我们可能的成功,并且向他保证我们的目的并不是阻碍他的NIH计划而只是想简单地想从它那里得到资助。几周后当我们收到NIH基因组中心的支持NIH否决意见的信件时,我们都感到震惊。信件的签名是罗伯特·施特劳斯伯格(Robert Strausberg),当时他是测序基金部的头。当鲍勃后来加入TIGR后,他向我表白他的职位要求他写那份拒绝信,虽然他认为我们会成功的。
这非但没有让我们感到气馁,反而激发了我们决心证明批评者们是错误的,没过多久流感嗜血杆菌序列的最后一个缺口也被我们填上了。我们已经成为第一个测序活生物体遗传密码的团队了,同等重要的是我们在完成这项工作中发展出一种新方法“全基因霰弹枪测序法”,凭借着该方法我们可以在电脑中很快(比任何其他的对手快20倍)测序和重构一个完整的基因组,而且不用基因组图谱。我们当然要感谢桑格,但是我们实现的东西与桑格的有非常重要的差异。桑格在他开创性的工作中所测序的病毒是无生命的结构复杂的有机物,为了繁殖病毒需要掠夺其他生物的细胞。为了测序基因组,桑格把这种病毒的基因组用限制酶打碎,所以他的霰弹枪方法不是真正任意的。尽管桑格也用计算机把这些碎片重新拼在一起,但是他的软件如果用来处理我们这么多的数据时,就会堵塞以致停止。
虽然桑格的工作是开创性的并且被认为是DNA测序的里程碑,但是为了对付活着的物种基因组,他的方法需要扩展和改造。桑格自己对此的尝试因他同事们的本位利害冲突以及计算机的自动化不够而受挫。桑格退休后,他的门徒们开始使用声波降解法,这是一种很好的随机方法,但是当他们转向较大的病毒基因组时,他们仍然把它应用在限制片段的克隆体上。其他人,例如北卡罗莱纳大学的(现在在文特尔研究所)克莱德·哈奇森(Clyde Hutchison)也曾研究过霰弹枪法,但是被手动测序和拼接那些随机的DNA碎片问题弄得灰心丧气,这一问题的难度随着基因组的增大而成倍增加。
简言之,桑格的方法对于遗传学的重要性就如同17—18世纪发明的车轮或第一个蒸汽机车对于汽车工业的重要性一样。桑格的方法提前了基因组学时代的来临,就像车轮和蒸汽机车提前了汽车时代的来临一样。为了大规模开辟基因组学,我的小组使用了多种技术的集合,包括基因组任意覆盖、配对端排序策略、数学与新计算工具的结合以及以填充任何缺口的实用主义的新方法。更为重要的是我们的诸多方法的成功结合是在一个工厂环境的背景下进行的,那里所有参与测序的科学家通过制作最好的文库和采用最聪明的算法来表达他们开拓自然新领域本能,而不是立桩固守个别的基因组片段。这就是为什么在庆祝流感嗜血杆菌测序的集会上大家无拘束地传递着香槟的原因。这标志着我们的工作第一次成熟地展示了霰弹枪法可以被用来解读整个基因组。这同样也标志着可以读取、比较和理解一个生命物种的DNA新纪元的开始。
我们将会在英国第一次向同行和对手们展示我们的成功,在那里,嗜血杆菌基因组计划的主要合作者,牛津大学的理查德·莫克森(Richard Moxon)将会组织一个为期四天的会议。莫克森曾经在约翰·霍普金斯大学工作过好多年,他把海姆·史密斯当作他的良师益友,而且他自己也曾对TIGR的进展“完全的目瞪口呆”。即使在基因组拼接还有一些边缘毛糙或者不完全时,他还是坚信这个计划最终一定会成功。这次集会是由威尔康信托基金的高级职员约翰·斯蒂芬森(John Stephenson)资助的。
威尔康的官僚迈克·摩根在他的同事眼里是一个彪形大汉,很明显他相信了沃森的台词认为我是科学界的害群之马也是桑格中心的巨大威胁。他看起来很不高兴我将成为威尔康信托基金会议上的万众瞩目的人气明星,因为我将揭幕人类历史上第一个基因组。尽管会议定在发表论文之前召开,但我被建议带上基因序列光盘以便摩根和其他人可以证实它的存在。威尔康信托基金的一名职员估计我会因商业保密需要所束缚,于是他就自作聪明地宣称我不会出现,或者就算我出现我也不会把序列带来,或者就算我带来了数据也不会让任何人看。
海姆和我因此决定增加我们的赌注。那时克莱德·哈奇森已经认识到一种生殖支原体将会是另一个吸引人的基因测序候选者,因为它是生命有机体中基因组最小的一个。海姆知道凭着我们的新方法和工具组我们可以很快地测序这个基因组,于是他非常高兴地在我的办公室里给克莱德打电话邀请他参加几个月后的英国的会议……还有……嗯,顺便问一句,他是否愿意在会议之前测序那些支原体的基因组呢?克莱德以他不动声色的幽默答复说那将会是有趣的,他接受了这个提议。[克莱德后来评论说:“如果你当时不出现的话,我们可能会在2000年前完成它(支原体测序)。”]我们向能源部的评审组提交了一份申请,其中包含了我们曾给NIH和弗朗西斯·柯林斯提供的同样数据,能源部快速提供了一笔基金来支持我们测序生殖支原体和他它帮我们选的另外几种生物的基因组。
尽管当时我已经完成了第一例基因组的测序,我还是选择了推迟把我们的胜利公布于众。我要的不单单是DNA序列,我想做历史上的首次基因组分析,从而决定序列所能告诉我们的关于一个物种的信息,然后写一篇关键的科学论文,这个论文将会在该领域建立标准。理解遗传密码和特定基因不是一个简单的过程,以前从来没有在这么大的规模上完全为一个非寄生生物体做类似工作。我们有180万的A们、C们、T们和G们需要分析和用文字、字母表达出来,为做这些,我们需要新的软件、新的算法和新的方案。
我们最感兴趣的是寻找有机体基因,大块的基因物质(通常大约900个碱基对,相当于300个氨基酸)为蛋白质提供实际的蓝图。它们被称为开放阅读框,包含遗传密码的扩展,遗传密码描述了所有的氨基酸怎样构成一个单独的蛋白质。细菌没有插入子(无意义DNA)打破基因和其他复杂脆弱的东西,所以我们可以寻找基因组中所有开放阅读框,然后通过在公共数据库中拉网查找相似的基因序列确定这些序列编码对应于什么蛋白质。因为大自然母亲是保守的,我们再一次认为,如果一种蛋白质比如说在埃希氏大肠杆菌中起某种作用,那么它在流感嗜血杆菌中也起同样作用。但是后者包含大约2000个基因,这种方式需要时间。因为公共数据库资源的有限,每10个基因只有6个可以适用这个方式。剩下的为不能和任何已知的蛋白质或基因相匹配的被归类于未知功能的新基因。我们然后建立了一个巨大代谢图,里面有所有经过鉴定的基因和它们可能的路径,代谢图还显示了一个基因怎样“告诉”其他部分以使这个细菌可以从事它的日常活动。这是一项令人激动的工作,因为我们可以在它每天的代谢图中填充更多关于这种生物怎样运行的细节,而我还想得到更多。
虽然我们已是第一批看到基本生命所必需的全套完整基因的人,但是讲述这个生物体的故事却令人失望地不完整。如果我们能把基因序列的每一个缺口都填上,我们就会揭示这个物种的进化以及更多秘密。但是海姆和我不得不承认这些目标超过了我们当前的分析或理解能力,我们将不得不在日后再发动这场战役。我决定把我们的结果整理成文章投向《科学》杂志。我打电话给一个叫芭芭拉·贾斯妮(Barbara Jasny)的编辑,告诉她我们的工作,很明显她和其他一些编辑都非常兴奋。我也谈妥了封面,假定这篇文章可以通过同行评定。
经过40次的修改才把稿件定下来;我们知道这篇文章将具有历史意义,所以我坚持要尽力将它做到几近完美。文章的作者排名是个很棘手的难题,对于大生物学来说一篇文章关系到一个从分子生物学家到数学家到程序员到测序技师的小军团,排名问题就更难了。两个位置在文章作者中是真正有价值的,第一作者和压尾作者,而执笔人则属这两个位置之一。当你年轻时,最好的组合是你是第一作者而且是执笔人。作为压尾作者和执笔人,这表明这篇文章是你的实验室的成果,你是对文章内容负责的主要人员,并且是由一名年轻人对这项工作做出主要贡献。在反复推敲了众多的作者的排序后,罗伯特·弗莱施曼(Rob Fleishman)作为第一作者,因为没有其他人比我和海姆贡献更大了。曾热情参与了这项巨大成就的工作每个人,都非常高兴地在这篇重要的文章中被列为作者。我把它投到《科学》杂志去由我的同行们评审,这是出版之前的最后一道障碍了。
我对反馈回来的评审意见非常高兴,通常这些意见总是一些匆匆的挑剔,但是这次是恭维的话,一些甚至是我曾见过最让我飘飘然的评语。作为对那些我们感到可以加强文章的意见的回应,我们做了一些修改,然后把它送回《科学》杂志,文章被安排在1995年6月发表,当然,在此几周前关于我们成功的小道消息就已流传开了。结果我被邀请在5月24日华盛顿举行的美国微生物学会年会上做主席讲演,我接受了邀请,条件是海姆将和我一起登台。
因为《科学》杂志是企业单位,它们靠订阅和广告赚钱,像《科学》和《自然》这样的一流刊物会努力防止它们的文章在发表前泄漏以保证他们实质上的影响力。文章是被“保密”的,新闻记者写作和报道未经正式发表的结果是会受到惩罚的,他们将会被禁止从事将来的出版前新闻发布工作。而在文章发表前,如果科学家们在会议上打破禁令公开讨论文章的内容并泄露到新闻界,也同样可能导致文章被拒绝或失去梦寐以求的封面待遇。这个行规对杂志有利但是却与学术公开自由交流的基本原则背道而驰,而该原则被认为是科学的基础。海姆和我实在不想失去这次把历史上第一个非寄生基因组介绍给近万名微生物学家的机会(有1900多人出席这次会议),而且这些人是最能理解我们已完成的工作的人。《科学》最初持反对态度,但是规则的确允许科学家介绍他们的工作,只要没有新闻采访牵扯其中。
那天傍晚,海姆和我西装革履地到达了会场后,我环顾着宽阔的大厅以及它近万的座位。当我连接好我的计算机并在巨大的屏幕上测试我的幻灯片时,我开始感到了紧张。不仅仅是因为会议的规模令人畏惧,而且因为我将要向微生物学家中的精英们介绍我的第一篇微生物学文章。我也害怕经常被问及的专利问题以及公共基因组团体的同行对我的敌视。但是我提醒自己,只要我准备足够充分,我就会顶住压力决不气馁。如同以往一样,我又有了那种特别的超身物外的感觉,我可以置身事外地评价我刚刚所说的,就像我在观众席上听讲一样。
当协会主席,来自圣路易斯华盛顿大学的戴维·施莱辛格(David Schlesinger)宣布这次事件是“历史事件”的时候,我感到了真正的压力。海姆用他一贯亲切的方式介绍了我。当我的电脑激活后,我开始自信而清楚地讲演起来。我描述了我们怎样从嗜血杆菌基因组中构造DNA文库,以及把DNA粉碎为特定大小的碎片的重要性:当两三万个碎片从数百万个片段中随机挑选出来时,它们可以在统计意义上代表基因组中的全部DNA。我阐明了我们怎样发展测序配对端点方法,测出每个片段的两端以便拼接DNA。我论述了我们怎样使用从EST发展的新算法和大型并行计算机来拼接2.5万个随机序列以形成大的重叠群来覆盖基因组的绝大部分,然后从这些重叠群端点去配对序列并且补上几个剩下的缺口。这样就完成了把基因组的180万个碱基对在电脑中以正确的顺序重新创建。我们已经把生物学的模拟版本转化到了电脑的数字世界里了。
尽管我有了第一个活物种的基因组,但是有意思的事才刚开始。我叙述了我们曾怎样使用这个基因组去探究该细菌的生活规律,以及它是怎样导致脑膜炎和其他传染病的。作为这一重大事件的补充说明,事实上我们已经测序了第二个基因组来确信我们的方法有效,它是生殖支原体,已知的最小的基因组。当我的演讲结束时,全场观众一致起立给我长时间的诚挚的鼓掌。我几乎被掌声淹没了,因为它是这样地突如其来,让我意想不到,我之前从来没有在科学会议上看到过这样的自发行为。
《科学》杂志对我的讲演担忧是有道理的;这次会议引发了文章发表之前的雪崩似的新闻报道。《科学》杂志自己对此报道使用了《文特尔两次赢得了测序竞赛》的标题,并且引用科林斯对此的评价,称它为“不同寻常的里程碑”。[2]就像《时代》杂志所说的“由于他的方法被认为是不可靠的,政府拒绝支持他的工作,但是文特尔使用私人资金打败了联邦资金支持的科学家们,结果这些竞争对手们承认他的工作是意义重大的里程碑。”[3]尼古拉斯·韦德(Nicholas Wade)在《纽约时报》撰文写道:“仿佛为了证明嗜血杆菌测序不是侥幸成功的一样,在他的讲演快结束时,文特尔从他的帽子中变出了另一只兔子,即第二个非寄生生物体的基因序列。”[4]第一个NIH支持的埃希氏大肠杆菌基因组计划的头佛瑞德·布拉特纳称它为“历史上的惊人时刻”。这句评语是最让我满足的了,因为我曾钦佩他的工作,现在我也钦佩他的仁慈宽厚了。韦德还说,“文特尔博士的成就预示着他在科学界站稳了脚跟,之前他长期与之格格不入,因为他喜欢走基因测序的捷径,而其他专家们认为这是行不通的。”
不管是对我还是对海姆还是对我们团队的其他人,那都是一段美妙的时光。我们都知道能走到现在我们忍受了多大的苦难,包括NIH的政策和公共基因组团体的冷淡和敌视。当时我们的成功确实使得一些学者对我先前使他们反感的言行采取了既往不咎的态度,比起雨点一样落在我们头上的来自于我们的EST测序“合作者”的责骂,他们对我的反对简直是小儿科。在胜利欢呼的背后,我与HGS和黑塞尔廷已经很糟的关系更加恶化了。
当初黑塞尔廷和史克必成不同意我发表我们的EST数据,这已经使得基因组界的一些人对我既怨恨又厌恶,所以这次对于嗜血杆菌的全基因组测序的结果,我决定以不同的方法行事。我好容易找到了HGS和TIGR所定的协议中的漏洞,我意识到我可以利用一个事实:他们只强调了单独的EST序列而从未预先考虑过整个基因组的拼接。
我的目的是防止他们再次干预发表。回想到HGS有6个月的时间(从TIGR开始转让数据的那一刻起)选择基因作商业发展之用。在此之后,剩下的数据可以被发表。为了把嗜血杆菌的计时器发动起来,我开始在重新拼接之前把原始的数据向HGS传递。4个多月以来,2.5万个细菌序列被灌入HGS的电脑中,这与其说引起他们的好奇还不如说导致了迷惑。随着我们把序列拼合在一起成为基因组时,我们所做的事情的重要性就显而易见了,他们的态度从迷惑转化成公然的敌意了。
部分原因是当HGS的竞争者已经开始以越来越快的速度粗制滥造人类EST时,黑塞尔廷却懊丧地发现我们正在测序一个小小的细菌。“我要揍你一顿,”他在一次TIGR的董事会议上咆哮道,但是当史克意识到嗜血杆菌的基因序列的商业价值以及它可以帮助发展新的疫苗和抗生素时,他很快就改变了方向。现在关于数据开放的老生常谈的争吵真正开始了。
黑塞尔廷开始要求商业化计时应该从HGS收到完整的基因组序列后再开始。接下来当然他要援引那个条款要求再保持基因组保密时限18个月,因为它是一个单一的序列。我最不想要看到的是HGS为基因组申请专利延长我们发表数据时限并且让我们在测序第一个基因组的竞赛中被他人争先。这个特殊的战役不是关于金钱而是关于控制权。黑塞尔廷意识到如果我的团队在历史上第一次完成基因组测序,就会发生换挡,我和TIGR明显没有了HGS也能生存下来。黑塞尔廷威胁要向法庭申请禁令阻止基因组数据发表并且雇佣律师开始操作了。
我知道妥协对于TIGR和我的事业都是毁灭性的,甚至当我每天都面临新的备忘录和传唤。我投入了更多的时间和金钱给阿诺—德波特律师事务所的史蒂夫·派克律师团,派克自己现在也把一半的时间花在我的办公室里,或者与我或HGS的代理人的电话讨论上。黑塞尔廷押上了更大的赌注,他甚至带来了华盛顿大律师,该律师刚从美国总统律师的位置上退下来。现在黑塞尔廷不仅打算申请一个关于基因组的专利,还要申请一个禁止令。但是HGS很快就清楚如果想要赢得一个禁止令,它就不得不向法庭说明我们的数据发表怎样损害了它的商业利益——这对一家对微生物毫无兴趣的公司来说是一个棘手的提议。
通过那位前总统的律师,HGS找到了一个最终的折中案:如果我在给《科学》杂志寄出论文之前把完整的基因组序列提交给HGS,他们就会做出让步。感到我已赢得了发表的权利,所以我同意了,在我提交论文时,我把那些数据传给了HGS。然而我并不曾指望罗伯特·缪尔曼(Robert Millman)的动作有什么积极作用,他是一个专利律师,他曾在埃里克·兰德(Eric Lander)帮助建立的一家生物技术公司工作过。缪尔曼外形奇特,红头发扎成马尾巴,留着胡子,衣着极不协调。他对于专利法的游刃有余,相当于黑客对于计算机网络,他还有分子生物学的背景。在他的帮助下,HGS设法在我的论文发表之前申请了一个专利,尽管费用不菲。这份申请书长达1200页,其中含有嗜血杆菌基因组的180万个碱基对。就像在HGS数千专利申请变成现实一样,缪尔曼在离开HGS成为塞雷拉专利律师后还会继续这类专利申请,专利申请的真正价值就是让专利律师自己挣钱。这种极具侵犯性的专利策略的唯一可见社会效应就是它在科学界引起的令人难以置信的愤慨。
那篇嗜血杆菌基因组论文1995年7月28在《科学》[5]杂志上发表了,加上我和海姆两个资深作者一共包括40位作者。它被作为封面文章,在中间插页上给出了一个详细的基因图谱,在该生物体的环状DNA分子上我们标以不同的颜色杠:绿色对应的基因涉及能量代谢,黄色表示拷贝和修补DNA等等。大约有一半没有颜色,因为它们所扮演的角色还没有搞清楚。论文不仅描述了基因组中有什么,而且更为重要的是描述缺了什么。我们已经解码了Rd实验室株,它对人并不传染,并且发现它缺乏一个与传染性有关的完整基因盒(集)。我们发现它的一些代谢路径是不完整的,特别是与细胞能量生产发生联系的“三羧酸循环”,它缺少1/2的酶。从而这个物种为了成长需要高浓度的氨基酸谷氨酸盐。在看到这些细节后,斯坦福的一个杰出的生物化学家说我们很明显搞砸了,因为大家都知道每一个细胞都有一个完整的三羧酸循环。事实上由于对这种微生物测序的开创性工作,我们现在知道,从没有三羧酸循环的细胞到完全依赖三羧酸循环产生能量的细胞,每一种组合都是可能的。
我们在《科学》杂志同一期上发表的第二篇文章[6]描述了嗜血杆菌是怎样通过相互交换它们的DNA来加速它们的进化,就像给它的基因组安装软件升级一样。海姆在一个存有9对碱基的独特序列中发现了这种机制的关键,该序列有1465个复制体散布在基因中心的遗传密码上。细菌表面的分子黏附在这个序列上并把DNA传输进细胞中。它几乎没有什么变化,表明对该细菌来说允许序列改变而又不招致危害是非常重要的。很明显在这种软件更新机制中的变化比软件自身要小得多;就好像在细菌的生存中起重要作用的是新软件的数量而不是质量。
牛津大学的理查德·莫克森小组取得一项最令人兴奋的发现。经过对一种可以帮助合成脂单糖的细菌表面分子的酶的基因编码的研究,他们发现为什么我们的身体与细菌对抗时感到很困难。后来,莫克森回忆怎样“在几个星期的实践中德里克·胡德和我在脂多糖组织的过程中识别超过20个新奇的(迄今为止未被认定的)基因,在这样短的时间内取得的进展比我们和其他的科学家曾在几年内取得的都多”。
他的团队发现当基因被DNA聚合酶复制到子代细胞中时,一段DNA重复序列出现在出错基因的前端。聚合酶在这些重复部分打滑,当我们看过基因组后,我们发现它们与一些负责产生细胞表皮分子的基因有联系。对于细菌来说,不断改变它的细胞表皮抗原是一个聪明的方法,这样新的品种就可以总是比我们身体的免疫防御技高一筹,在呼吸道工作中我们可以看到一个这样的过程:当身体战胜了熟悉的品种时,一个嗜血杆菌新的版本又占据了原有的空间。我们现在知道相似的机制已经成为许多人类病菌的遗传密码的一部分,这也是我们为什么在与传染病的战争中老处于下风的原因之一,我们所能做的就是最好能跑在细菌进化之前。
那时,理查德已经发现,这个工作有政治维度。他参加的4月23日到26日在多半豪斯酒店召开的会议对他是一个凯旋式。一个与会者评论说:“克雷格蹦到讲台上描述流感嗜血杆菌基因组怎样被拼接——影响是直接的、惊人的——大家都明白微生物学正在发生变化,当然它的确在发生变化。”我不仅出席做了讲演(对我来说全程参加一个4天的会议是不寻常的)而且我也随身带来了嗜血杆菌和支原体基因组序列的光盘。在会议上这些科学家们几个小时地凝视着我们的数据。“对了,”一个与会者说道,“这就是这种生物的本质。”[7]但是摩根自己并没有露面,看起来他并不清楚这次会议的重要性,即使它是由威尔康信托基金主办的。理查德很失望,因为他认为这次会议是同类会议里最成功的(威尔康称它们是科学会议的前沿),可是除了约翰·斯蒂芬森之外,没有信托基金的高级代表参加。约翰·斯蒂芬森曾帮助组织该会议,但是被后来的情况震惊了。在这次会议记录里,一份报告总结说我们的处理方法是基因组学发展的方向,这也是以后信托基金决定在桑格研究所发展细菌基因组测序计划的一个重要的原因。
就在TIGR缺钱用的时候,没完没了的可能向我们招手。理查德想要从威尔康申请一项基金。以便他在牛津的实验室可以与TIGR合作处理主要引起儿童脑膜炎的脑膜炎双球菌基因组。他与我和摩根的会见是令人尴尬的,这位威尔康基因组的大鳄竟然没有读过那篇《科学》上的论文。但是考虑到脑膜炎导致的痛苦、死亡和致残,威尔康传染免疫部还是把它推荐为最高优先级别的计划。信托基金的批准一般要办理一个正式手续。但是这次有点技术性问题,由于美国官方未认可TIGR为非营利性质,他们担心慈善款项可能最终让HGS受益。摩根否决了脑膜炎提议,理由是可能导致与英国慈善委员会的法律问题。我甚至已经开始对这个细菌进行测序,但是不得不就此打住。
嗜血杆菌的论文不久就成为在生物学领域引用率最高的文章。一个斯坦福大学的教授露西·夏皮罗(Lucy Shapiro)描述她的团队怎样熬了整整一夜钻研这篇文章的细节,为第一次看到一个物种的完整基因内容而激动不已。数百个庆贺的电子邮件源源而至,表达了诸如“现在我完全理解了基因组学是什么了”或“这是基因组时代的真正开始”这样的感概。弗瑞德·桑格(Fred [17] Sanger)甚至寄给我一个关于嗜血杆菌基因组发表的可爱的手写纸条,说他一直都认为我的方法是可行的,只是一直没有机会测试它,因为他的同事们都想要测他们自己的那一份DNA片段。
亲爱的文特尔博士:
非常感谢你给我的关于你们在流感嗜血杆菌美妙工作的文章。当然它是令人印象深刻的,我非常高兴看到霰弹枪测序法能在这样大的范围内适用。我一直对这种方法很热心,但是一个主要的问题是我的同事们不喜欢它。因为他们都想要测他们自己的那一份DNA片段,这样这些片段就可能以他们各自的名字命名。现在有了自动操作,我想这不是个问题了。由于你的工作它一定会取得很大的进展。
衷心表示祝愿
你的诚挚的
弗瑞德·桑格
评论这篇论文的文章不断地出现。我们的工作被宣传成为“对21世纪的医药学有巨大潜力的壮举”。尼古拉斯·韦德在《纽约时报》上大发诗意[8]:“生命是个谜,无法形容,深不可测,而且看起来可能从来不为精确描叙所感动。然而现在第一次,一个非寄生生物被它的完全基因组蓝图的化学成分所定义。”他引用了哈佛的乔治·切奇(George Church)的话,来自基因组学一个重要知识分子的声音:“这真是个精彩的故事,因为他们使每个人都在等待直到所有事情做好。”甚至吉姆·沃森也宣称这是“一个自然科学的伟大时刻”。我想知道沃森有没有把《科学》上的那篇文章读完?当他在文章结尾断言我们的“文章描述的方法有助于测序人类基因组”并且在杂志随文附上的一则新闻报道[9]里着重引用了我类似的一句话“流感嗜血杆菌基因组测序的成功已经在世界范围内为人类基因组测序下了新的赌注”时。
在嗜血杆菌论文出现不久,我们如约在《科学》上发表了生殖支原体的最小基因组[10]。在一篇评论里,测序酵母的国际基因组的领导者安德鲁·高弗由(Andre Goffeau)提醒读者,数年来他们怎样认为第一个被完整测序的基因组应该是埃希氏大肠杆菌[11],“但是让大家吃惊的是”一个圈外人赢得了竞赛,而且他现在开始测序第二个基因组了。他继续说:“测序生殖支原体的工作最让人印象深刻的是它的效率,这证明了TIGR测序和信息学设备的威力。”克莱德·哈奇森(Clyde Hutchison)在1995年1月已经把生殖支原体DNA交给我们,在当年的8月11日我们就把稿件寄了出去。
有了第二份全套非寄生生物基因组,我们就可以发展一项新的学科即比较基因组学。《科学家》报道了一些对该发展的反应[12],能源部的戴维·史密斯(David Smith)说:“我开始阅读支原体文章部分,比较那些基因组,突然我心头一亮——哇,这将会成为影响很大的一个生物学的新领域。”尽管他们曾支持过我们的努力,但他们只是想与我们的成果达成协议。就像NIH基因组研究所的副主任伊尔克·约旦(Elke Jordan)(他先是沃森的手下后来是柯林斯手下)所说:“我认为我们迈出了微生物基因组的第一步,以后更大更复杂的基因组比如酵母、秀丽隐杆线虫和果蝇的基因组测序也变得可能——我们将会传递一些经验给他们。”在《科学家》的文章中,海姆做了一个完美的总结:“在全国几乎所有人的怀疑下,克雷格创造了这一切。看起来所有人都盼望着他失败丢脸,但是他所实现的比任何人想象的都要多都要快。”而我还只是刚刚起步。
经过一年的斗争,1995年9月我最终把TIGR的EST工作成功发表了,一同发表的还有《自然》特刊上的一份长达377页的基因组指南[13]。在我为获得承认而进行的战斗出现转折点之前一个月,《自然》杂志的编辑约翰·麦道克斯(John Maddox)写了一份不寻常的评论[14],文中讨论了利用我的EST数据的“令人厌恶”的形势。文章以一次令人难忘的电话交谈开头:“‘如果你出版了文特尔的垃圾文章,’几个月前有一个与众不同的声音在电话里说道,‘我保证再没有什么美国基因组界的成员会向你投任何稿件。’”麦道克斯继续写道:“说话的人,他自己会承认,是美国的一个最著名的遗传学者。”一位《自然》杂志的编辑后来告诉我那个声音是吉姆·沃森的,当然是他了。
麦道克斯不但总是对头条新闻在行,而且对于科学他也有很好的鉴赏力,尽管面临威胁他还是决定要发表那篇文章:“有几个很好的理由(而不是冒险蛮干)让我决定出版这些资料。主要是这篇论文所描述的内容是极具科学内在价值,这一点在基因组指南被分类时就可以看到。这个伟业的规模也是不寻常的。文特尔的团队将会统一发表全部长度的EST,现在已经排序了大约500万个碱基对,或者说人类基因组的0.15%……有5.5万个EST对应可靠的基因,其中只有1万个已登录在公共数据库中。”
科学界和新闻界都为我们的成就喝彩,他们在头版用大标题称我们的工作扣响了人类基因组竞赛的发令枪。比如《基因先锋公开了他的数据库》[15]《新指南是第一个人类自己的图谱》[16]《基因组的快速进展被报道》[17]《科学家们瞥见了基因的分工》[18]《宏大的人类基因计划的研究细节进展》[19]等。如同有人所评论的那样,这份指南标志着我们朝着获知是什么使我们进化为人的道路上迈出了重要一步[20]。《自然》杂志的生物科学编辑尼古拉斯·舒特(Nicholas Short)对《纽约时报》说,如何使用这些数据“曾被过分地歪曲,现在是‘确实相当自由’的”。我上了《商务周刊》的封面[21]而且《人物》杂志也刊登了我的照片[22]。《美国新闻与世界报道》指出,尽管我的批评者又找茬又嘲弄,但是,“克雷格·文特尔笑到了最后。”[23]
我在头两个基因组上的成功带来了崇拜者、合作者和金钱。美国能源部科学办公室现在拨给我们资金去测序一些其他微生物。经过很多次讨论后,我们选择了一个不寻常的典型生物列为我们的第三个基因组计划对象。它是被称之为詹氏甲烷球菌的一种微生物,生活在矿物质丰富的热流体里,这些热流体是从地球的内部由海底称作热液喷口的地方像烟一样涌出来的。这种生物于1982年被伍兹霍尔海洋研究所的深海潜艇“埃尔文号”在沸水中发现,沸水位于据墨西哥的卡波圣卢卡斯160千米的2.7千米深的太平洋底,在那里有这样的一个“白烟囱”。就像在地球上发现了一个小外星人一样:这种生物非常奇怪而且生命力极强以至于它可以在其他的星球上生存。
在大海这样的深度,压强超过了245个大气压(24824kPa)。白烟囱的中心温度超过了329℃(752华氏度),而周围的水温仅仅2℃(35.6华氏度)。詹氏甲烷球菌就舒适地呆在其中某个85℃(185华氏度)的水中。詹氏甲烷球菌依靠矿物质而不是有机物质生存,它以二氧化碳作为碳的来源,以氢作为能量,代谢附产物为甲烷。
根据伊利诺伊大学厄巴纳分校的卡尔·伍斯(Carl Woese)的观点,詹氏甲烷球菌是生命物质第三大分支的一员。我非常喜欢卡尔,我发现他是个伟大的思想家。他曾提出,所有的生命形式可以分为三个普遍类型:真核生物,例如人类和酵母——这类生物的细胞内有一个名叫细胞核的隔间,控制中心就位于隔间中;细菌;太古细菌——作为微生物它也有和其他物种的共同之处,但还是有一些区别,它们没有容纳基因组的细胞核。传统上细菌和太古细菌被整个儿看作是一个独立王国,称为原核生物,卡尔因为试图把它们分成不同类别而受到指责和嘲弄。
卡尔受到这样多的非难,这些非难比我受到的更具人身攻击性,他变得有点消极避世,不过他还是同意了和我合作。随着詹氏甲烷球菌基因组测序的进展,卡尔变得越来越兴奋,这一点我当然能理解,只要考虑到他在这个结果上寄予了多大希望。他迫不及待地要对那些碎片数据下手,我力劝他等到我们把整个染色体拼装起来再说。幸运的是他并不需要等很长时间。仅仅几个基因表示了高温生物的特色,所以我们都很好奇是以什么来区分它们。在这种生物所能容忍的温度下,多数蛋白质结构会变性(破裂),这样的过程常常发生在50℃~60℃,所以我期盼看到为了对付高温而通过进化发生本质变化的蛋白质。我特别期望的一个变化是大量的胱氨酸。胱氨酸可以通过与别的胱氨酸结成结实的化学键来把一个蛋白质复杂的三维结构锁定到位。但是我们惊奇地发现整个氨基酸成分并没有明显的不同。我们发现与别的物种非常相似的一种甲烷球菌蛋白质只有几个具体的地方小有差异,这些并不足以说明它的耐高温性。那些推动进化的自由转变显然只能微调蛋白质的结构以防止它被高温变性。但是这些相似性并不意味着这些细菌在其他方面是我们熟悉的。这种生物仅44%的蛋白质与我们之前确定的相似,这也是我们研究的第一个太古细菌。这种生物的一些基因,包括与基本能量代谢有关的基因类似于那些生命细菌分支。但是,与此明显相反的是,许多与染色体克隆即信息处理有关的基因和基因重复与包括人类和酵母在内的真核生物相匹配得很好。这对伍斯的理论是一个极好的证明。
就在关于甲烷球菌的论文即将在《科学》上发表时,NASA(美国太空航空总署)发表了一些关于火星微生物生命的实验性证据。这激发了媒体的兴趣,我们在华盛顿的全国新闻俱乐部举行了挤得满满的记者招待会。卡尔·伍斯生病不能旅行,而他又是焦点人物,所以我安排他出席电视会议,另外,我也想表达对探险队的敬意,他们最先发现这种生物并在实验室培植它,所以我把探险队的领导霍尔格·詹纳斯(Holger Jannasch)从伍兹霍尔海洋研究所请了过来,这个细菌曾以他的名字命名,同时还有“埃尔文”号的驾驶员杜德列·福斯特(Dudley Foster)。能源部派出了副部长。TIGR基因组,包括我和海姆,以及《科学》杂志的编辑发布团坐在记者和照相机前谈论我们论文的发表。[24]
美国所有主要报纸的头版都有我们基因组的研究,世界上其他大多数报纸也是这样。《今日美国》说:“微生物被证实是生命的第三大分支”[25];《基督教科学箴言报》的大标题是“物种的进化,不同于任何其他生命的微生物”[26];《经济学人》刊定为“了不起的人”,[27]而《大众机械》则宣布“地球上的外星生命”[28],这个话题同样受到《圣荷西信使报》的追捧,他们的标题是“来自科幻小说的东西”[29]。我和我母亲早先的一次谈话让我感受到了一个主题在不断出现:当我解释我们的发现证明了生命的第三大分支是真实存在的,她问我是否它是动物、植物或者是矿物。我感到沮丧于是放弃了对她解释,但是就在发布会那天晚上,美国全国广播公司(NBC)新闻主播汤姆·布洛克(Tom Brokaw)也提出了同样的问题。《华盛顿邮报》重回到这个问题上:“不是动物不是植物也不是细菌。不要再考虑火星生物——真正的争议来自于地球上另一种生命形式的遗传密码。”[30]
我们现在有了历史上前三个发表的基因组,而且还是三个生命分支中的两个分支的第一个基因组。(第一个真核生物——酿酒酵母基因组测序在我们发表甲烷球菌基因组之前宣布完成,但是最终在《自然》上发表是在我们的论文出现后。)在幕后我们的EST工作在快速地继续着:我们已经与巴西科学家合作去推进关于血吸虫病的研究,血吸虫病又叫毕哈裂体吸虫病,它是由寄生扁形虫引起的慢性病,在发展中国家较多发生。我们也研究了基因在神经细胞中发生改变的作用,揭示了与老年痴呆症有关的基因,而且就像我在1991年最初的EST论文中预言的一样,我也使用EST方法绘制人类基因组的基因图谱。
我的兴趣从来也没有与设法找到加速人类基因组测序的方法这一目标过多背离。几亿到几十亿美元被NIH用来绘制基因组从而使测序可以最终认真地展开。如同埃希氏大肠杆菌的测序一样,绘图意味着把人类基因组片段打成大小更易操作的(10万个碱基对)复制体,它被称为细菌人造染色体或者BAC。(丹尼尔·科恩把酵母序列变得越来越大,被称为巨大酵母人造染色体,这一壮举遇到了一些问题,因为这些碎片会破裂和重新排列。)全世界的基因组界那时正在把所有的BAC以正确的顺序排列并开始对其测序。我相信如果他们坚持使用BAC的话,那么通过从几十万BAC复制体的每个端点测序遗传密码的500~600个碱基对,从而建立一个大数据库,就像我们曾对λ复制体和嗜血杆菌基因组所做的一样,他们最终就可以节省数年时间和大量金钱。当任何团队随意选择了一个BAC复制体并且测序所有的10万个碱基对后,第二步就将是简单地把序列与那个BAC端点数据库做比较。任何重叠都会被很快发现,然后工作重点就可以放在测序最小重叠的复制体上了,从而一个图谱和序列就可以同时得到了。海姆相当喜欢这个想法,于是我们把它进一步完善。李·胡德(Lee Hood)听到我讨论我们的方案也变成了一个热心的支持者,我们三个最后在《自然》上发表了这个方法。正如EST方法那样,BAC端点测序法已成为标准方法。
终于,我们的科学方法开始变得受人尊敬了,甚至我们的批评者头脑也清楚了。在南卡莱罗纳的希尔顿海德举行的一个讨论会上,威尔康信托基金会的高级官员约翰·斯蒂芬森谈到仅仅两年前,“每个人都怀疑克雷格·文特尔是否能做出他宣称要做的东西”,现在微生物基因组学界“一夜之间就变了”。国家过敏及传染病研究所的安妮·金斯伯格(Anne Ginsberg)回应了这个观点,她谈到嗜血杆菌基因组怎样带来科研的全新面貌。
随着资金从NIH和DOE流入了TIGR,基因组数据快速地流出来。甲烷球菌之后是幽门螺杆菌,全球有一半的人感染这种细菌,这种细菌呆在人的胃里,与胃炎、胃溃疡和胃癌有关系。然后是第二个太古细菌——发光太古生球菌,紧接着是博氏殊螺旋体菌,它被叫作螺旋原虫,是莱姆病(Lyme disease)的病原体,莱姆病是在美国最常见的扁虱传染病。(螺旋原虫名字的由来一方面是它的螺旋外形,另一方面是由于它能在组织中螺旋钻行。)不久我们测序了第一个疟疾染色体[31],而且测序了第二个螺旋原虫,它会导致梅毒。
我们红了,这门科学也红了,我们正在吸引更多的钱来支持我们的工作。尽管这些钱蜂拥而至,但是对于施展我的抱负来说还是远远不够。TIGR有一点仍然让大多数的科学家和基金机构深恶痛绝,即我们与HGS和比尔·黑塞尔廷的联系。有观点认为资助TIGR就会让黑塞尔廷和HGS受益,对此我深表同情却无能为力。我还是有一种被无休止的法律论战拘绊的不自由感觉,因为HGS继续盲目地试图为从我的研究所涌出的大量数据申请专利,也不管他们用不用得到这些数据。这真是疯狂,我一定得付出点什么了。