第17章 蓝色星球和新生命
有机生命在无尽的波涛之下产生,
在海洋的珍珠洞里孕育成长;
先为幽芥之形,虽球面镜下不可观,
泥上移动或水中穿梭;
他们,世代繁盛,
获得了新的能力,呈现了大的肢体……
——伊拉兹马斯·达尔文,《自然的殿堂》
从我最初研究跳动的心脏细胞起,我就被我的兴趣而不是我的同行所推动。在我离开塞雷拉的黑暗日子里,我再一次被自己的经历所鼓舞。我的一生都钟情于石油——我喜欢汽车、摩托车、机动船、帆船和飞机——结果我耗损了大量这种古生物产品,增加了我向大气排放的二氧化碳量。但是多年以后我从一个不计后果的超级燃料消费者变成了一个积极寻求替代品的关心环境的人。我要从哪儿开始新的冒险呢?哪里会有比海洋更好的地方呢?是海洋维持了我们的行星和我们的心智。如果我们想要准确评定气候变化的影响,我想我们应该搞清楚海洋里到底有什么,例如海洋酸化。我有一个计划可以做这些研究,而且作为一个额外的收益,这个计划还可以提供一个新的工具帮助我们与全球变暖作斗争。
因为我们是陆生动物,我们生活在岸上,甚至我们对气候变化影响的观点也是被我们人类中心化的生命观所支配。但是从太空看来我们的地球是蓝色的。生命开始的第一个舞台可能就是在这里,40亿~50亿年前的咸水里,在那里,当无生命分子和其他化学分子与从生命的生物化学划分出去的线交叉之时,一些我们今天定义为活着的东西出现了。关键的物质是可以自我复制的细胞,即包在脂质膜里的蛋白质和遗传物质的复杂混合体。现在海洋生物有令人称奇的多样性,从大鲸鱼到小细菌,大多数我们还不很了解,尤其是大小处于显微镜可视范围末端的微生物我们就知之更少了。解决气候变化问题的方案可以源自对生物多样性的理解以及理解它是怎样利用太阳辐射吸收二氧化碳的。我想我可以进一步利用这些知识:设法去模拟几十亿年前海洋中发生的事件,从而得到一个新的生命种类,一个极有可能的美好前景。
当我从加勒比海回来的时候,我就马上开始工作了。我建立了一个新的非营利性的研究所,基因组学促进中心(TCAG),并申请到了免税待遇。有了克雷格·文特尔科学基金(JCVSF)的支持以及来自出售人类基因组科学、棣文萨酵素公司和塞雷拉的创立者的股票资金,我现在可以启动它了。我从塞雷拉雇用了希瑟、林恩和克里斯,我们开始在我的马里兰波托马克河的地下室里工作,一直到我能租到一个新的工作场所。我有几个科学想法想要尽快地实行。
我最关心的事情就是把我的环境计划建立并运作起来。无可置疑的科学证据表明每年我们向大气排入的35亿吨的二氧化碳正在改变着全球的气候模式,简而言之这种改变是现代生命所不能承受的。但是我想做的不仅仅是少使用些石油或汽油或者安装一个太阳能板。我认为基因组学可以提供一些独特的东西。海洋生物的霰弹枪测序法可以简要反映现在海洋的健康状况和为日后的监测提供帮助,同时也可以帮助揭示创造我们绝大部分大气的微生物的性质。海洋微生物的代谢机制也可能会给我们提供一个新的方法制作替代燃料,比如氢、甲烷或者乙醇。
我成立了生物替代能源研究所(IBEA),聘用海姆·史密斯作为它的科学顾问。开展环境基因组学研究需要大量的DNA测序装置,我对此是有先见之明的。我不得不劝说我的基金委员会去冒一个4千万美元的风险,建立一个与我们在塞雷拉时相当的新装置。我们建立了一个新的名叫JCVSF联合技术中心(JTC)的非营利性组织,该组织也同时为TIGR测序。就在希瑟和她的团队搬进马里兰州洛克维尔一座临时建筑物时,一座新的11000平方米的研究建筑在我几年前用捐助经费购买的土地上开工了。所雇用的员工很大比例是富有进取精神的,由于塞雷拉的大幅裁员,我们的企业发展迅速。很多我以前的朋友和同事过来加入我的新的研究组织。
就在环境保护第一次成为我的研究重点的时候,我在基因组科研前线还有一些未完成的事情要做。我想利用我的新式基因组学实验室进一步发展我们已有的成就,把我们对它的理解转化为药物,我也想继续进行人类基因组测序的研究并充分考虑它的伦理含义。同样重要的,也是出于自尊,我也想与来自政府支持的基因组科学家的攻击和批评彻底做一个了结。在基因组竞争结束后,大家都继续自己的生活,但是事情并没有完,随着争夺单独测序人类基因组的荣誉的斗争的继续,敌意变得更激烈了。
也许最为臭名昭著的例子发生在2002年4月,当时《分子生物学杂志》[1]发表了题为《人类基因组计划:一个竞赛者的观点》的文章。这篇文章是由华盛顿大学的梅纳德·奥尔森撰写的,它曾被他的同事称为“基因组计划的良心”[2]。在薄薄的面纱下他打算把荣誉从我这里拿走给他的同事,他又回到我们的方法是否是真正的新方法这个老生常谈的问题上来了:“文特尔声称,他‘发明’的全基因测序法是基于他领导测序了一个小细菌基因组,该基因组几乎没有重复。”接下来他又断言我是个骗子:“与文特尔在1998年6月所做的宣誓证词不符,塞雷拉把它的数据全部秘而不宣。”奥尔森的确给了我一个荣誉,因为“塞雷拉一开始毫无疑问地加速了第一次人类基因组测序,使其提前了两年完成。”
在此之前我就写了一份对兰德、萨斯顿和沃特斯顿的《分子生物学杂志》文章的辩驳[3],文章认为他们应该得到单独享有测序人类基因组的荣誉,因为我的全基因组霰弹枪法测序已经失败了[4]。这反过来引得兰德等人在一篇非科学的评论文章里使用一些花招提出了同样的要求[5]。曾在TIGR和塞雷拉做过基因组拼接的格兰杰·萨顿对兰德特别生气,因为他认为就算萨斯顿和沃特斯顿没有理解塞雷拉的成就(毕竟他们两个是生物学家,在数学和计算机方面不是专家),兰德一定应该理解了。不仅因为他有很深的数学背景,而且因为他自己的人正在我们工作的基础上,发展一个名叫阿拉喀涅的他们版本的全基因组霰弹枪拼接器。
格兰杰认为那时我们已和好很久了。在《分子生物学杂志》文章发表较早之前的2001年6月,在克林顿总统的激励下,来自塞雷拉和国际人类基因组协会的计算生物学家们以中立方的身份(位于马里兰的切维蔡斯霍华·休斯医学会)讨论测序和装配序列。就像《纽约时报》报道的一样:“没有双方领导出席的计算生物学家间的聚会气氛是热烈的。”[6]格兰杰向与会者说明了为什么在完全不吸收公共数据的情况下,就可以重新召集塞雷拉人类基因组并得到更好的结果是可能的。遭受到接踵而来的攻击后,格兰杰的狂怒是可以理解的:那篇在《分子生物学杂志》论文的结果一年之前就已经被在切维蔡斯会议提出的数据驳倒了,“我们已经提出了一些相当令人信服的材料说明全基因组霰弹枪测序法是多么好了”。
事实上,到目前为止,在公共计划那一方还是有一些重要人物是相信我们的。其中之一是加州大学圣克鲁兹的吉姆·肯特(Jim Kent),这个留着胡子的粗壮的人物被认为是一个明星选手,他曾只用了四周时间就独自把在一百台奔腾Ⅲ电脑上运转的渔叉拼接软件的程序组合在了一起,正好赶上白宫发布会。他做这一切时还是个研究生[7]。我对他的这些成就印象深刻。
肯特并不同意那篇在《分子生物学杂志》文章的结论,因为对他来说,公众和塞雷拉数据[8]之间的差异是很明显的——甚至在我们测序老鼠基因组之前——“兰德等人在《分子生物学杂志》文章中设想的公共数据的重组可能是不完全正确的。”他下结论说,“老实说,我的确认为塞雷拉的拼接工作大体上比我们的好(你应该希望这样,因为除了他们自己所做的,他们还可以看到我们的数据)。”他补充说,兰德自己的阿拉喀涅拼接器也是与塞雷拉所用的非常相仿,“它从另一角度暗示了塞雷拉方法虽然带有某种限制,基本上运作得还不错。”
回忆起当我们结束人类基因组接着测序老鼠时,我们没有理会基因银行中有限的公共计划数据,而仅仅使用了我们自己的霰弹枪数据,所以我们又一次躲过了那些对我们真正的成就所提出的连珠炮似的诡辩和歪曲。利用一个加强的拼接器我们最终得到了比我们曾从人类基因组那里获得的更好的结果。阿里·帕特诺斯是当时的G5之一,重新看过兰德等人的《分子生物学杂志》文章后,他总结说文章“坦白地说糟透了,他们的方法是有效的,他们对老鼠所做的工作是最好的证明。”甚至我的老对手迈克·摩根也承认“你在否决某些人时一定要非常确定,因为通常它会起反作用。所有的那些文章不管怎样都会适得其反。”
虽然我发表了第二篇辩驳的文章[9],但是我一直都很清楚,数据是赢得科学争论的唯一方法。我与迈克·亨克皮勒在ABI进行了接触;他也同样被这些不断的非难搞得心烦意乱,也想确保真实历史记录。鉴于我曾在阿普莱拉的遭遇和与托尼·怀特关于数据发表的争吵,我在向ABI购买3千万美元新DNA测序仪时附加了一个具有法律效力的合同,据此我们可以出版塞雷拉的数据和在公共领域不受约束地使用这些数据。(在2005年,塞雷拉将停止出售基因组信息而使它全部进入公有领域。)另外,我的研究所将会复制完整的基因组数据用以学术研究。一旦这个协定签署后,我们就与塞雷拉剩下的科学家合作,我们将会把塞雷拉的整个基因组拼接与包括公共计划的“终结”版本在内的其他版本的基因组进行比较。
索林·伊斯特里以前是吉恩·梅尔斯领导的一个团队的高级成员,现在是塞雷拉生物信息学的领头人,他担任新的合作计划的领导。数据分析大约会花费一年多的时间,而且要发展很多新的计算工具来进行第一次整个人类基因组的比较。我和《分子生物学杂志》的编辑同享这一计划,他很高兴我们将使所有的数据都可供使用,而且他说在我们的文章完成后他愿意发表它,也乐意帮助我们结束那些口舌之争。
那些数据是强有力的,它证明了全基因组霰弹枪法测序是精确的。当这项工作最后在2004年初发表时,它使我们可以精确地比较公开和非公开的基因组:塞雷拉的结果提供了更多各基因组的顺序和位置,但是公共计划的序列提供了更好的重复片段覆盖。政府和威尔康信托基金实验室还在继续完善他们的基因组序列,这件事将花费他们超过4年的时间和大约1亿美元(或许更多,具体的数目还不知道)。对比证实了公共数据每一次质量的改进都是对塞雷拉唯一拼接的逼近,不管是从品质还是精确度而言(各基因组顺序和位置)。塞雷拉的拼接事实上弥补了“终结”基因组中很多剩余的缺口,而该基因组序列是在2004年由公共计划在《自然》上大吹大擂地宣布的[10]。我们没有召开记者招待会就发表了我们的文章。这些数据本身就够有力的了[11]。
随着公开论战的最终结束,我打算开启一个人类基因组研究的新局面。在发表了人类基因组装配分析文章之后,TCAG(在与三个非营利性的研究所合并以后,它现在更名为文特尔研究所)已经开始着手排序和分析单个个体的基因组了。这个个体就是我。之所以选择我是出于科学研究的考虑,而不是自负或傲慢。早期包括塞雷拉基因组的合成版本,过分低估了人类变种的数目。而政府所支持项目的基因组是由来自有限个体的片段(复制体)拼接起来的,所以看不到遗传变化。塞雷拉的基因组来自于五个个体基因组的共有序列,包括我在内。我们使用赢者通吃的原理:我们的基因组使用在五个人中出现次数最多的部分。这也同样失去了由indels(插入/缺失多态性)导致的变种,indels是遗传密码中超过一个字母被改变的地方。当在一个个体DNA中插入/缺失一个较大的片段时,拼接程序并不记录这一变化,除非它发生在序列的多数部分。
换句话说我们双方在2000年6月大张旗鼓地公之于众的基因组并没有说明我们一开始想要解读它们的一个关键原因:一个由不同人混合或拼接的DNA抹去了个体差异,而这些个体差异会让我们一些人易患癌症、心脏病或其他的疾病(尽管已经有研究工作绘制过单个字母的变化图——单核苷酸多态性)。早期的基因组仅仅关注一个人的遗传密码的一个复制体,而事实上我们继承了分别来自父母的两个。在一些位置上,父母中的一方的基因起主要作用,而在另外一些地方是另一方基因起主要作用。我们需要检查所有60亿而不是30亿个字母的编码,才能得到最准确的人类基因组序列的真正的面目。
因为很明显的原因是,我们从来没有宣布说我和海姆是最初测序的两个捐献DNA的人,同时我们也没有刻意隐瞒。当调查TV新闻杂志《60分钟》报道了基因组竞赛时,它揭露说我是DNA捐献者之一;但是直到后来当《纽约时报》的尼克·韦德(Nick Wade)来采访我的新研究所时,我的基因组才真正变成了新闻。我对当时的谈话没有多想,直到接下来的周六早上当《纽约时报》送到我家时我才注意到它的头版报道《科学家披露基因组的秘密:它是他的》[12]。这个标题是不正确的,但是我猜想这有助于证明这样一个事实,那就是只有《纽约时报》说它是新闻时它才成为新闻。
失明发现
媒体曾兴致勃勃地报道过关于我的基因组的一些令人沮丧的发现。一个头版报道说:“应《华尔街日报》的要求,文特尔博士的同事检查了他的一些与健康风险相联系的特定基因。在一个电话会议中文特尔得知,他的基因表示他失明的可能性很大。当你研究你的DNA时,你的生命可能会以如此方式呈现。”[13]
这份报纸提出,在我的基因中有一个名叫补足因子H(CFN)的基因有一个单字母的变化(一个名叫rs1061170的SNP),一些研究把它和“非常高”的患黄斑变性可能性相联系,黄斑变性是一个导致视网膜中心变性的常见病,它会毁坏中心视觉的功能。
在我的两个CFH基因复制体中,有一个有这样的变异,这使我患此疾病的可能性增加了3~4倍。如果两个复制体都发生变异的话,可能性就会上升到10倍以上。
早期的研究认为CFH可能在防止血管发炎和损坏方面起关键作用,所以它的变异会导致发炎从而致盲。因子H的一个已知的性质是它管理补足系统的活化,补足系统是一个相关蛋白质的集合,它是身体的第一线的防御体系——一个先天的体系——它攻击外来的入侵者同时避免对于任何健康细胞“自身”的攻击。
可以说我的基因组在塞雷拉基因组中占了主要部分。就像在第十四章中提到的,基因组拼接小组希望能较多覆盖五个人中某个人的基因组,以确保我们能得到一个精确的拼接。虽然海姆的DNA已经在高质量的5万碱基对文库中了,但是因为早期的来自于我的基因组的测序文库在2000碱基对和1万碱基对范围最有效,这些文库被选为3倍测序范围。总的来说,我的DNA在最后的塞雷拉基因组中占据了60%。
癌症和我的基因组
很多人生来就有一个变异从而使他们更容易发生肿瘤。一般来说,一些单核苷酸多态性(SNP)——单字母拼写错误——可以明显地改变一个基因的行为,同时其他的可能有更微妙的功能效果,使个体更易于患与其遗传背景和环境一致的疾病(例如,有一些基因会增加吸烟者患肺癌的概率,但是对不吸烟的人没有影响。)还有一些则根本不起任何作用(不具功能性的SNP)。
基因编码蛋白质,在这三个SNP类型中,最有趣的是那些改变蛋白质结构,从而通过改变氨基酸蛋白质的一个基本单位来发挥作用的类型。它们被叫作“错义SNP”。目前为止,好消息是,通过检查寻找我的基因组中与癌症有关的四个基因——Her2、Tp53、PIK3CA和RBL2——的变异后,我们发现了两个错义SNP,它们与癌症没有已知的联系,以及两个未知效用的异常SNP。其中一个SNP发生在我们称之为保守位的PIK3CA上,它是蛋白质很少发生变化的部分,大概是因为它太重要了。
没有数据能说明这个特别的变化是否会使我陷于更大的危险。但是PIK3CA属于一个重要的基因族,该基因族编码名为脂质激酶的蛋白质,该酶修改脂肪分子并指导细胞生长、变形和移动。我们知道有30%的直肠癌、胃癌和恶性胶质瘤的发生与PIK3CA变异有关,在较小程度上,它也与乳腺癌和肺癌有关。PIK3CA变异还会导致脑瘤的自发产生。我可能会更进一步研究它。
获得一个人的基因组序列这件事也引发了一场争论,就像基因组学中很多其他问题一样。塞雷拉科学顾问团的成员们对于识别任何捐献者的身份感到不安。阿瑟·卡普兰(Art Caplan)把这个计划比作无名战士的坟墓,它是神圣不可知的。但是整个现代军事DNA法医学事实上将永远不会有“未知”的未来。就像许多早期的医学争论一样,从心脏移植到试管婴儿,大家的态度随着时间的流逝发生了翻天覆地的变化。对此最好的说明是,现在吉姆·沃森也让一家新开的商业风险投资公司——454生命科学公司——测序他的基因组序列了,基于马西斯·乌伦(Mathis Uhlen)开创性研究焦磷酸测序的工作,这家公司创造了一个测序仪,马西斯的研究工作是在斯德哥尔摩完成的。
自从我牵扯进这项计划的事情被曝光以来,我每次都被问及我们到底在我的基因组序列里获知了些什么。(事实上直到2006年,我的密码中所有60亿个碱基对的读取才告完成。)2007年,我们把第一个现代人的倍数染色体基因组序列发表在一个免费开放的杂志《公共科学图书馆生物学》上[14]。这个不可思议的知识真的困扰你了吗?你害怕把它贴在网上让全世界的人看吗?在这本书里,我总在主张和解释我们的基因组很少能给出确定的答案,它们所能告诉我们的大概最好的表达就是某种事情发生的可能性有多大。只有当我们得到我们所有基因含义的那个大的图景时——这将会花费数10年的时间——我们才可能指出它们是否可以告诉我们,我们有35%的概率患乳腺癌或结肠癌或其他什么。
对我的基因组来说,我最大的失望是在2005年,当时我被诊断有两种皮肤癌——黑素瘤和基底细胞癌。幸运的是两者发现得都较早。然而我并没有认真地组织去分析什么导致这两个肿瘤的基因突变,这本将是件令人神往的事情:看到我的基因组是怎样对这些基因失去控制的,我的DNA是怎样让我这样倒霉以至于我的细胞开始不顾我整个身体的健康而自顾自地繁殖。
但我还是可以大体上知道我本应该看到些什么。癌症被认为是由一个基因缺陷的堆积引起的,一个流行的观点认为这个基因缺陷在干细胞上有最大的影响,干细胞为特定的组织和器官提供细胞类型。对结肠癌来说,第一步是在一个名叫ras的成长基因上有一个缺陷,该成长基因使细胞繁殖形成一个息肉,即癌变前的增长。一般来说,息肉细胞中其他的增长控制基因也会遭到破坏,随着肿块的增大,更多的变异以一个极大的概率形成,因为快速繁殖的细胞更容易携带变异甚至“增变”基因,这推进了DNA的错误率。这就是我以前的一名同事——来自约翰·霍普金斯的伯特·佛哥斯坦(Bert Vogelstein)提出的多击模型。他可以说是当今世界上最重要的癌症研究员。在文特尔研究所,我们有一个由鲍勃·施特劳斯伯格指导的正在进行的与几个著名研究团队的较大合作项目,其中就包括佛哥斯坦的团队。在该合作项目中,我们正在研究癌细胞中基因的体细胞变化。体细胞变化是由诸如毒素和辐射等环境因素导致的非生殖细胞中基因的变异引起的。这些可能在一个个体身上导致癌症,但是它是非遗传的癌症形式,不可能由父母传递给下一代。
仅仅3%~5%的癌是由从父母那里继承了遗传缺陷引起的;剩下的95%~97%是由体细胞基因改变引起的。就在很多研究团体正在寻找与癌症起因有关的基因变化时,我们主要关注可能有效治愈的肿瘤的基因变化。酪氨酸激酶受体是我们细胞中某种关键的细胞生长调节蛋白。最近高效癌症化疗剂已经可以阻断酪氨酸激酶受体,但是它们的效力常常依赖于出现在受体基因中的变异类型。于是我们就开始测序酪氨酸激酶受体族基因以寻找体细胞突变。我们的确不需要看得很远:在研究之初我们检查了脑瘤中的基因,很快就发现了几个独特的突变。我们现在已经把研究扩展到了几个包括乳腺癌和结肠癌在内的其他的癌症类型。
测序和癌症
可以想象,在未来,医生要使用“个人化药品”治疗癌症,这种个人化药品得益于新一代DNA解读机的研究,该机器可以预言哪些肺癌患者适合某一类新药。非小细胞肺癌在世界范围内占据了癌症死亡的最大比例,早期的研究显示,有1/4的患者肿瘤细胞内有额外的表皮生长因子受体(EGFR)基因的复制体,从而更容易对诸如吉非替尼和埃罗替尼的抗化剂药物产生疗效。康涅狄格州的454生命科学公司与波士顿附近的达纳法贝尔癌症研究中心和布罗德研究所的科学家们合作,他们使用一次性可以产生成百上千个DNA序列的454测序法去分析肿瘤样本中的EGFR基因突变,基因样本来自于22个肺癌患者,这些肺癌患者接受了EGFR抗化剂的治疗,他们期望找到对该治疗方法最有效的患者。
就在新设备中的测序仪制作大量我的基因组片段时,我把注意力转向了一个新计划,这个计划合并了我一生中的两个最爱:科学和航海。这个概念是很简单的:舀一些海水然后用很细的过滤器把所有在海中生存的微生物都滤出来,同时分离所有来自这些微生物的DNA,然后得到这些DNA的霰弹枪文库序列,一次测序几千到几百万个序列,把这些序列拼接成染色体和染色体片段,最后为基因和代谢途径分析序列从而准确地理解在这片海里到底生活着些什么。我们不打算搜寻一个特别的生命类型,我们将得到一滴海水中微生物差异的快照——海洋自己的基因组。
对我而言这是一个我研究工作的直接扩展,该研究从EST方法到全基因霰弹枪法到史上第一个有机体的基因组,然后当然到人类基因组。同样和以前的计划一样,这个计划也遭遇过质疑。很多人确定霰弹枪法测序海水是不会成功的,因为我们这是在测序一盆含有大量不同物种的汤。回到拼图游戏类比上来,这就像同时玩上千个拼图游戏,把所有的碎片都混合在一起,然后尽力同时解决所有的单个难题。
然而从以前在TIGR的基因组测序经历中,我已知道我们的计算工具可以从这样复杂的混合物中准确地拼接不止一个完整的基因组。在1996年,我们就收到过一个从患者身上分离出来的据信为肺炎链球菌种。在测序该细菌基因组时,拼接程序揭示了两个分离的但非常接近的相关细菌种类基因组,而不是一个。这一经历和很多的其他经历——不仅仅是把人类270万个DNA片段装配回人类染色体——我确信一个唯一的基因组序列会提供一个该基因组序列唯一的精确拼接。
为了说服能源部的一个资助评审委员会同意资助我的海洋试验计划,我做了一个简单的示范:我把每一个已测序的微生物基因组(当时大约是100个基因组)粉碎成不超过1000个碱基对长的碎片。然后我把这些碎片混合在一起放在拼接器上过一遍。仔细检查过数据后发现我们的程序把序列准确地重建成每一个个体的基因组,一个错误的拼接也没有。这给评审委员会留下了深刻的印象,但是他们还是不能肯定这个程序会在海洋微生物上也有效。
我决定设计一个试验性实验来指导一个真正的测试,资金将再一次由我的基金资助。与百慕大生物研究站的头目安东尼·纳普(Anthony H.Knapp)接触后,他安排我实验室的杰夫·霍夫曼(Jeff Hoffman)采取一些马尾藻海的水样。我们故意选择马尾藻海是因为它被认为是一个海洋沙漠,营养缺乏,所以没有太多的微生物。那些海水的特色就是微生物极少。
一旦包含有首批样品的微生物的过滤器在测序试验室被处理并且数据检查后,我就知道我们成功了。我们已经打开了一扇对现代科学知之甚少的世界之门。从日照水面到海底深谷到处有人类难以想象的生物,包含了1030个数量级单细胞生物和1031个数量级的病毒。总计有1030个生物体,为这个星球上的每个人描绘了百万个独特的种类或者10万亿亿个生物。
对于大多数科学,我们能认识的只是我们能看到或测量到的。例如微生物,对于我们可以培养的我们知道很多。问题是只有不到1%的相当少的微生物可以被分离和培养,而99%的不能被实验室培养的微生物,我们对此一无所知。事实上对很多方面来说,它们就像不存在一样。想到我的霰弹枪技术将会揭示我们曾错过的99%的生命,我就感到激动万分。现在我可以打开海洋的密码,它随着不同的海而变化,不管它是来自于海床的火山口、软珊瑚花园的附近还是海底的火山顶上。
从那时到现在我们已经发现了几万个新的物种,它们很多是奇特怪异的。我们发现的超过130万个基因都来自于仅200公升的浅表海水中。将这个数字放到相关背景中,你会发现第一批样品的分析就使这个星球上的已知基因多了一倍。在这个我们曾认为是世上最贫瘠的水体中发现如此庞大数量的生物对进化生物学提出了极大的挑战。
这项研究也有它的实际意义。我们分离的大约2万个蛋白质参与了氢加工,另外有800个新基因利用了光的能量。这一数据使科学家已知的光感受器(例如在我们眼睛背后发现的那些成分)的数目翻了两番,这意味着某种新类型的光驱动生物学可能会解释马尾藻海出乎意料的高多样性。
本来我们应该继续在马尾藻海采样,但是我想看看在世界不同的地方是否有很大的差异。于是在文特尔研究所基金、戈登和贝蒂·摩尔基金会、美国能源部和发现频道的资助下,魔法师2号远征开始了。我的游艇经过了特别的改装,已经适合环球航行,因此她可以跨海航行并日夜收集水样。这次发现之旅——以及自我发现——引领了一个新领域,环境基因组学[15],该领域被誉为是新奇和刺激的。我感到这次努力的意义即使不超过测序人类基因组的长远影响,也与它旗鼓相当。
两年了,当魔术师2号从哈里法克斯、新斯科舍到东热带太平洋到处采样时,我飞来飞去不时地加入到船员组中。特别是我发现了一条水路——直穿过巴拿马运河到可可斯岛然后到加拉帕戈斯——这是种特别的转换体验,就像我把基因组学和写这本书以及和鲨鱼一起潜水结合起来,所有这些都发生在电视摄像机的注视下。处于一次冒险的中心是令人刺激的,这次冒险部分是在19世纪猎犬号和挑战者号旅程的鼓舞下进行的。
为了收集DNA,我们每200海里采集一次海水样本,然后通过越来越细的过滤器过滤海水,收集细菌然后收集病毒。在被空运到洛克维尔测序之前,过滤器被保存在甲板上的一台冰箱里。在洛克维尔,由史部·尤冉峰(Shibu Yooseph)领导的一个小组利用非凡的计算能力——包括曾用来设计动画《史莱克》和模拟氢弹爆炸的超级计算机——来重构和分析大量的霰弹枪微生物DNA数据。他把每一个DNA片段都和其他的相比较,从而产生相关的序列串和预测数据中的蛋白质。在拉荷亚的索尔克研究所,杰勒德·曼宁(Gerard Manning)也用此数据与蛋白质数据库(Pfam)相比较,后者是一个所有已知蛋白质族的特征谱集合,他们利用的是来自于加利福尼亚卡尔斯巴德的一家名叫时代逻辑的公司的硬件“加速者”,在它的帮助下,杰勒德的小组做了将近3.5亿次的比较,相比以前的工作,这提高了一个或两个数量级。最后的计算花费了两个星期,但是如果用一个标准的计算机来完成这些工作将需要一个世纪。得到的数据简直让人喘不上气来。在2007年发表在《公共科学图书馆生物学》上的三篇文章里,我的团队在道格·鲁希(Doug Rusch)的领导下描述了400个新发现的微生物和600万个新基因,这使当时科学所知的数量增加了一倍[16]。
这次探险对已经建立的生命之树的观点形成巨大冲击。人们曾经以为我们自己眼睛中的光探测蛋白色素是相对罕见的。但是我们的基因拉网显示所有海面上的生物都产生探测有色光的光视紫质。这些蛋白质帮助微生物利用日光,就像植物那样,但是没有光合作用。它们使用它们的“光收获”机制把带电原子抽运到相当于太阳能电池的装置中。蓝绿电池变体在不同的环境下被发现——蓝光品种主要在公海中被发现,比如说紫蓝色的马尾藻海,绿光品种生活在海岸附近。
在环球航行中我的小组发现了一些新蛋白质,其中一些保护微生物不受紫外射线的伤害,另外一些与紫外光伤害修复有关。我们发现某些蛋白质特征在海中比在陆上得到更多的肯定。例如,陆生革兰阳性细菌以其强壮的孢子而闻名,但是它的海生亲戚却没有这个特征。鞭毛是驱动细菌前进的鞭状延伸,菌毛是细菌间用来交换遗传物质的一种短的延伸物(相当于微生物的性器官),它们在海上出现的频率也不高。
我们也很惊奇地发现了很多种被认为是特定于某一生命王国的蛋白质,它们在水中也是更为广泛分布的。例如谷氨酰胺合成酶(GS),这种蛋白质在氮新陈代谢中充当一个关键的角色。超过9000个GS或类似GS的序列被揭示。很多是我们称之为Ⅱ型GS(这种蛋白质的三个基本类型之一)。这是一个意外的发现,因为Ⅱ型GS与类似于我们自己的细胞一样的真核细胞联系更多,而与大多数我们分析的过滤器中的“简单”生命——细菌和病毒——无关。
在所有我们研究的蛋白质家族中,激酶族是特别有意思的。蛋白质激酶是一种管理我们身体中最基本的细胞运作的酵素。它们通过连接化学物质磷酸盐团,来控制蛋白质的活性以及这些细胞中的小分子。由于它们的重要性,它们也是治疗癌症和其他疾病的关键靶。以前,大家认为应该在不同的生命王国里发现不同的激酶族:我们的细胞使用真核细胞蛋白激酶(ePK),而细菌依赖组氨酸激酶。然而我们发现类ePK激酶在细菌中普遍存在,而且事实上比组氨酸激酶还要普遍。同样也发现在所有的激酶家族中十个关键的蛋白质特性是相同的,这显示它们是处于决定一个激酶是什么的核心地位。这样被大量生物分享的基因的数据可以被用来作为一台时间机器:我们可以制造一定也在一个共同的祖先身上作用的激酶,在这个特别的情况下,也就是推导出几个蛋白质家族,该家族一定在几十亿年前三种主要的生命分离之时就存在了。
关于气候变化方面,魔法师2号也有有趣的发现。一些海域比其他海域有更多的低碳生物。传统上认为这些海洋生物数量可以表示当地的营养水平,所以大量的生物意味着富含营养的水域。但是事实可能不是这么简单。细菌病毒——噬菌体——可能事实上对保持某些海域微生物的低水平起至关重要的作用。如果我们可以更好地理解这种关系,知道怎样抑制这种病毒,或者让细菌可以抵抗噬菌体的攻击,那么就会有更多的这种微生物可以吸收二氧化碳从而减少气候变化。这种新理解引出了更加明显的可能性。
在发现数百万新基因的基础上,我们开始装配一个程序包以开始新的进化阶段。在地球的大气中微生物扮演了一个极其重要的角色。多亏了光合作用,树木吸收二氧化碳。海洋也是一样,但要涉及更多的机制。我们是否可以设计新的生物,使其在一家耗煤工厂的减排体系中生长,并且吸收它的二氧化碳?我们是否能利用微生物和它们非凡的生物化学功能去改变大气成分?我们是否可以促成星球的微生物肺让它深呼吸?这并不像听起来那样疯狂。毕竟我们把现在呼吸的空气中的氧气归功于20亿年前微生物数量的一次变化。这些微生物不得不停止吸氧气以免被毒害,而它们排出的“氧气废气”变成了大气的一部分。为了与燃烧化石燃料的影响相抵消,或许土壤微生物可以用来摄取更多的碳。组成地球的扩展肺的群落有可能集结在矿坑、深层水体或沙漠中。
第一步是解读微生物、植物以及其他成千上万的可以处理污染的生物的基因组,这些污染物包括二氧化碳、放射性核素还有重金属。很多这样的基因组已经被测序了,大多数是用我的方法,很多是我的小组做的。我也扩展了一下我在马尾藻海用的方法,该扩展被用来研究曼哈顿的纽约人每天呼吸的空气。纽约现在是我们空气基因组计划的试验台,在它的上空我希望确认细菌、真菌和病毒这些随着我们的呼吸就会进入我们肺里的微生物。当我写这本书时,很多的微生物正在被测序。利用这些无数微生物集合的信息,我不仅可以研究监视空气质量和监视生物恐怖主义的新方法,而且还可以调查是否有利用这些生物及其精细化学作用获利的方法。
我已经有一份长长的名单,名单里是有希望改善全球变暖影响的微生物。泥煤沼泽里拥有荚膜甲基球菌,它们循环出温室气体甲烷。沼泽红假单胞菌是一种土壤细菌,它把二氧化碳转化为细胞材料,把氮气转化为氨水并且还能生成氢气。欧洲亚硝化单胞菌和念珠藻也参与固氮作用。在海生微生物中,假微型海链藻是一种硅藻,它可以把碳转化到海底深处。这些都可以对清理我们生病的大气发挥作用。
我们可以继续深入研究。我们是否可以利用我们当前的知识去设计和用化学方法创建一种新物种的染色体,从而产生第一个自我复制的人工生命体,该人工生命体可以用来充当新的替代能源的来源?这个提议肯定会导致基础生物学家的反感,但是这只是对上千年来无数人利用生物学过程制造有用产品的早期研究的自然扩展。生物技术可以上溯到几千年前,当时的酿酒发酵制作了第一种生物燃料:酒精。
已有证据表明这些微生物可以在石化工业方面实现革命性突破。杜邦是许多传统的石化公司之一,它依赖便宜的石油供给,把石油转化为各种聚合物,这些聚合物在衣物、地毯、绳子和防弹背心中广泛使用。现在他们正在开展最新的商业试验,该试验从使用石油转换到使用饲养在糖培养基上的工程细菌作为一个可更新的碳原料,他们采用的方法和植物从空气中固定二氧化碳的方法相同。
杜邦的科学家们和帕洛阿尔托的杰能科合作并修改了埃希氏大肠杆菌使其把葡萄糖转化为名叫丙二醇的化合物。在田纳西的工厂里,数吨这种细菌利用玉米糖来制作合成物——索罗娜聚合物[32],该合成物被公司用来制作防污地毯和衣物。这只是开始。假如我们能够设计细菌来生产燃料,例如丁烷、丙烷或者甚至是辛烷,而原料都是糖,那结果会怎样?或者更好,假设我们可以设计它们使用纤维素去工作,纤维素是一种糖聚合体,它是植物和树的构成成分,那结果又会是怎样?这种幻想技术将会改变现实世界。我们星球上有限的石油资源已经导致了财富分配的极大不均,引起燃料战争,挑战我们的国家安全,排放大量的污染气体以及导致从风暴到洪水和干旱的气候变化等一系列问题。
我自己的合成人工基因组之梦可以上溯到1995年。在TIGR完成了历史上头两次的基因组测序后,我们承担了一个主要的研究,该研究试图确定一个单独细胞生存所需的最小基因集合。这离创造一个仅仅包含理论预测生命所需的基因的合成染色体只有一步之遥。我希望这种对生命基本形式的认识可以为我们达到控制一个生物体的基因格局的新水平铺平道路。
在我实施这样一个大胆的计划之前,我请人对凭空制造一个基因组这样的想法进行了伦理学的评审。这项活动需要超过18个月的时间去征求绝大多数宗教团体的意见。就在我们的方法证明是科学可行的时候,一些担心出现了,包括从该技术潜在的危险(生物武器、不可预料的环境影响)到它对我们的生命意义概念提出的挑战等各个方面。到评审完成的时候,我已经发动了塞雷拉开始测序人类基因组了。人造基因组的问题就不得不暂缓一步了。
在结束塞雷拉工作之后,我又踌躇满志地回到了合成生命这个问题上。2003年9月3日星期五,我被阿里·帕特诺斯召集去康涅狄格大道800号的椭圆屋饭店参加一个紧急的午餐会议,椭圆屋饭店离宾夕法尼亚大道上的椭圆办公室只有几个街区远。我把车停在饭店门口的路边,之后的会议或许可以最好地概述下一个里程碑。阿里·帕特诺斯曾促成基因组战争的停战,后来他继续为能源部生物理事会工作。参加会议的有他的老板——能源部科学办公室主任雷蒙德·李·奥巴赫(Raymond Lee Orbach);总统科学顾问兼科技政策办公室主任约翰·马伯格(John H.Marburger Ⅲ);白宫国土安全办公室生物恐怖主义、研究和发展主管劳伦斯·克尔(Lawrence Kerr);另外还有一个能源部官员和我。值得注意的是这样一个高层会议只是在两小时前才开始准备的。
与会人员热烈讨论了由能源部资助的合成基因组计划的突破。该计划由我的替代能源研究所承担(在2004年IBEA并入了文特尔研究所)。该计划耗资300万美元去“发展一个合成染色体”,即创造一个完全人造染色体的可以自我复制的生命的第一步。在会议召开的前一天,我打电话给阿里告诉他,我们的小组主要是海姆·史密斯和克莱德·哈奇森(Clyde Hutchison)在为一个小基因组合成DNA的工作上取得了跳跃性进展,该工作使我们的合成物种计划向前迈出了一步。我们已经最终得到了生物活性φ-X174合成物,它是一种抗生素,感染埃希氏大肠杆菌。为此我们已经过了5年的尝试,但是没有任何成功。
我一直都把φ-X174合成看作是为人造物种创造染色体重要的一步,也是我们更大的目标。φ-X174在一个细菌里成长的必要条件是在它的DNA密码里每一个碱基对都必须正确:一点都不能错。我指出除非我们能够正确拼接φ-X174的5000多个碱基对,否则我们将永远都不能合成一个由50万个碱基对组成的最小的细菌染色体。有几次我们已经产出了大小恰当的分子但是因为它不能传染,所以我们知道它的DNA中有错误。在我们组建了这个新的研究所和研究队伍并且设计了几种合成策略后,这个计划慢慢地向前推进了。我自己心里确定,我们能够用一个系统的方法仔细分析这个问题时,我们是会成功的。例如我坚持在每一步都测序它的DNA,这样我们就可以确定哪里产生了错误,并且可以指出怎样克服它们。这种步步为营的方法把主观臆测从我们的科学研究里剔除了。
海姆和克莱德通过理解每一个化学和酶反应的细节把这一原则推广得更远。在一次马拉松式的会议上,他们解决了这个最后的问题。虽然他们还不得不测验这组人造病毒的传染性,但他们对合成很有信心,并安排与我共进晚餐来讨论下一步的研究。我们三个人在我房子附近的一家名叫珍妮·米歇尔(Jean Michel)的法国餐馆里碰面。他们都像年轻的博士后同事那样,脸上洋溢着那种只有知道自己解决了一个问题才有的兴奋表情。但是还有两个关键的步骤留待证明他们已经取得了成功:他们必须演示这个合成的病毒是有传染性的,以此证明我们有一些东西是真正起作用的,他们也必须对这个合成的噬菌体基因组进行测序,以此证明我们并没有使用变体——φ-X174密码中过剩的碱基对或其他病毒的污染。海姆说传染性一经测试完他就会和我联系。
我们重建的病毒的确杀死了细菌,就像真的一样,我又一次来到一家餐厅里了,这次是与来自政府的科学家谈论那些成就的意义。我们被带到我们的餐桌前,我很快就开始介绍我们的工作,从最小基因组计划到φ-X174合成。马伯格(Marburger)不停地打断介绍提出问题,显示了他对该计划的前景有很好的理解。了解到我们或许可以在一周之内合成任意少于1万个碱基对的病毒,而较大的病毒例如马尔堡病毒或伊波拉病毒(两者都大约是1.8万个碱基对,都很令人讨厌)也只需要一个月左右,克尔坐在那里只是不停地发出哇哇的声音。我告诉他们我已经与国家科学院的院长布鲁斯·艾伯特(Bruce Alberts)以及《科学》的编辑堂·肯尼迪(Don Kennedy)联系过了。数据的发表依旧是一个问题:如果有必要,我们也做好了对我们方法进行审查的准备,以免坏人可以利用这个威力巨大的技术。
这个问题最终全部同意由白宫来做决定。我会愿意把我的工作让一个新的委员会审议吗?如果它的成立是为了调查“两用”研究的话,“两用”研究是指既能带来好处也能带来伤害的研究。我认为这是个好办法。抛开我们自己的合成基因组研究不说,我相信这样类型的检查是迫切需要的;我只举出一个例子,很多研究小组努力试图解开H5N1禽流感病毒更易于感染人类之谜,看是什么把它变成了全球流行的病毒株。这种关切最后促使成立了一个美国科学生物安全委员会,它的成员来自各个政府部门的代表。我们急切地想发表我们φ-X174论文而不用自我审查,它在2003年12月23日发表在《国家科学院学报》上[17]。我们之所以最后决定把它发表在学报上是因为这篇文章的三位作者海姆、克莱德和我是科学院成员,我们知道我们应该有一个空间表达我们想要说的话并且这个杂志会尽快把它发表。
鉴于我们的科学研究意义重大,而且因为它是由国家能源部资助的,所以能源部部长斯宾塞·亚伯拉罕(Spencer Abraham)同意出席在华盛顿城区举行的记者招待会,站在一屋子记者面前,他说我们的工作“是令人惊叹不已的”,而且指出这将会导致微生物工程的创立从而应对污染和二氧化碳过剩甚至满足未来燃料需求。
长寿?
我的小组彻底检查了我的基因组,寻找与疾病、残疾和衰退相联系的DNA图谱,这些工作并不总是显示坏消息。去年圣诞节,黄嘉祺告诉我,我在一种称为CETP(胆固醇酯转移蛋白)的基因上是“V/V纯合子1405V”,她的意思是说我有一个变体与长寿有关——活到90岁或更长——会使我在年老时依然有清醒的头脑和很好的记忆力。这个变体被纽约爱因斯坦医学院的尼尔·巴奇拉伊(Nir Barzilai)领导的一个团队证实与长寿基因有关。这个小组检查了158个中欧系犹太人(东欧)家系中95岁以上的人。与缺乏该基因变体的老年人相比,拥有这个基因变体的人有两倍的可能性去拥有一个好的脑功能。这些研究者们在一个较年轻的团体里也同样独立地验证了他们的发现。我的基因变体所创造的蛋白质改变了另外一种叫胆固醇脂的蛋白质从而影响了“好”HDL和“坏”LDL胆固醇的大小,它们打包在脂肪和蛋白质(脂蛋白)颗粒中。百岁老人拥有CETP VV的可能性是普通人的3倍,而且也有比对照组多得多的HDL和LDL脂蛋白。一般认为较大的胆固醇不容易挤进血管中,这就降低了我患心脏病的可能性——至少从该基因有限的认识上是这样的。当然,如果我们能够在治疗上模拟这种变体的CETP VV的保护效果的话,我们可能会提高西方老年人的生活质量。
海姆走上讲台和我们一起巧妙地回答了一些问题,尽管我们已经演练了好多次关于他该说什么不该说什么,但是当他被一名记者问及致命病菌的可能性时,他好像把这一切都忘了。在海姆不经意间说出“我们可以制造天花基因组”时,我打断他并指出这只是可能性,我们知道天花DNA自己没有传染性,我试图在海姆的推测上泼一点冷水。海姆打断我说“但是我们讨论过克服它的方法呀,”然后他扭头向我不好意思地咧嘴一笑:“我是不是不应该说这些,嗯?”幸运的是我们的交流在《纽约时报》的报道中没有超过一段,报道大部分是有利的。我在果蝇基因组计划中的老合作者格里·鲁宾在《今日美国》中说:“这是一个非常重要的技术进步。设想有一天你可以坐在电脑前设计一个基因组,然后再去建造它。”[18]
一些媒体不对这次发布做报道或者感到失望,因为我们只是宣布了一个病毒而不是一个期待已久的合成的生命细胞。(我发现一件挺可笑的事情,媒体对我们的报道已经从早期的怀疑转变为现在对我们的厌倦,因为我们只是宣布合成一个病毒而不是一个新的生命形式。)科学家们也分成了两派。纽约州立大学石溪分校的埃卡德·维曼(Eckard Wimmer)从事了3年骨髓灰质炎研究,他称它为“一桩非常漂亮的工作”,但是对其他人而言,我们的病毒只是小菜一碟[19]。
但是对阿里·帕特诺斯来说,这一发展已经足够刺激让他成为我的新公司总裁了。新公司起名为人造基因组学,它致力于推动这一研究向前发展。海姆·史密斯和我也劝说克莱德·哈奇森全职加入文特尔研究所参与该计划构造一个基于生殖支原体的人造基因组,比起改造噬菌体而言,这可是一项雄心勃勃的计划。生殖支原体和流感嗜血杆菌是我们在证明霰弹枪法的可行性时用到的有机体,那时是1995年——就在那一年合成基因组计划诞生了,至少是在观念上诞生了。
就在我们全身心投入测序人类基因组时,海姆和我就提出过一些简单的问题:如果一个物种需要1800个基因(流感嗜血杆菌)而另外一个物种需要482个(生殖支原体),那么对于生命而言,是否有一个最小的操作体系?我们能否定义这个操作体系?换一句话说我们能否在遗传基因的理解上问这样一个老问题——“生命是什么?”
这不仅是一些简单的问题,而且还很幼稚,当我们测序第三个基因组的时候,有个问题就很清楚了,我们测序的第三个基因组为太古细菌詹氏甲烷球菌,这是一种被称为自养型的生物,它以无机化学原料为生。与其他微生物的糖类代谢不同,甲烷球菌把二氧化碳转换为甲烷同时产生细胞能量。我开始明白不同的基因盒子可以在微生物细胞中替换,而且它们依赖于它们所处的不同环境。生活在无糖环境中的细胞,例如甲烷球菌,就缺少使其拥有代谢糖类能力的基因。所以我们不能定义生命的最小操作系统,因为它依赖于生命的生存环境。我们最多能定义一个最小基因组,这个概念会随着我们产生更多的数据而进一步向前发展。
我打算做一系列的研究把基因从生殖支原体一个个剔出去,看看失去哪一个它仍可以生存。克莱德和他的博士后同事斯科特·N·彼得森(Scott N.Peterson)设计了一种新奇的方法,名叫全基因组转位子突变形成,该方法就是任意把不相关的DNA插入到基因里,从而搅乱它们的功能,这样我们就可以知道它在基因组中的影响。(那个不相关的DNA是以转位子形式存在的,它是一些小DNA片段,包含了必要的遗传成分被任意地插入基因组的随便哪个地方。我们基因组中一个重要的部分是由DNA寄生虫组成的,而不仅仅是基因自己的准确的基因密码。)
在我们的实验中,这一微生物的膜皮被制成有一些漏洞在上边,这样转位子DNA可以进入它们内部,随便在基因组中找一个位子呆下来,当一个转位子插入一个基因序列后,它就使这个基因不起作用了。为了准确跟踪我们所做的一切,我们在转位子上加了一个抗生素抗性基因。我们知道任何在抗生素环境中生存下来的细胞都肯定有抗体基因,结果是该细胞也包含有导入了抗体基因的转位子。很容易设计一个方案阅读从转位子的末端到幸存的生殖支原体菌落的遗传密码。我们有完整的生殖支原体的基因组序列,这个序列准确显示了转位子插在基因组的什么地方。如果它位于一个基因的中间并且细胞仍然活着,我们就可以说这个基因对于这种生长条件下的细胞是非必要的。如果没有对环境的定义,那么这些数据就使我们更深入地理解了为什么生命所必需的基因功能是难以捉摸的。
一个简单的例子涉及了生殖支原体的两个基因,其中之一编码一种可以把葡萄糖带入细胞的蛋白质,另一个基因则编码输运果糖的蛋白质。生殖支原体可以依赖任意一种糖生存。如果只提供葡萄糖,转位子可以插到果糖输运基因里而对细胞没有任何影响。从这些实验中你可能已推断出果糖输运基因是不重要的,对这种情况而言这是对的。然而,如果只提供果糖,果糖输运基因就变得重要了。如果我们要理解基因的功能的话,环境是很重要的。
另外一个复杂因素是我们的支原体菌株并不是无性繁殖的,可能一个支原体的变性和一个残存基因支撑它的兄弟和姐妹,在那里一个基因已经被一个转位子剔了出去。几年以后约翰·格拉斯(John I.Glass)领导的一个小组仔细地做了一次关于复制的实验以保证这是不会发生的。
利用计算机分析了生物中基因所做的一切,比较了13个相关的被测序的基因组,我们得到了一个大约99个基因的集合,我们认为该集合可以从生殖支原体的基因组中剔除。它1/5的基因组是多余的,我们现在可以看到该生命的完全遗传最小量了。
利用手头由φ-X174研究发展来的新技术,海姆、克莱德和我开始尝试着从一个实验室化学制品中构造整个生殖支原体基因组,在我写这本书时,这项工作已经由一个20多人的小组完成了。在每一个阶段我们都不得不发展新的方法去处理那些我们面临的巨大的技术挑战。
注意到甚至一个单独的拼写错误都会导致致命的结果,我们不得不以一个空前的准确水平重新测序这个有58万个碱基对的支原体:10年前的标准是每1万个碱基对有一个错误,但是利用新的机器,我们已经把它降到了每50万个有一个错误。这个结果可能是现存唯一一个最正确的细菌序列了:之前没有任何其他人得到百分之百正确的结果,甚至我们的最具纯粹主义的批评者们也没有。
现在我们不得不重建一个简化的版本了。研究人员使用标准实验室机器制作DNA的细小结构,称为寡聚核苷酸或寡核苷酸。这些是我们人造基因组的基本原料。海姆和他的小组利用精细化学煞费苦心地把无数个拥有大约50个碱基对的小块编接到更少的几个小片段里,然后在埃希氏大肠杆菌中培植它们,再把这些非常小的碎片变成少量较大的片段——基因盒——直到它们最终成为两个较大片段,可以被拼接到新的生命形式的螺旋基因组里。在整个过程中,我们不得不制造和利用合成DNA,比我们以前的标度大10~20倍。
现在我们已经制作了螺旋基因组,正在把这个人造DNA插到细菌里面。我们屏住呼吸仔细观察在试管里的1千亿个微生物中是否会出现一个或更多的微生物携带着我们的人造DNA,并且子细胞开始按照我们的生命谱来代谢和繁殖。我们曾经成功地把一个细菌的基因组移植到另一个细菌里,做出了第一例物种变形并引起世界范围的高度注意[20]。移植一个人造基因组实验准备就绪后,我们也申请了一项专利,关于怎样建立一个我们所说的“实验室支原体”。
如果我们的计划成功了,一个新的生物将进入我们的世界,尽管还需要用现有的细菌细胞机制读取它的人工DNA。我们常常被问及我们的步子是否迈得太大了,我总是回答道——至少到目前为止——我们只是重建了一个已经在自然界存在的生命的简化版。我补充道我们已经对我们的工作进行过一个大型的伦理评论了,我们觉得我们做的是好科学。利用人造基因组我们可以插入和消除单个基因或基因集合,从而以明确的方法验证我们基因淘汰实验的结果,并且也可以真正地描绘出生命是怎样运作的。
我做着这些研究度过了我的60岁生日,走过了我父亲伤心错过的里程碑,同时我的生活也转向了一个非常积极的方向,尽管我和克莱尔离婚了,她再婚了而且看起来她的生活也很幸福。是她建议把TIGR和文特尔研究所合并,在2006年9月12日,我那三个组织的董事会全体一致同意把TIGR、J·克雷格·文特尔科学基金和文特尔研究所合并成为J·克雷格·文特尔研究所。这一活动把我所有在14年前建立的组织合并成一个世界上最大的私立研究所,它的研究人员和工作人员超过了500人,实验室面积超过23000平方米,超过2亿美元的联合资产和7000万美元的年度预算。追溯到第一批基因组数据并且每年继续发表,我们的科学文献使文特尔研究所的小组成为现代科学最常被引用的一个。我的董事会也投票支持允许我在加利福尼亚的索尔克开办一所西海岸文特尔研究院。一栋新建筑定于2009年完成,坐落于加利福尼亚大学圣迭戈分校的校园里,界于斯克里普斯海洋学研究所和医学院之间。也许我一生中最好的改变就是,我和希瑟在2006年初开始约会,并且在那年7月订婚。
既然我是注视自己的基因序列的化学机制的第一人,我仍然努力理解它意味着什么,这份努力将可能持续数十年。一直以来,我确信,当测序的价格降到我们花1000美元就能阅读人类基因组时,那么几百万人们将有机会做相同的事了。这片浩瀚的科学海洋仍有待我去探索。
第一批人工合成基因组是一个自然有机体的精简型版本,只是开始。我现在想再往前走。我的合成基因组公司正试图开发盒子——基因模块——把有机体转化成一个可以从太阳光和水制造干净氢燃料或吸收更多二氧化碳的生物工厂。从这里,我想把我们带离海滨进入到未经探索的水域——一个进化新阶段——直到一天,一个DNA基因物种可以坐在电脑前设计另一个物种。我梦想,有一天我们通过产生真正的人造生命来展现我们理解生命的软件。以这种方式,我想发现一个被解码的生命是否真的是一个被理解的生命。