第13章 向前飞

    遗传的基本方面最后应该是格外简单的,这个信念支撑着我们的希望,即毕竟自然可能是完全可接近的。她被过分宣传的神秘莫测再一次被发现是由于我们的无知而引起的错觉。这是令人鼓舞的,因为如果我们生存的世界像我们的一些朋友要我们相信的那样复杂,我们可能会相当失望,因为生物学将永远也不能成为一门精确科学。

    ——托马斯·亨特·摩根,《遗传的本质》

    很多人问我,为什么在这个星球的所有生物中我选择了果蝇,就好像也有很多人问我为什么不直接测序人类基因组。事实是我需要一个测试平台;我需要进行概念验证。在我花费近一亿美元用我未经试验的方法测序人类基因组之前,我需要某些安心尺度。而每个生物学家都知道,在这个小飞虫上开展的研究曾扩大了生物学尤其是遗传学的阵地。

    果蝇的品种包括醋蝇、酒蝇、油渣蝇、葡萄蝇还有水果蝇等总共大约2600个品种。但是任何科学家一听到果蝇这个词就立刻想到其中一种,即黑腹果蝇。因为它的繁殖既容易又快,这种空中飞的小东西对进化生物学家而言是一种理想的模型生物。他们用它来认识从受精到长成成虫的过程中的奇迹。在生物学家们提出的诸多真知灼见中,果蝇研究曾帮助人们揭示同源基因的作用,后者是控制所有生物基本形体的基因。

    任何一名遗传学的学生都对美国遗传学之父托马斯·亨特·摩根的果蝇研究耳熟能详。1910年,他在一群野生红眼果蝇中发现一只白眼的雄性变种。他把这只白色眼睛的果蝇和一只红色眼睛的雌性交配,发现它们的后代都是红眼睛的:该特征是隐性的,我们现在知道,果蝇要长成白眼,需要来自父母各自基因的复制体都为白眼。当摩根继续在这些变种间进行杂交时,他发现只有雄性表现出了白眼睛的特征,于是他推论该基因可能是在性染色体上(Y染色体)。他和他的学生在一家企业里又研究了几千只果蝇的这种遗传特征,时至今日这些研究还在世界上很多的分子生物实验室里进行着。有人估计全世界有超过5000人在研究这种小昆虫。

    我第一次直接感受到这一研究的价值是在我用果蝇基因的cDNA文库做关于肾上腺素受体研究的时候,研究揭示了果蝇中的等价物——章鱼胺受体,解释了果蝇和人类的神经体系的共同进化遗传。当我正试图理解人类大脑cDNA文库时,最具启发作用的发现,来自于计算机匹配果蝇基因时,我们非常熟悉的果蝇基因暗示了相似的人类基因的可能功能。

    果蝇基因组测序计划是在1991年发起的,当时加州大学伯克利分校的格里·鲁宾和卡内基研究所的艾伦·斯普雷丁认定开展果蝇基因组计划的时机已经成熟。那是在1998年的5月份,当时伯克利果蝇基因组计划已经进行了NIH基金资助三年中的头一年,并且已经完成了25%的测序,我在那次声名狼藉的冷泉港会议上提出了这个建议,鲁宾承认说“它是太好了以致无法拒绝”。然而出于同样的原因,我的策略却是危险的:我们的每一个基因字母都会被全世界接近一万名果蝇科学家拿去研究,并且格里的高质量的基因组数据会被人用来作为一个标准去衡量我们自己是否确有任何过人之处。最初的计划要求在6个月内完成果蝇基因组测序,即在1999年的4月,以便我们准备好对人类基因组发起进攻。我很难想象再有什么更为理想和公开的方法去证明我们的新策略是奏效的了。我安慰自己:如果我们失败了,至少是很快地在果蝇这个项目上失败的,这比拖到人类基因组时失败还是要好点。但是事实是任何失败都会是生物学最为壮观的灾难。现在格里也已经把他的名声拴在了这条线上,我们所有塞雷拉的人员都不会让他倒下的。在该项计划后期,我要马克·亚当斯领导这一计划,因为格里在伯克利有一个一流的团队,所以合作进行得很顺利。

    如同我们在所有的基因组计划中所做的一样,我们开始认真考虑我们要测序的DNA。如同人类一样,果蝇在遗传等级上是各式各样的。如果一个族群的遗传变异超过2%,并且我们有50个不同的个体作为一个样本群,重组将会是困难的。第一步工作是,格里去繁殖尽可能多的果蝇从而给我们一个果蝇DNA的同质集合。但是单凭这不足以保证遗传纯度:如果我们从整个果蝇身上萃取DNA,我们还是会有一个大规模的来自于食物和消化道中细菌的污染。格里选择从果蝇胚胎中分离DNA以避免这些问题。但是即使是从胚胎里来的细胞也不得不被剖开分离出细胞核,在细胞核里有我们想要的DNA,这样我们就可以避免线粒体动力包中的DNA的污染,后者处于细胞核外。结果就是一瓶装有果蝇DNA的稀薄溶液。

    一旦海姆的小组在1998年夏天收到纯果蝇DNA,他们就开始构建DNA片段文库。对海姆自己而言没有什么事情比剪断和结合DNA更让他喜欢的了,他把助听器调低,这样什么都不能把他从工作台旁拉开了。文库本来应该启动一个工业风格的测序操作,但是我们周围全是镚凿斧锯的声音。和一群建筑工人一起,很明显我们还在和主要的问题作斗争,其中包括调试测序机、自动机械和其他的装置,我们打算用几个月而不是几年的时间白手起家建设一个测序工厂。

    直到1998年12月8日,在人们大吹大擂和如释重负的叹气声中第一台3700型DNA测序机才到达塞雷拉。一旦卸去包装条,我们就把它放置在地下室的一个无窗的房间中,这里将会是它的临时住所,然后我们尽可能快地开始了测试运行。当它开始工作后,我们得到了质量非常高的DNA序列数据,但是那些最初的仪器是非常不稳定的。一些刚到就彻底坏了。那些工作的仪器也是不断地出问题,常常是每天都有问题。控制自动机械臂的软件也有一个大漏洞,有时这个机械臂会高速飞过这个装置,砸进墙里使测序机停下来直到一个修理组来把它装好。一些机器的激光束飘移不定。我们用锡箔和透明胶带防止过热,过热导致的蒸发使得测序机上的黄色的字母G都褪色了。

    虽然现在机器已经如期安装了,但是起先有将近90%的不能使用。ABI的维修小组人数太少根本不能应付和阻止情况的恶化。有一段时间我们甚至就没有一台测序机可以正常工作。我曾对迈克·亨克皮勒信心十足,但是当他开始把失败归罪于我的小组、施工工程的尘土、不同楼层间的微小的温度变化、月相等原因时,我对他的信任动摇了。我们中一些人已经因为这个压力变得非常沮丧。

    坏掉的3700测序机被放置在餐厅里等着运回ABI,它待在那里静静地看着这场危机,最后我们终于不用在这间测序机停尸房里吃饭了。我的挫折感很快就让新的恐慌所代替,我每天都需要一定数量的能用的装置,确切地说就是230台3700测序机。对于7000万的标价,ABI必须或者给我们提供230台全时工作的仪器,或者提供460台半时工作的仪器。迈克也将不得不把进行培训的技师增加一倍,从而一旦有机器出故障就可以得到尽快修理。

    但是迈克对不增加报酬的任何工作都不感兴趣。现在他又有了另一个顾客,公众基因组,他们已经开始购买几百台仪器甚至都不加测试。虽然塞雷拉的未来依赖于这些机器,但是迈克看起来并没有意识到ABI的未来也全靠它们。随着争论的升级,这个事件预示着将会是对阿普莱拉董事会和托尼·怀特的胆量的第一次真正考验。在一次ABI工程师和我的塞雷拉设备管理人员的高级会议上,不可避免地提出了最后的摊牌。

    在我们引证了这令人难以置信的失败率——该定量表示两次故障和修理之间的平均时间后,迈克又一次试图归罪于我的小组,但是这一次甚至他自己的工程师也不认同了。最后托尼·怀特站出来说:“我不关心成功的必要条件是什么或者我们不得不枪毙谁。”这是他唯一的一次为我挺身而出。他命令迈克尽快提供新的装置,即使他不得不从别的购买者那里挪用,即使还不确定这样做的代价有多高。

    他还要求迈克提供超过20个人的修理团队尽快保证这些仪器的正常工作状态,并且找出这些问题的根本原因。这个说起来容易做起来就难了,因为缺乏培训人员。埃里克·兰德已经把他最好的两个工程师拐跑了,一开始据迈克所说这也是我们的过错。他转向马克·亚当斯说道,“你该在别人下手之前就雇用他们。”这句评论使我对他的尊敬降到了一个低点上。事实上,因为我们的协议条款我是不能雇用ABI的人员的,但是兰德和其他的公共基因组的科学家却可以自由招募他们,不久这个公司最好的工程师都去为我们的对手工作了。在会议结束后我仍然感到压力重重,但是也看到了一线希望,这种状况正在好转。

    事情也的确如此,尽管进展缓慢。我们所进的机器总量从230台升至300台,这样当有20%~25%的机器出了问题时,我们还有200台或等量的能力去达到我们的目的。技师们的出色工作已经把修理率稳定地提高了,而且损坏时间也缩短了。福斯特市的工程师们努力处理更基本的问题。在整个事件中我都坚持一个想法:我们所做的一定要成功。有一千个理由我们会失败,但是对我来说失败是绝不可能让我接受的。

    4月8日,我们开始认真地测序果蝇基因组,我们本来计划在此时间前后完成工作。虽然我知道怀特想让我出局,但是我还是尽力和他合作以达到我的目的。压力和担忧当然也伴随着我回到家里,但是我最好的红颜知己也是我最不能和她分享我的问题的人。对我一头扎进塞雷拉而且看起来又在重复TIGR/HGS的错误,克莱尔已经明确地表示了她的蔑视。到了7月份我开始感到格外的情绪低落,这种感觉我以前只在越南经历过一次。

    因为生产线流程还没有建立和运行,所以我必须经受一项惩罚性的苦役——把这些基因组片段重新装配起来,寻找重叠并且不要让重复搞得心烦意乱。吉恩·梅尔斯搞出一个算法,该算法使用了我的霰弹枪测序法一个关键原理:测序所有复制产物的两端。因为海姆已经制作了三个精确长度的复制体,我们已知道两端的序列的精确的距离。像以前一样,这个“配对策略”会给我们提供一个很好的组织方法把我们的基因组再组合起来。

    但是既然每一个端点已经被分别测序,为了让这个拼接工序发挥作用,我们必须仔细地进行计数以保证我们能够把每一对端点序列再结合起来:如果我们一百次中有一次不能把一个序列与它的恰当配对者相结合,这次操作就是失败。一个避免此类事件发生的方法是使用条码和阅读器来跟踪过程的每一步。但是在开始时测序机缺乏这种必要的软件和装置,所以我们当时不得不手工操作直到条码能够被使用。对于一个老式的测序实验室这不会构成障碍,但是对于塞雷拉这样一个不到20个人的小团队来说,每天处理的最高流量为20万个复制体。我能想象到会有一些错误发生,比如以错误的方法读取一个384孔培养盘,于是使用软件去发现迹象分明的错误方式,然后纠正它。当然还是会有一些小错误的,但是这也证明了我们小组的技术和奉献精神,我们可以处理我们发现的错误。

    尽管有这么多问题,我们还是成功地在4个月里制作了315.6万个高质量序列片段,大约有17.6亿个碱基对,处于151万个DNA复制体两端之间。现在轮到由吉恩·梅尔斯和他的团队还有我们的计算机去把所有的碎片整理成果蝇染色体。测序准确度随着碎片的伸长而降低。对于果蝇来说序列平均为551个碱基对,平均精确度为99.5%。如果我们有两个序列包含有500对碱基,其中50%相互重叠,那么我们大多数会通过滑动两个序列直到碱基对相互吻合的方法来寻找交叠点。这是苦行僧们的方法,但是对于霰弹枪测序,世界上还没有足够多的苦行僧们来完成这项工作。

    对于流感嗜血杆菌而言,我们有2.6万个序列。把它们每一个都和所有的其他的相比较一次,就是2.6万平方次,也就是67.6亿次,相当于100万个苦行僧工作一年(一个苦行僧一年手工工作量比较数)。而有315.6万序列片段的果蝇基因组将需要99000亿或9.9万亿次比较。人类和老鼠有2600万的序列片段,大约需要比较680万亿次。这也许可以解释为什么大多数的科学家对这种方法成功的概率表示怀疑。

    尽管梅尔斯发誓不能失败,但是他也有这样的疑问。到现在他整天工作,看起来惨兮兮的而且筋疲力尽。他的婚姻面临危机,他开始和当时一个让我们很头痛的新闻记者兼作家名叫詹姆斯·史瑞夫(James Shreeve)的人走得很近。为了让吉恩散散心,我带他去了加勒比海放松,驾驶魔法师号出海。但是大部分时间他都趴在笔记本电脑上,在明亮的阳光下他黑色的眉毛纠结在黑眼睛上。半年中,尽管承受着难以想象的压力,吉恩和他的小组还是编写了一个50多万行的计算机编码的新的拼接程序。

    如果序列数据是百分之百的准确而且也没有重复的DNA,那么基因组拼接就会是一个相对简单的任务了。但事实上,基因组充满着各种类型、各种长度和频率的重复DNA。就像在一个拼图上,一个巨大的伸展开的蓝色天空一样。由少于500个碱基对组成的较短的重复片段是相对容易处理的:它们比一个单独的序列片段要短,所以它周围唯一的序列使我们可以描绘出它们在什么地方。但是较长的重复就具有挑战性了。我们处理这种情况的方法是我们前面提到的配对操作,测序每一个复制体的两端并且复制不同的长度从而提供最大的重叠。

    被吉恩的团队编译成50万行的计算机编码的程序使用了阶段式方法,它以最安全的步骤开始,例如简单地把两个序列重叠,然后逐步推进更为复杂的操作,例如使用配合对把重叠序列岛连接起来。这就像拼接一个复杂的拼图时先把碎片组成小的岛屿然后组成较大的岛屿,接下来再重复这个过程——只是我们的拼图有2700万片碎片。这些片段一定得是高质量的序列,这是一个关键:想象一下试着做一个拼图游戏,而其中一些碎片的图案和颜色是模糊不清的。对于长程的基因组序列的排列,数据读取的大部分必须在配位对中。如果所有的数据仍然由手工追踪,我们会很放心地发现我们在配位对中已经有了超过70%的序列数据:电脑建模者曾对我们说有一点失误短缺都意味着胖胖蛋先生将永远都不能再被复原[26]

    现在我们可以使用塞雷拉组装器来处理序列数据了:第一步,把数据裁剪成最高的精度;第二步,“筛子”会把来自于质粒体或埃希氏大肠杆菌的DNA污染序列剔除掉,只要有10个碱基对的污染序列就会阻碍任何的拼装匹配;第三步,“筛子”检查每一个碎片是否与已知的果蝇基因组重复序列相配,这多亏格里·鲁宾的辛苦工作,部分交叠的重复区域被记录下来;第四步,“交叠者”把每一个片段都和其他的片段进行比较,这是一个处理大量数据的过程,我们已经在粉碎公众基因组的线虫解码中成功地测试过了,看看是否重叠者可以正确地拼装它们[我们向公众基金支持的线虫基因组科学家们(沃特斯顿和萨斯顿)提过几次要求,让他们给出他们用来重构基因组的序列数据,但是都被拒绝了]。我们的计算机每秒进行3200万次对比,至少可以找到40个碱基对相匹配,差别小于6%。当两个片段交叠时它们被拼装到一个大的片段里,即重叠群(相邻片段)。

    理想情况下,应该是可以把基因组重装在一起的。但是我们不得不一再清理DNA密码中的扭结和重叠,这意味着,一个单独的DNA片段可以与几个不同的碎片交叠,从而导致错误的连接。为了简化这个难题,我们只保持唯一连接的碎片,我们称之为“单连群”。处理这些操作的软件被称为“叠连群”,事实上就是把我们不确定的DNA剔除只保留单连群,也就是片段中正确的组件。实际上这一步不仅给我们提供了空间来改变我们关于怎样把片段组装在一起的想法,而且也把问题的复杂程度充分降低了,我们从315.8万个片段拣出5.4万个单连群,每个单连群包含两个或更多的片段,将原片段总量压缩到1/48。2.12亿个交叠被减少到了310万个,在操作规模上减小到1/68。这样拼图里的碎片就被逐步系统地安放到位了。

    在这点上,我们可以使用从相同的复制体中配对序列的知识,使用搭脚手架方法。所有可能的有相互确定的配位对的单连群被连接到脚手架上,把大标度序列安插到所有这些小编码片段上。在一次演讲中我把这一方式比喻为搭建小炉匠玩具,它由一大把可以插在木头节点(小球或小盘)上面小洞里的小棍组成,这样就可以建成一个较大的结构。在我们这里节点代表了单连群。知道了配对序列处于2000、1万或5万个碱基对长的复制体的端点,它们就可以被连接起来。

    使用格里·鲁宾的序列作为参照,该序列占据了1/5的果蝇基因组,对这种方法进行测试的结果仅仅产生了500个缺口。当8月份测试我们的数据时,我们最后的小片段总数有80多万个。这么多的数据要处理意味着我们的工序做得很不好,与我们所期待的相反,它已失败了。几天后这种惊慌的感觉更为强烈了,可能的错误列表也增长了。肾上腺素被传运到了2号楼的顶层被戏称为静海[27]的房间里,这间房间对我来说简直就是一个疯狂的参照,它的名称是相对我曾以地球上的海洋来命名主楼里的会议室而得的。在寻找解决办法的至少两周时间内,这间屋子一点也不宁静,大家走马灯似的在屋里兜圈子。

    最后这个问题被亚瑟·德奇尔(Arthur L.Delcher)解决了,他曾研究过重叠问题。在15万行编码的第678行,他发现了细微的错误,稍微忽略一下意味着把一个意义重大的匹配项扔掉了。当它被修正安装好,并且电脑也运行结束后已经是9月7日了,这时我们的134个基因脚手架,完整地覆盖了果蝇的工作(彩色的)基因组。我们都感到狂喜和宽慰,是向全世界宣布我们的成功的时候了。

    我几年前建立的基因组测序大会提供了一个绝佳的机会。我料想会有破纪录的参会人数,大家都热切地想看到我们是否可以履行我们的诺言。我认为马克·亚当斯、吉恩·梅尔斯和格里·鲁宾应该在会议上分别描述我们的成就:测序、拼接和科学影响。最后由于情况需要,我不得不把会议地址从希尔顿海德酒店转移到迈阿密的更大的枫丹白露(Fontainebleau)酒店。来自各大制药公司和生物技术公司的代表、世界各地的基因组科学家以及大量的分析家、记者和其他来自投资界的人士都出席了。我们的竞争对手因塞特公司已经花很多钱准备了一场送别晚会和一套室内视频,这些工作使代表们确信这次会议将是人类基因组最重要的一页。我们所有人都聚集在大舞厅中,这也是会议举办地的一个传统,这个舞厅呈巨大的衣架形,装饰以中性颜色和枝形吊灯。

    原本估计容纳2000人,但是随着人群的增大,很快就没有可以立足的地方了。作为会议开幕式的一部分,格里、马克和吉恩在1999年9月17日就最新的果蝇基因组成就做了报告。一段简短的介绍后,格里·鲁宾宣布与会者将要听到他曾参与的最好的合作成就。会场气氛变得活跃起来。观众意识到如果我们没有什么激动人心的事情要宣布,他是不会说这样热心的话的。

    当马克·亚当斯开始描述我们在塞雷拉的工厂风格的运作和我们建立的基因组测序新方案时,会场里鸦雀无声,这是我们早就料到的。马克的描述颇为嘲弄——他没有提及任何拼接的基因组讲演就戛然而止。然后吉恩开始向观众介绍了从背景到全基因组霰弹枪法序列拼接、嗜血杆菌成就和我们的基因组拼接的主要步骤,最后结束时,用计算机生动形象地模拟了一个基因组是怎样被重新拼装在一起的。随着预定时间的流逝,很多观众可能开始认为我们的报告将会全部都是幻灯片而没有数据。但是随着吉恩的一声坏笑,他最终亮出底牌提醒观众可能会有兴趣看到真实的数据而不仅仅是模拟。

    当吉恩·梅尔斯把果蝇基因组序列公布于众时,那些数据不可能有比这次提交的更清楚和引人注目了。他知道仅我们自己的序列数据是不够的,所以为了更好地衡量可靠性,他以格里曾用旧式的方法辛辛苦苦拼接在一起的序列作对照比较:它们是一致的。他把我们的拼接与过去10年来所有已知的知识映射到果蝇基因组特定区域的标记相比较。在几千个里面只有6个不相符合,在逐个检查后我们确定:塞雷拉是正确的,错误的是其他实验室早期使用旧方法的造成的误差。呵,另外,顺便提一下,我们已经开始测序人类DNA了,看起来它只是重复我们所做的,而且比我们在处理果蝇时遇到的问题要少。

    热烈诚挚的掌声持续了很长时间。在演讲结束后的休息时间里,观众群里嗡嗡的低声谈话声显示我们已经得到了公认。一个新闻记者看到一位公共基因组的科学家摇着他的头评论说:“这帮傻瓜真的开始干了。”[1]我们让会议完全重新活跃起来了。

    还有两宗我们都很熟悉的主要的工作。第一项工作是怎样发表这些数据。虽然我们和格里·鲁宾有谅解备忘录在先,但是我的业务团队对于把如此珍贵的果蝇基因组序列上传到基因银行还是感到不高兴。他们提出了一个建议:把这个果蝇基因组序列放在由国家生物技术信息中心运作的单独的数据库里,每个人都可以使用该数据库,但是要同意不得将其以商业目的再出售。来自欧洲生物信息学研究所的迈克·阿希伯纳(Michael Ashburner)是个烟不离手并容易激动的人,他对于怎样把这些序列贴在一个专门的服务器里并加上一个保护协议感到不满,认为塞雷拉“已经欺骗了我们”[2],(在他给鲁宾的一份邮件中,标题为:塞雷拉他妈的到底在干什么?[3])科林斯也不满,但是更为重要的是格里·鲁宾也是这样。最后只有让缪尔曼和怀特这些人沮丧了,我把数据发到了基因银行。

    第二项工作是虽然我们已经有了果蝇的基因组序列,但是每一基因到底意味着什么?如果我们要在杂志上发表它们,我们就不得不进一步去分析它,就像我们在4年前处理嗜血杆菌那样。注释和描述果蝇基因组将花费我们整整一年的时间,我可不认为我们有一年的时间,因为我们的注意力不得不集中在人类基因组上。与格里和马克讨论后,我们想到了一个解决此问题的新方法,该方法将涉及果蝇科学界,是个令人兴奋的科学事件并且可以推进事情的快速发展。我们决定召开“注解大会”,邀请全世界顶级的科学家到洛克维尔来分析果蝇基因组,这一活动为期一周或10天。然后我们写出结果并发表一系列有关基因组的论文。

    每个人都喜欢这个主意。格里开始邀请主要的团队来参加这一盛举,同时塞雷拉的生物信息小组找出大会所需要的电脑和软件以期让他们的这次旅行更有价值。我们同意塞雷拉将会支付差旅和招待费。我们祈求这样的科学研究方式的激情会获得成功。在将要参加这一活动的人中有些是我最苛刻的批评者,我希望他们的故作姿态不要把这次活动毁了。

    1999年的11月,大约来了40名果蝇科学家,甚至我的批评者也发现我们的提议太诱人了很难忽略。第一次会议有点挫折,因为人们的热切期望面临着一个现实:在几天时间里要分析1亿个遗传密码的碱基对,软件不够。当这些来访的科学家休息以后,我的团队连夜开发软件工具以满足我们先前没有想到的需求。到第三天融合开始了,就像其中一个人和我说的,这些新的工具使科学家可以“在几个小时内做出超过他们一生的令人兴奋的科学发现”。

    由于纯粹的科学发现的刺激让每个人都极度兴奋,会议变得更加有趣了。我们正在提供对一个新世界的第一次观察,划时代的一瞥大大地超过了每一个人的想象。讨论我们想要的和理解所有这一切的意义的时间很快就不够了。马克举办了一个晚宴,但是它没能持续多长时间,因为每个人都很快地又溜回了实验室。午餐和晚餐很快就都在满是果蝇数据的电脑屏幕前解决。长期寻找的受体家族基因第一次被发现,同时还有令人吃惊的大分量的人类疾病基因的果蝇匹配物。每一次发现都伴随着相互击掌、口哨和惊叹声。令人惊讶的是,一对情侣竟然找到时间订了婚。

    但是还有一个至关重要的问题横在面前:会议只发现了1.3万个基因而不是他们预想的2万个。因为一个像线虫那样简单的蠕虫都有大约2万个基因,而且有很多人已经充分讨论过了,果蝇一定有更多,因为它有神经系统和10倍多的细胞。有一个简单的办法可以检查我们的计算有没有错误:我们可以用已知的2500个果蝇基因来查看我们的序列会出现多少。斯坦福大学的迈克·切瑞(Michael Cherry)充分分析报告后说,他发现了除去6个基因以外的全部基因。少许讨论后,这6个基因也作为人工误差而剔除了。所有的果蝇基因都被已解释并且也都正确,这使我们信心大增。数千名科学家一头扎在果蝇研究里数10年才寻找出来的2500个已知的基因,现在只需做一次性的研究,而且现在所有的13600个基因都存在他们面前的电脑里。11天后我们已经找到了足够进行初始分析的基因组了。

    值得纪念的时刻随着不可避免的照相而降临,这是最后一番拍背压肩了。迈克·阿希伯纳蹲在地上让我踩在他的背上以便我可以出现在照片上,这是他已经承认我们所做的一切的一种报偿方式,当时他满脸怀疑。一个小巧的果蝇科学家甚至想出一个标题:“站在巨人的肩上”。“让我们信任值得信任的人吧,”他后来写道[4],“塞雷拉为这次大型集会真是竭尽所能了。”我的对手们尽管试图把我们向公众数据库上传果蝇数据中的小故障说成是我们对承诺的失言,但是还是被迫承认这次集会对“果蝇研究界意义巨大”[5]。体验过这场科学涅槃后的人们友好地分手了。

    我们决定发表三篇主要的论文:一篇为整个基因组,马克将会是第一作者;一篇以拼接为主要内容,由吉恩作为第一作者;一篇以和蠕虫、酵母和人类基因组相比较作主要内容,由格里作第一作者。最终这些文章在2000年2月投向《科学》杂志,并在2000年3月24日[6]的特刊上发表,这离我与格里·鲁宾在冷泉港讨论时还不到一年。在发表前,格里安排我在匹兹堡举行的果蝇年会上做主题演讲,由数百个顶级的果蝇科学家出席该年会。我的团队把我们在《科学》发表的文章复印了好多份,同时也把我们全部的果蝇基因组序列拷贝到光盘里,给每一个观众座位发了一套。当我们一开始宣布我们的合作时,屋子里很多人都闹懵了,但是格里热情地介绍我之后,他向大家保证我已经履行了我所做的所有的承诺,而且是一个令人愉快的合作者。我报告的内容为那次集会所做的早期发现以及光盘里面资料的摘要。当我的讲演被报以长时间的起立喝彩时,我感到了和5年前一样的惊奇和高兴,那时我与海姆第一次把嗜血杆菌基因组带到了一个微生物高级会议上。接下来果蝇基因组的文章也成为史上引用率最高的文章之一。

    就在全世界数千个果蝇研究者为我的数据感到震惊时,我的批评者们很快开始了进攻。约翰·萨斯顿攻击说我们的基因组是有缺陷的,是失败的,即使这些数据比他耗费长达10年之久对那个蠕虫苦苦测序得到的数据更为完整和准确,即使他的工作草案已经在《科学》上发表但还要4年才能完成。萨斯顿的同事梅纳德·奥尔森(Maynard Olson)把我们的果蝇基因组序列称为塞雷拉留给公共基因组计划的一团乱麻。事实上格里·鲁宾的团队很快在不到两年时间里就把剩下的缺口补上了,而且发表和比较分析了完成的基因组。这些数据证实,在整个基因组上我们每1万个碱基对平均有一到两个错误,工作(彩色的)基因组每5万个碱基对有不到一个错误。然而在重复序列部分,数据很清楚地显示甚至更好的程序也会有一个巨大的影响。

    尽管大家都在为果蝇计划喝彩,但是整个1999年的夏天,托尼·怀特所忍受的压力达到了极限。怀特现在被关于我的新闻报道困惑住了。每次他来访时都不得不经过我办公室旁边的一条走廊,走廊墙上的镜框里是关于塞雷拉辉煌业绩的文章。我们曾放大了《今日美国》的周末杂志封面,在上面我身穿蓝格子衬衣盘腿而坐,标题是《这些特立独行的人会开启他们各自时代的最伟大科学发现吗?》[7]哥白尼、伽利略、牛顿和爱因斯坦的大名漂浮在我周围,但是没有怀特的影子。

    每天他的新闻人都会打电话问他是否会出席看起来无休止最后却在塞雷拉结束的采访。当第二年她设法把他弄到了《福布斯》杂志的封面上他才满意——也只是一会儿,他是因为把伯金艾尔莫公司只有15亿市场覆盖率发展成ABI和塞雷拉加起来有240亿的市场份额而登上《福布斯》的[8]。(“托尼·怀特已经把无能的伯金艾尔莫转换为高科技的基因猎手了。”)

    托尼也对我的社交活动十分着迷。大约每周我都会做一次报告——其中一部分是被邀请的——因为世界想要知道我们正在做的事情。他甚至向伯金艾尔莫董事会,现在更名为PE公司,抱怨我的旅行和演讲打破了公司的规矩。当我正在我科德角的房子里享受我为期两周的在职休假时,托尼和他的CFO、丹尼斯·温格(Dennis Winger)以及阿普莱拉的法律总顾问威廉·索奇(William Sawch)一起飞到了塞雷拉会见我的关键雇员以确认我的领导能力是可靠的。换句话说,他们想要找到足够的借口开除我。当每一个人都说如果我离开,那么他(或她)也会离开,怀特吓坏了。这虽然导致了很大的恐慌,但是也使我的团队比以往更加团结了。我应该庆贺我的每一次胜利,每一次就像是最后一次一样。

    当我们发表了我们的果蝇基因组序列——史上与此有关的最大的数据——我、吉恩、海姆和马克私下里举行了一次烧烤晚会,因为我们知道我们已经在托尼·怀特那里挺过了足够的时间,已经验证了我们的科学。我们已经证明全基因组霰弹枪测序法用在大的基因组上是可行的。我们现在知道也可以用全基因组霰弹枪测序法进行人类基因组测序了。就算托尼·怀特明天拔掉我们的机器插销,我们也知道我们已经有了关键的技术。我真想离开塞雷拉和他所代表的世界,但因为我还想要测试人类基因组,所以我不得不妥协。我讨好托尼·怀特,让他觉得自己很重要,以便我能挺过更长的时间以进行这项工作并完成我已着手的事业。