第三十四章 “天罗地网”

我们必须通过早期诊断来切实提高癌症治疗的效果。[1]

——约翰·洛克哈特-马默里(John Lockhart-Mummery),1926年

我们在人类癌症领域的当务之急不仅是要找到某种普适性疗法,还要发现某种可以在癌症表现出任何临床症状之前便检测到其存在的方法。[2]

——西德尼·法伯致埃塔·罗森松(Etta Rosensohn)的信,1962年11月

女士,请问您做过“宫颈涂片”吗?[3]

——《纽约阿姆斯特丹新闻报》(New York Amsterdam News)对于宫颈涂片的报道,1957年

由于癌变是一种循序渐进的过程(癌症早期病变将使正常细胞义无反顾地向恶性细胞转化),因此人们也在此启发下设计出另外一种预防癌症的对策。如果就像奥尔巴赫猜测的那样,癌症发生早期进展缓慢,那么人们或许可以在早期阶段对其进行干预,也就是将治疗目标从癌症转向癌前病变,然后实现在中途阻止癌症发生。

事实上,很少有科学家像乔治·帕帕尼科拉乌(George Papanicolaou)一样仔细研究过癌细胞的早期转化过程。帕帕尼科拉乌是一位来自纽约康奈尔大学的希腊裔细胞学家,他早年曾经在雅典与慕尼黑接受过医学和动物学的培训。虽然他个头矮小、体形粗壮,但是衣着考究、举止传统。1913年,身无分文的帕帕尼科拉乌远渡重洋来到纽约。尽管他起初希望在某家医学实验室找个工作,但是为了生存只能屈就在第33大街的金贝尔百货卖地毯。经过几个月的艰苦打拼(人们都觉得他在销售地毯方面没有天赋),帕帕尼科拉乌在康奈尔大学找到了一个助理职位,不过其研究方向也像他之前卖地毯的经历一样离谱:他被安排去研究豚鼠的月经周期,可是这种动物在经期既没有明显出血也没有组织脱落。尽管如此,帕帕尼科拉乌还是学会了使用鼻镜与棉签从豚鼠体内刮取宫颈细胞,然后再把这些水样的分泌物薄薄地涂敷到载玻片上。

他发现这些细胞就像纤细的钟表指针。随着激素水平在豚鼠体内出现周期性起伏,其宫颈细胞形态与大小也会同步发生改变。根据这些细胞的形态学特点,帕帕尼科拉乌就可以精准预测月经的日期。[4]

20世纪20年代末期,帕帕尼科拉乌将这项技术用于临床患者检测。[5](据称他的妻子玛丽亚每天都会接受宫颈涂片检测,毫无疑问这是对其工作最有力的支持。)帕帕尼科拉乌发现人类宫颈脱落细胞与豚鼠的情况十分类似,它们也可以帮助人们对女性月经周期的不同阶段做出预测。

但是随即就有人指出,这种华而不实的发明根本没有什么价值。一位妇科医生诡辩称,“包括女性在内的灵长类动物”大概都不需要通过涂片来计算月经周期。[6]即便没有帕帕尼科拉乌细胞学技术的帮助,女性依然在几个世纪之前就已经熟悉了月经变化的规律。

这些冷嘲热讽令帕帕尼科拉乌心灰意冷,于是他又回到了对宫颈涂片的研究中。帕帕尼科拉乌执着地在观察这些正常涂片上花了将近10年的时间。他认为这种检测方法的真正价值在于发现病理状态,而不是正常状态。如果帕帕尼科拉乌能够通过宫颈涂片诊断病理改变呢?或许这些年来聚焦于正常细胞的经历只是让他能够辨别异常细胞的前奏呢?

从此以后,帕帕尼科拉乌走进了纷繁复杂的病理世界,他开始到处搜集各种妇科疾病的病理切片,例如纤维瘤、囊肿、结节、子宫与宫颈炎、链球菌、淋球菌与葡萄球菌感染、输卵管妊娠、异常妊娠、良性与恶性肿瘤、脓肿和疖肿,然后希望能够从这些脱落细胞中找到一些蛛丝马迹。[7]帕帕尼科拉乌注意到,癌症患者的涂片中很容易出现异常的脱落细胞。他几乎可以在每一例宫颈癌患者的涂片中找到“奇形怪状”[8]的细胞,并且它们的形态(细胞核异常增大、细胞膜皱褶形成以及细胞质萎缩)往往与正常细胞大相径庭。帕帕尼科拉乌写道,“这些细胞的特征非常明显”,宫颈涂片诊断完全可以作为一种检测恶性细胞的新方法。

帕帕尼科拉乌对于上述结果感到十分振奋。1928年,他在一篇名为“新型癌症诊断”的文章中介绍了这种方法。[9]但是病理学家根本看不上这篇报道的内容(该文章最初曾经现身于某个激进的“种族改良”优生学会议),他们认为通过宫颈涂片检测恶性细胞的方法既不准确又不灵敏。帕帕尼科拉乌的同事认为,如果要对宫颈癌做出诊断,那么为何不采用宫颈活检呢?尽管此类稍显复杂的操作会造成一些损伤,但是其准确性要远远超过那些污秽的宫颈涂片。当专家们在学术会议上嘲讽这种简易的替代方案之时,即便是帕帕尼科拉乌本人也是有口难辩。他在那篇发表于1928年的文章结尾处谦逊地写道:“我认为这项工作还需要进行一些深入研究。”[10]由于帕帕尼科拉乌用了20多年才有了两项完全“无用”的发明,因此他的身影几乎就此从科学的舞台上销声匿迹。

※※※

1928年至1950年,帕帕尼科拉乌将近乎执着的热情投入到涂片研究中。[11]他的世界逐渐浓缩为三点一线:平时由玛丽亚开车接送他上下班(到办公室只需半小时的车程);周末他会在长岛的家中与显微镜为伴(书房与门厅里各有一台);夜晚则是他撰写标本报告的时间(留声机播放着舒伯特的音乐,桌子上还放着一杯橙汁)。随着帕帕尼科拉乌研究的不断深入,妇科病理学家赫伯特·特劳特(Herbert Traut)也加入了其阵营。除此之外,他还聘请了早年在康奈尔大学的同事、日本籍鱼鸟画家桥目村山(Hashime Murayama),后者采用投影描绘器将这些涂片的镜下所见以水彩画的形式勾勒出来。[12]

对帕帕尼科拉乌来说,这段沉思冥想的岁月似乎起到了投影描绘器的作用,它可以通过放大与反射使既往的结果展现出全新的内容。与此同时,萦绕在他心头长达数十年的想法依然挥之不去:如果正常宫颈细胞的形态会随着时间推移按照分级变化,那么癌细胞的形态是否也会缓慢地在恶性转化过程中发生改变呢?帕帕尼科拉乌能否像奥尔巴赫(其研究成果尚未发表)一样辨别出癌症的中间阶段(病灶逐渐从良性向恶性全面转化的过程)呢?

1950年冬季的圣诞聚会上,一位在其实验室工作的年轻妇科医生借着酒劲公然向帕帕尼科拉乌发难,宫颈涂片在临床上到底有什么用途?帕帕尼科拉乌不假思索便道出了已经酝酿了将近10年的想法:宫颈涂片的真正用途并不是发现癌症,而是检测癌症形成的前兆,也就是癌前病变。[13]

帕帕尼科拉乌的一位学生回忆道:“这番诠释令人茅塞顿开。宫颈涂片不仅可以让女性有机会接受预防性治疗,同时还能够极大地降低她们罹患癌症的风险。”[14]宫颈癌通常发生于宫颈外层细胞,它们在侵犯周围组织之前会形成巢片状结构。帕帕尼科拉乌推测,尽管宫颈涂片作为宫颈癌的诊断方法并非尽善尽美,但对无症状女性进行筛查却可能捕捉到这种疾病的早期改变。实际上,他这样做可以将宫颈癌的诊断时间提前,从而使那些晚期侵袭性肿瘤患者可以在早期非侵袭性阶段得到治疗。

※※※

1952年,帕帕尼科拉乌终于说服了NCI使用其涂片技术,启动了癌症研究史上规模最大的一项二级预防临床试验。[15]当时田纳西州谢尔比县2000余平方千米之内的150000名成年女性几乎都接受了宫颈涂片与随访。铺天盖地的涂片从数以百计的采样点蜂拥而至:它们来自农村和城市(从位于日耳曼敦马场的简易办公室到孟菲斯市的大型社区诊所)的各个角落。除此之外,人们还在工厂与办公楼设立了临时“巴氏诊所”。只要完成了采样,那么涂片就会被送到田纳西大学通过大型显微镜设备进行分析,而墙上的相框里则悬挂有正常与异常涂片的典型照片。与此同时,技术人员也夜以继日地在显微镜下比较这些涂片与典型照片的区别,他们在高峰时期的读片数量接近每日1000张。

果不其然,谢尔比小组从受试人群中发现了不少晚期癌症患者。在早期入组的150000名成年女性中,共有555人被诊断为侵袭性宫颈癌患者。[16]但是真正体现帕帕尼科拉乌理论价值的是另外一项发现:令人惊讶的是,有557位女性被查出存在原位癌或者是癌前病变(这些早期局部病变可以通过相对简单的外科手术治愈)。[17]由于所有这些女性在平时几乎没有任何症状,因此如果她们没有接受宫颈涂片检查的话,绝对不会有人怀疑其体内隐藏有癌前病变。值得注意的是,这些患有癌前病变的女性平均年龄要比诊断为侵袭性宫颈癌的女性年轻大约20岁,而这也进一步证实了癌变过程具有长期性的说法。事实上,宫颈涂片将宫颈癌的诊断时间提前了将近20年,并且彻底实现了从高死亡率到高治愈率的转变。

※※※

与此同时,在距离帕帕尼科拉乌实验室(纽约)几英里的地方,宫颈涂片的核心逻辑已经被拓展至另外一种截然不同的癌症。当时流行病学家正在考虑将疾病预防分为两种方式。在一级预防中,人们可以通过阻断病因来预防疾病,例如倡导戒烟来预防肺癌,或者接种乙型肝炎疫苗来预防肝癌。在二级预防(又称为筛查)中,人们可以在疾病出现症状之前的早期阶段进行筛查来实现预防,例如宫颈涂片就是一种对宫颈癌进行二级预防的方法。但是如果能够通过显微镜从刮取的宫颈组织中发现癌前状态,那么是否存在另一种“检测”癌症早期侵犯其他器官的手段呢?

1913年,柏林外科医生阿尔伯特·萨洛蒙(Albert Salomon)就已经进行过此类尝试。[18]当时萨洛蒙在乳腺癌手术治疗领域可谓登峰造极,他使用X射线摄影分析了将近3000例乳房标本中病灶的阴影轮廓。经过仔细辨别,萨洛蒙从X光片中发现了乳腺癌特有的影像学改变。他注意到这些癌组织中存在微小的钙化灶(后来放射科医生将其称为“盐粒”)或者是张牙舞爪的恶性细胞(不禁让人想起了癌症一词的出处)。

可想而知,接下来人们所做的就应该是在术前通过乳房摄影术对于患者进行筛查,但是就在此时,萨洛蒙的项目被粗暴地叫停了。20世纪30年代中期,由于纳粹当局突然将他从大学除名,因此萨洛蒙在从集中营逃到阿姆斯特丹后就踪影皆无,被寄予厚望的乳腺X射线摄影术也从此销声匿迹。在根治性理念盛行的年代,由于乳房肿块无论大小均会接受彻底清扫,因此对于小型病灶进行筛查显得毫无意义。

在此后将近20年的时间里,乳房摄影术一直委身于主流医学的边缘地带,也就是法国、英国、乌拉圭等根治手术影响力较弱的地区。但是到了20世纪60年代中期,随着霍尔斯特德的根治手术理论摇摇欲坠,在休斯敦的罗伯特·伊根(Robert Egan)等放射学先驱的努力下,乳房摄影术在美国终于重新回到临床一线。伊根与帕帕尼科拉乌相似,他也认为自己更适合做一名追求卓越的工匠而非科学家。其实伊根的角色相当于一位摄影师,只不过他是通过X射线这种最具穿透性的射线来捕捉癌症的蛛丝马迹。为了能够让乳房内部那些细如蛛网的小叶在X光片上一目了然[19](就像某位评论员所说的那样),伊根在摄影之前会对胶片、角度、位置与曝光等条件进行反复调整。

然而这些身处“蛛网”阴影下的癌症能得到早期遏制并停止蔓延吗?虽然目前伊根使用的乳房摄影术已经可以检测到直径仅为几毫米的肿块(麦粒大小),但是通过筛查发现此类早期肿瘤并进行手术切除确实能够挽救她们的生命吗?

※※※

众所周知,癌症筛查试验是所有临床试验中最为棘手的一类。它不仅在现实中难以操作,并且还非常容易出错。为了理解其中的缘由,我们只需想想癌症筛查从实验室到临床所历经的千辛万苦。假设人们在实验室发明了某种用于发现早期无症状癌症的新型检测方法,例如癌细胞分泌到血浆中的某种蛋白质水平,那么这种检测方法面临的第一项挑战就是技术问题,也就是它在现实生活中的表达情况。流行病学家认为筛查试验通常存在两种执行误差。第一种误差是过度诊断,即虽然个体的检测结果为阳性,但是实际上没有患病,这些个体被称为“假阳性”。检测结果为假阳性的人们不仅会背负癌症的烙印,同时也将感受到亲朋好友的焦虑与恐惧(并且渴望“有所作为”),随后他们会加速接受更多的检测以及侵入性治疗。

第二种误差是诊断不足(与过度诊断相对):虽然个体的检测结果为阴性,但是其实已经身患癌症。流行病学术语将这种情况称为“假阴性”。由于诊断不足会让患者误以为自己并未患病,因此一旦出现症状(筛查试验未能发现疾病),他们就会滑向另外一种深渊(绝望、震惊与背叛)。

然而上述两种误差的问题在于它们总是形影不离,过度诊断与诊断不足似乎就锁定在跷跷板的两端。虽然筛查试验可以采用降低患者阳性标准来避免过度诊断,但是其代价往往就是诊断不足(错失处于阳性与阴性之间灰色地带的患者)的比率上升。现在我们通过伊根的形象比喻来举例说明这种平衡关系。假设蜘蛛要布下天罗地网来捕获空中飞舞的苍蝇。它发现提高蛛网密度可以增加捕获苍蝇的机会(真阳性),可是这也增加了捕捉到空气中悬浮的垃圾与碎屑的机会(假阳性)。相比之下,降低蛛网密度会让捕获真正猎物的机会有所减少,但是每次只要抓到东西,那么就很有可能是苍蝇。对于癌症来说,过度诊断与诊断不足都会付出高昂的代价,通常很难在两者之间实现精准的平衡。我们希望每种癌症检测方法都具有完美的特异性与敏感性,但是目前筛查技术无法做到尽善尽美。因此筛查往往由于不能满足上述基本要求(过度诊断或诊断不足的比例高得惊人)而宣告失败。

不过假设我们开发的新型检测方法成功突破了这个关键瓶颈。例如,在过度诊断与诊断不足的比率可以接受的情况下,我们对一些热心配合临床试验的志愿者进行检测。现在进一步假设这种检测方法已经进入公共领域,医生马上就可以发现此类早期症状貌似良性的癌前病变,而它们与之前所见到的生长迅速的侵袭性肿瘤形成了鲜明对比。那么这种检测方法能算作成功吗?

答案当然是否定的:只是通过筛查发现某个小型肿瘤还远远不够。众所周知,癌症的生物学行为千奇百怪。某些肿瘤先天就表现为良性,基因决定了它们不可能发生恶变;而某些肿瘤本质上就具有侵袭性,即便是在无症状阶段进行早期干预也很难改变患者的预后。为了解决癌症本身固有的行为异质性,筛查试验必须满足延长生存期的要求。

现在假设我们构思出一项旨在判断筛查试验能否延长生存期的研究。参加本项试验的主角是一对比邻而居的同卵双胞胎姐妹,她们的名字分别是“希望”(Hope)与“谨慎”(Prudence)。“希望”选择接受筛查,可是担心过度诊断与诊断不足的“谨慎”拒绝了筛查。

但是“希望”与“谨慎”并不知晓,她们会在1990年同时患上相同的癌症。1995年,“希望”通过筛查试验发现了肿瘤,于是她随即接受了手术与化疗。“希望”在术后5年出现肿瘤复发,并且于2000年(确诊10年之后)去世。相比之下,1999年,“谨慎”在乳房肿块不断增大之时才发现已经患癌。虽然她也接受了治疗,但是收效甚微。最终,“谨慎”与“希望”在出现复发后于2000年同时去世。

在姐妹俩的联合葬礼上,当吊唁者从两具相同的棺木前依次走过时,“希望”与“谨慎”的医生爆发了争执。“希望”的医生坚称她的生存期为5年:1995年,“希望”被发现罹患肿瘤;2000年,她死于肿瘤复发。与此同时,“谨慎”的医生则认为她的生存期仅为1年:1999年,“谨慎”被发现罹患肿瘤;2000年,她死于肿瘤复发。然而上述有关孪生姐妹同时死于相同肿瘤的结论完全错误。其实破解这种名为领先时间偏倚(lead-time bias)的悖论并不复杂。因为通过早期检测可以将诊断时间提前,所以将生存期作为筛查试验的终点存在瑕疵。虽然“希望”与“谨慎”的肿瘤具有相同的生物学行为,但是由于医生在早期就发现了“希望”的肿瘤,因此筛查试验被错误地认为延长了她的生存期。

然而目前我们采用的检测方法必须要跨越另一道障碍:它应当能够改善死亡率而不是延长生存期。如果想要评判“希望”接受的筛查试验能否使其获益,那么唯一恰当的方式就是在忽略确诊时间的情况下了解她是否活得更长。假设“希望”一直活到2010年(比“谨慎”多活了10年),那么我们就可以合情合理地将这种获益归功于筛查试验。由于这对孪生姐妹正好同时去世,因此我们发现筛查试验并不能使其获益。

综上所述,筛查试验的成功之路可谓异常曲折与艰难。它不仅必须避免落入过度诊断与诊断不足的陷阱,而且必须摆脱以早期发现作为自身终点的诱惑,同时还必须闯过偏倚与选择遍布的险恶水道。虽然“生存期”极具诱惑力,但是它不应该作为研究的终点。除此之外,每个步骤的充分随机化对筛查试验也起着至关重要的作用。只有满足所有这些标准的筛查试验(在真正随机的环境下,证明死亡率可以通过降低过度诊断或诊断不足的比率而获益)才能被评判为成功。由于满足上述各种要求的可能性微乎其微,因此极少有筛查试验能够经得起这种考验并且使癌症患者真正从中获益。

※※※

1963年冬季,有三位学者着手启动了一项大规模的临床试验,旨在评估乳房摄影筛查无症状女性是否可以降低乳腺癌的死亡率。[20]尽管这三位学者在各自的领域中人微言轻,但是他们都致力于开辟乳腺癌研究的新天地。路易斯·韦内特(Louis Venet)是一位接受过传统教育的外科医生,他希望通过发现早期癌症来避免业内已经成为常态的毁损性根治手术。山姆·夏皮罗(Sam Shapiro)是一位统计学家,他在临床试验中非常注重方法的创新。菲利普·斯崔克思(Philip Strax)是一位来自纽约的内科医生,或许他加入此项研究的原因最令人心碎:20世纪50年代中期,他陪伴身患晚期乳腺癌的妻子经受了痛苦的折磨。[21]斯崔克思非常渴望通过X射线发现癌前病变,而这更像是他为挽回爱妻生命发起的个人圣战。

韦内特、斯崔克思与夏皮罗等三人在临床试验领域的积淀非常深厚:项目启动伊始,他们就意识到这种前瞻性随机试验需要将死亡率作为评估乳房摄影术的终点。从方法论而言,他们是想重现多尔与希尔在20世纪50年代进行的著名吸烟试验。但是这项试验在逻辑上应该如何操作呢?多尔与希尔的成功得益于英国医疗服务体系的国有化。这项举措可以为他们的试验提供稳定的人群,受试者主要是来自在英国国民医疗服务体系“通信录”中注册的医生。相比之下,第二次世界大战后,美国私有化浪潮为开展乳房摄影试验提供了机会。1944年夏季,纽约的立法者推出了一项全新的医疗保障计划,旨在为纽约的雇员群体中的承保者提供健康保险。这项名为健康保险计划(HIP)的项目就是如今健康维护组织(HMO)的前身。

HIP的问世填补了保险领域的一项重大空白。20世纪50年代中期,移民潮、“二战”以及大萧条这三股力量迫使女性走出家庭并占据了纽约将近1/3的工作岗位。由于这些职业女性非常需要健康保险,因此风险共担与价格合理的HIP自然成为首选。到了20世纪60年代早期,HIP已经与遍布纽约的31家医疗集团签约,而它们的服务人群已经达到30多万(其中大约8万人是女性)。[22]

斯崔克思、夏皮罗与韦内特很快就意识到了上述资源的重要性:这些分布在纽约市区与郊区的女性组成了一个“封闭”人群,她们非常适合研究人员对其进行长期筛查与随访。此项试验在设计之初便被刻意简化:参与HIP且年龄在40~64岁的女性被分为两组。其中一组接受了乳房摄影筛查,而另外一组则未进行任何干预。20世纪60年代筛查试验的伦理标准使分组识别变得非常简单。对于未接受筛查的一组(例如,未进行乳房摄影的女性)来说,研究人员甚至不需要征得她们同意,这些女性只是被动地加入试验并随着时间推移接受随访。

1963年12月,这项试验在启动后随即演变为一场顾此失彼的噩梦。众所周知,当时的乳房摄影术非常烦琐:不仅机器笨重如牛,底片小巧如窗,而且暗室里还飞溅着有毒化合物。虽然这种筛查方法最好在专门的X光室内进行,但是由于无法说服她们来诊所(许多人住在纽约上城)做检查,因此斯崔克思与韦内特只好将X光机塞进一辆流动售货车[23],然后停在曼哈顿中城的冰激凌车与三明治小贩旁,利用午餐时间为此项研究招募女性受试者。[24]

斯崔克思开始全神贯注于受试者的招募工作。如果某位适龄女性拒绝参加该项目,那么他会反复通过电话与信函来说服对方加入。为了满足每天成千上万的筛查需求,这些诊所对于工作流程进行了精心打磨。

“问诊……5站×12名女性/小时=60名女性……更衣室:16间×6名女性/小时=96名女性/小时。每间更衣室有4个衣柜,占地面积是1平方米,16间更衣室共有64个衣柜。当筛查试验‘循环’结束之后,受试者将走进原来的更衣室取回衣物……为了加快速度,这些诊所省去了椅子与镜子等便利设施。”[25]

床帘时起时落,柜门打开又关,人们进进出出。筛查试验就像旋转木马一样从白天忙到深夜。对斯崔克思、夏皮罗与韦内特这三位学者来说,他们在短短6年之内就完成了通常需要20年才能完成的筛查试验。

如果研究人员根据乳房摄影筛查发现了肿瘤,那么这些患者将按照当时认可的常规手段进行治疗——通常会采用根治手术来切除肿瘤(或者是术后加以放疗)。一旦这些受试女性完成了筛查与治疗的循环,那么斯崔克思、韦内特与夏皮罗就可以根据时间变化来比较筛查组与未筛查组的乳腺癌死亡率的变化。

※※※

1971年,也就是在该项研究启动8年之后,斯崔克思、韦内特与夏皮罗正式公布了HIP试验的初步结果。[26]人们似乎一眼望去就可以判定筛查可以让乳腺癌患者获益。HIP试验共有62000名女性参与,其中大约一半的受试者接受了乳房摄影筛查。研究显示,筛查组(接受乳房摄影筛查)的死亡人数为31例,而对照组(未筛查组)的死亡人数为52例。尽管两组之间的差异从死亡人数的绝对值上看并不明显,但是筛查大幅(将近40%)降低了女性乳腺癌患者的死亡率。斯崔克思欣喜若狂地写道:“放射科医生已经成为女性及其乳房潜在的守护神。”[27]

HIP试验的正面结果无疑对于乳房摄影术产生了爆炸性的推广作用。一位放射科医生写道:“只用了5年的时间,乳房摄影术就实现了从默默无闻到举世瞩目的跨越。”[28]与此同时,NCI对于筛查试验的热情也在日益高涨。美国癌症协会的首席医疗官亚瑟·霍利布(Arthur Holleb)很快就将乳房摄影术与宫颈涂片技术相提并论。霍利布在1971年宣布:“时机已经来临,美国癌症协会将像推广宫颈涂片一样启动规模宏大的乳房摄影筛查计划……我们再也不能要求美国人民以生命为代价承受这种疾病的劫掠,目前每年死于乳腺癌的人数相当于过去10年越南战场上人员损失的总和。开展更大规模国家级行动的时机已经来临。我坚信:胜利就在眼前。”[29]

美国癌症协会的这场大规模战役被称为“乳腺癌检测与示范项目”(BCDDP)。[30]值得注意的是,BCDDP并不是临床试验,而是名副其实的“示范”。整个项目没有设置治疗组与对照组。BCDDP准备在一年内对25万名女性进行筛查,该数字大约是斯崔克思3年筛查量的8倍,当然这也在某种程度上彰显了协会在国家层面主导乳房摄影筛查的地位。与此同时,BCDDP还得到了玛丽·拉斯克与全美几乎所有抗癌组织的大力支持。乳房摄影术这个曾经默默无闻的“弃儿”终于跻身医学界的主流。

※※※

不过即便BCDDP项目已经在稳步推进,围绕HIP试验的质疑依然甚嚣尘上。夏皮罗回忆,他当时将受试者随机分为“筛查组”与“对照组”,然后对这两组女性的死亡率进行了比较。但是就像20世纪60年代人们采用的通常做法一样,对照组女性并未被告知她们参加的是一项临床试验。似乎这些来自HIP名册的女性只是某个虚拟人群。只要对照组中有任何一位女性死于乳腺癌,那么斯崔克思与夏皮罗就要认真地更新他们的试验记录,但是对照组(只见树木,不见森林)作为一个抽象的整体根本不知道自己的存在。

从理论上来说,将虚拟群体与现实群体进行比较没有任何问题。但其实当该项目在20世纪60年代中期开始招募受试者之时,斯崔克思与夏皮罗就担心是否会有已经确诊为乳腺癌的患者入组,而筛查对于此类女性患者根本不会起到积极的作用。为了避免出现这种问题,夏皮罗开始选择性地将她们从筛查组与对照组中剔除。

众所周知,从筛查组(接受乳房摄影筛查)中剔除这些对象相对容易:放射科医生只需要在受试女性接受乳房摄影筛查之前询问既往病史即可。但是由于对照组是一个虚拟群体,无法通过现实问诊了解病史,因此对她们只能进行虚拟剔除。夏皮罗尽量公平地从两组受试者中剔除相同数量的女性,然而他最终在选择时可能还是受到了主观因素的影响。不过夏皮罗也许有些矫枉过正:他将许多之前罹患乳腺癌的受试者从筛查组中剔除。尽管两组人数上的差异(从30000名受试者中剔除了434人)很小,但是在统计学上具有重要意义。批评人士对此指责道:“对照组中的超额死亡率只是人为剔除的结果。由于对照组被错误地分配了更多之前罹患乳腺癌的受试者,因此对照组中的超额死亡人数是某种统计假象。”

乳房摄影术的支持者们对此十分震惊。他们坦陈需要进行公平合理的重新评估与再次试验。但是应该在哪里开展这种试验呢?由于20万女性已经入组BCDDP(没有资格再参加另一项试验),学术界对于结果认定也争论不休,因此这种试验必定不可能在美国进行。如今整个乳房摄影界只能在争议中漫无目的地重复开展筛查试验。他们不但没有在方法学上汲取其他试验的教训,反而启动了许多自相矛盾的平行试验。1976年至1992年,欧洲多地同时推出了许多规模空前的乳房摄影筛查试验,包括苏格兰的爱丁堡,瑞典的马尔默、科帕尔贝里、东约特兰、斯德哥尔摩与哥德堡。[31]与此同时,加拿大研究人员也启动了自己的随机化乳房摄影筛查试验,名为“全国乳腺癌筛查研究”。[32]可是就像乳腺癌历史上的陈年往事一样,乳房摄影筛查试验也沦为一场军备竞赛,似乎所有的研究团队都希望在这场比拼中领先其他对手。

※※※

果不其然,爱丁堡试验简直就是一场灾难。[33]由于这里分布着数百个彼此独立的医疗机构,因此选择此处作为试验地点绝对是个败笔。医生们以近乎武断的标准将受试女性分配到筛查组或对照组。更为糟糕的是,这些受试女性已经开始自行分组。而这种做法完全破坏了随机化的原则。此外,受试女性还经常在试验进行过程中随意调换分组,最终导致整个研究失去了价值。

加拿大试验则强调了对于细节的精准把握与关注。[34]1980年夏季,加拿大国家乳腺癌筛查研究(CNBSS)正式启动,研究人员通过信函、广告以及电话等方式为15家经过认证的医疗中心招募了3.9万名受试女性。受试者来到任何一家中心后,接待员会请她回答一些基本问题并填写一份调查问卷,接下来将会安排护士或医生对其进行检查,然后她的名字会被录入一份公开的名册。由于大部分医疗机构都习惯于使用蓝线笔记本作为名册,因此只需对其中的隔行数据进行统计就可以实现随机分配。例如,第一行的女性被分配到筛查组,第二行的女性被分配到对照组,第三行的进入筛查组,第四行的进入对照组,依此类推。

请大家仔细注意上述事件的顺序:女性受试者通常是在询问病史与体检之后才被随机分配到各组的。虽然这个顺序在原始协议(详细的指导手册已经发给每个中心)中既没有预期也没有规定,但就是这个微小的变化让整个试验前功尽弃。受试者在访谈之后再被分组根本不符合随机原则。而乳腺与淋巴结检查异常的女性也被不成比例地分配到了筛查组(在某一家中心,17人在筛查组,5人在对照组)。当然类似的情况还发生在之前罹患过乳腺癌的女性身上,以及那些基于既往病史或保险理赔(8人在筛查组,1人在对照组)被认定为“高危”人群的受试者。[35]

然而产生这种偏差的原因至今不详。难道护士将高危女性分配到筛查组是为了通过乳房摄影进一步明确诊断(获得第二诊疗意见)吗?这种违反原则的做法是故意为之的吗?还是说只是无意间的同情之举(迫使那些高危女性接受乳房摄影来帮助她们)?那些候诊的高危女性是否会想方设法跻身名册中的有利位置呢?她们是否得到了试验协调员、筛查医生、放射科技师以及接待员的指导呢?[36]

为了尝试回答上述问题并破解试验的症结所在,由流行病学家、统计学家、放射科医生以及法医专家组成的小组对这些字迹潦草的笔记本进行了仔细审阅。一项试验的负责人曾经反驳道:“怀疑就像观者眼中的美景。”[37]但是专家们还是发现了许多问题。在这些笔记本上,各种抄写错误比比皆是。例如姓名变更(替换或覆盖)、身份调换以及表格涂改。除此之外,现场工作人员的证词也加重了他们的疑虑。在一家中心,试验协调员选择性地将她的朋友们分配到筛查组(或许是希望通过这种方式来帮助她们挽救生命)。在另一家中心,一位技术员向专家组反馈:由于试验中的随机原则遭到广泛干预,因此受试者只是根据“引导”来入组。与此同时,学术期刊也成为双方互相谴责的战场。癌症研究学者诺曼·博伊德(Norman Boyd)在一篇社论摘要中轻蔑地写道:“应该确保临床试验中的随机分组方式不会发生改变。”[38]

然而除了上述惨痛教训之外,其他问题也大都悬而未决。人们仅从细节之处就可以感到这种组间比例失衡要比HIP研究还严重。众所周知,斯崔克思与夏皮罗由于选择性地剔除了筛查组中的高危患者而遭到质疑。现在批评人士开始指责CNBSS犯了与HIP相反的错误:研究人员选择性地增加了筛查组中的高危患者导致组间比例失衡。果不其然,CNBSS的研究结果明显自相矛盾:筛查组中死于乳腺癌的女性居然比对照组还要多。

※※※

这场争议最终在瑞典得到了平息。2007年冬季,我走访了20世纪70年代末期开展过乳房摄影试验的瑞典城市马尔默。这座宁静的工业小镇几乎位于瑞典半岛的最南端,其周围是一片平淡无奇的灰蓝色景象。斯科讷(Skåne)省荒芜的平原延伸至它的北部,厄勒(Øresund)海峡的波涛在其南部奔涌。20世纪70年代中期,马尔默遭遇了严重的经济衰退,该地区的经济与人口发展在近20年陷入了停滞,其城市人口迁移率令人吃惊地萎缩到了不足2%。[39]由于居住在马尔默的人群相对封闭,因此它成为开展复杂临床试验的理想地点。

1976年,共有4.2万名女性参加了马尔默乳房摄影筛查研究。[40]其中一半受试者(大约2.1万名女性)每年都会在马尔默总医院外的一家小诊所接受筛查,另一半受试者不进行筛查(从那时起,两组受试者就一直在被密切随访)。这项试验进行得非常顺利。首席研究员英瓦尔·安德森(Ingvar Andersson)回忆道:“由于整个马尔默地区只有一家乳腺诊所(相对于其城市规模来说并不常见),所有女性都常年在同一家诊所接受筛查,因此这项对照研究的受试者高度一致,堪称有史以来最严谨的一项试验。”[41]

1988年,马尔默研究在运行到第12年年底之时公布了其结果。[42]总体来说,筛查组中有588名女性被诊断为乳腺癌,而这个数字在对照组中是447(再次彰显了乳房摄影术在发现早期癌症中的作用)。但是值得注意的是,至少从确诊人数上看,早期发现乳腺癌并没有拯救太多的生命。研究显示,共有129名女性死于乳腺癌,其中筛查组63名,对照组66名,两者之间没有统计学差异。

但是这些死亡病例反映出了某种规律。当研究人员按照年龄对两组受试者进行分析时,就会发现55岁以上的女性能够从筛查中获益,其乳腺癌死亡率下降了20%。[43]相比之下,乳房摄影并不能让年轻女性从中获益。

继马尔默研究之后,陆续有许多试验也印证了这种规律(老年女性获益明显,年轻女性几无获益)。2002年,也就是马尔默研究正式启动26年之后,一份整合了所有瑞典研究的详尽分析报告发表在《柳叶刀》(Lancet)杂志上。[44]文中报道,共有24.7万名女性参与了这些试验,而汇集分析证明了马尔默研究发现的规律。整体而言,在经过15年的随访之后,乳房摄影术可以让年龄在55~70岁的女性乳腺癌死亡率下降20%~30%。但是对于年龄在55岁以下的女性来说,乳房摄影术所带来的益处几乎难以察觉。

简而言之,乳房摄影术并非所有女性的唯一救星。它的效果,正如统计学家唐纳德·贝瑞(Donald Berry)描述的那样:“对于一部分女性来说的确无可辩驳,但是对于另一部分女性就可能徒劳无益。”[45]贝瑞写道,“筛查就像是买彩票。只有少数女性才能成为赢家……尽管绝大多数女性无法获益,但是她们还是要耗费时间并承担筛查的风险……直到50岁还未进行乳房摄影筛查的风险就像是不戴头盔骑15个小时车一样。”[46]如果全美的女性都选择不戴头盔骑15个小时车,那么与佩戴头盔的女性相比死亡人数肯定会多一些。然而对于每周只去一次街角杂货店的女性来说,她不戴头盔所面临的风险简直可以忽略不计。

不过至少在马尔默,人们还没有意识到这种细微的差别。尽管许多原来接受筛查的女性已经死于各种原因,但是就像马尔默当地一位居民所描述的那样,乳房摄影术“更像是这里的一种宗教信仰”。在一个寒风凛冽的冬日清晨,我站在诊所外面看到数十位女士(有些人的年龄应该不止55岁,而另外一些则年轻得多)虔诚地来进行年度筛查。我猜想这家诊所在运行中仍然保持了当年的效率与勤奋。即便在其他城市开展的同类项目以失败告终,它还是出色完成了癌症预防史上最重要且最艰辛的试验。这些女性神态轻松地进进出出,仿佛她们对此已经习以为常。其中许多人显然忘记了贝瑞的警告,她们没有戴头盔就骑上了自行车。

※※※

为什么一项简单、可重复、价廉且易学的技术(通过X射线影像检测乳房内小型肿瘤的阴影)要奋斗50年并历经9次试验才能明确其临床获益呢?

部分原因在于早期筛查试验的复杂性(扑朔迷离、充满争议且容易出错)。爱丁堡试验中随机化分组存在缺陷;BCDDP项目没有进行随机化分组;夏皮罗试验始终在错误地追求公平;加拿大试验因同情而功亏一篑。

此外,还有部分原因与过度诊断和诊断不足有关(尽管这个根深蒂固的难题出现了重大转机)。由于乳房摄影术的假阳性率与假阴性率均很高,因此它并不是筛查早期乳腺癌的理想工具。然而乳房摄影术的致命缺陷在于假阳性率与假阴性率并非一成不变:它们的高低与受试者年龄有关。对于年龄在55岁以上的女性来说,乳腺癌发病率已经高到相对低效的筛查工具就可以发现早期肿瘤并使患者获益。对于年龄在40岁至50岁的女性而言,乳腺癌发病率通常降至乳房摄影刚好发现“肿块”假阳性的程度。打一个形象的比方:某种用于辨识小号字体的放大镜可以在阅读10号甚至是6号字的时候完美发挥,但是它的放大作用毕竟有限,当字体小到一定程度之后,正确与错误辨识文字的概率就没有什么区别了。在年龄55岁以上的女性中,只要乳腺癌发病率的“字号”足够大,那么乳房摄影术就可以充分发挥作用。可是在40岁至50岁的女性中,乳房摄影术却面临着令人尴尬的窘境,这已经超出了其内在能力,成为一种鉴别测试。无论我们如何增加上述女性的乳房摄影次数,它依然会是一种低效的乳腺癌筛查工具。

当然答案的最后一部分在于我们该怎样看待癌症与筛查。众所周知,人类是拥有视觉的物种。我们相信眼见才为实,因此发现癌症的早期形态才是预防的最佳手段。就像作家马尔科姆·格拉德威尔(Malcolm Gladwell)曾经描述的那样:“这种教科书案例为我们开展抗癌战争指明了方向。采用高清相机、拍摄详细图片、尽早发现肿瘤、迅速积极治疗……现在肿瘤造成的威胁一览无余。大即是恶(性),小就是良(性)。”[47]

但是就算我们使用的相机出类拔萃,癌症还是会打破这种简单的规则。由于转移是导致乳腺癌患者死亡的罪魁祸首,因此在肿瘤转移前发现并切除病灶就应该可以挽救其生命。事实上,虽然原发肿瘤体积很小,但是它还是可能发生转移。即便是乳房摄影术都难以察觉的小型肿瘤也可能携带有令其更易出现早期转移的遗传程序。与之相反,大型肿瘤可能先天就属于良性(不会发生侵袭与转移)的范畴。也就是说,肿瘤大小只能对部分问题做出解释。因此肿瘤生物学行为的差异是量变与质变共同作用的结果。

然而静态图片很难捕捉到这种质变的过程。发现“小型”肿瘤后即从体内切除并不能让我们免受癌症的困扰,当然这也是我们苦苦挣扎而不愿相信的事实。毕竟乳房摄影或宫颈涂片只相当于反映癌症萌芽状态的肖像。与任何肖像作品一样,它也希望能够抓住所描绘对象的基本要素:灵魂、内在、未来以及行为。摄影大师理查德·艾夫登(Richard Avedon)喜欢说:“所有照片都很完美,(但)均不能反映真相。”[48]

※※※

但是如果每种癌症的“真相”都已经铭刻在其行为中,那么人们怎样才能捕捉到这种神秘的特质呢?科学家们又该如何从这些简单的表象背后发现癌症与恶性潜能、弱点缺陷、播散方式以及未来转归之间的关系呢?

20世纪80年代末期,整个癌症预防领域似乎都受阻于这个关键的节点。因此人们只有深入了解癌症发生机制(正常细胞向癌细胞转化的方式)才能破解上述迷局。研究显示,乙型肝炎病毒与幽门螺旋杆菌引起的慢性炎症可以导致癌变,但是它们的具体路径是什么呢?埃姆斯试验证明了致突变性与致癌性密切相关,然而是哪些基因发生了突变?它们又经历了何种机制呢?

如果我们已经掌握了此类突变的特点,那么能巧妙地利用它们来预防癌症吗?例如,作为大规模乳房摄影筛查试验的替代,能否通过更为灵敏的乳房摄影筛查试验对受试女性进行风险分级(辨别出那些具有乳腺癌突变倾向的女性),然后让这些具有高危因素的女性接受更高级别的监测?与简单的静态图像相比,这种以技术为先导的策略能否更准确地捕捉到癌症的蛛丝马迹呢?

与此同时,癌症治疗领域似乎也遭遇了同样的瓶颈。哈金斯与沃波尔已经证实,了解癌细胞的内在机制可以揭示其自身的弱点。但是这种突破需要自下而上进行,也就是要从癌细胞转向治疗。NCI癌症治疗部前主任布鲁斯·凯伯纳(Bruce Chabner)回忆道:“在这个10年结束之际,包括预防与治疗在内的整个肿瘤学领域似乎都触及了知识的盲区。我们在不了解癌细胞的情况下试图对抗癌症,仿佛不懂内燃机的原理却要发射火箭一样。”[49]

但是也有人不同意这种说法。在筛查试验举步维艰,致癌物比比皆是以及癌变机制尚不明确之时,在癌症治疗上发动大规模攻击的迫切心情正处于蓄势待发的临界点。尽管这些化疗药物的细胞毒性非常明显,但是人们往往会在不明就里的情况下便开始以毒攻毒。就像当年那些将根治手术发挥到极致的外科医生一样,这些因循守旧的化疗医生也在幻想通过药物来根治癌症。如果清除体内所有正在分裂的细胞才能满足治愈癌症的需求,那么就去做吧。最终这种理念会将肿瘤学引入万劫不复的至暗时刻。

[1] It is to earlier diagnosis that we must look: J. P. Lockhart-Mummery, “Two Hundred Cases of Cancer of the Rectum Treated by Perineal Excision,” British Journal of Surgery 14 (1926–27): 110–24.

[2] The greatest need we have today: Sidney Farber, letter to Etta Rosensohn, November 1962.

[3] Lady, have you been “Paptized”?: “Lady, Have You Been ‘Paptized’?” New York Amsterdam News, April 13, 1957.

[4] George Papanicolaou: For an overview, see George A. Vilos, “After Office Hours: The History of the Papanicolaou Smear and the Odyssey of George and Andromache Papanicolaou,” Obstetrics and Gynecology 91, no. 3 (1998): 479–83; S. Zachariadou-Veneti, “A Tribute toGeorge Papanicolaou (1883–1962),” Cytopathology 11, no. 3 (2000): 152–57.

[5] By the late 1920s: Zachariadou-Veneti, “Tribute to George Papanicolaou.”

[6] As one gynecologist archly remarked: Edgar Allen, “Abstract of Discussion on Ovarian Follicle Hormone,” Journal of the American Medical Association 85 (1925): 405.

[7] Papanicolaou thus began to venture: George N. Papanicolaou, “The Cancer-Diagnostic Potential of Uterine Exfoliative Cytology,” CA: A Cancer Journal for Clinicians 7 (1957): 124–35.

[8] “aberrant and bizarre forms”: Ibid.

[9] Papanicolaou published his method: G. N. Papanicolaou, “New Cancer Diagnosis,” Proceedings of the Third Race Betterment Conference (1928): 528.

[10] “I think this work will be carried”: Ibid.

[11] Between 1928 and 1950: George A. Vilos, “After Office Hours,” Obstetrics and Gynecology 91 (March 1998): 3.

[12] A Japanese fish and bird painter: George N. Papanicolaou, “The Cell Smear Method of Diagnosing Cancer,” American Journal of Public Health and the Nation’s Health 38, no. 2 (1948): 202–5.

[13] At a Christmas party in the winter of 1950: Irena Koprowska, A Woman Wanders through Life and Science (Albany: State University of New York Press, 1997), 167–68.

[14] “It was a revelation”: Ibid.

[15] In 1952, Papanicolaou convinced the National Cancer Institute: Cyrus C. Erickson, “Exfoliative Cytology in Mass Screening for Uterine Cancer: Memphis and Shelby County, Tennessee,” CA: A Cancer Journal for Clinicians 5 (1955): 63–64.

[16] In the initial cohort of about 150,000: Harold Speert, “Memorable Medical Mentors: VI. Thomas S. Cullen (1868–1953),” Obstetrical and Gynecological Survey 59, no. 8 (2004): 557–63.

[17] 557 women were found to have preinvasive cancers: Ibid.

[18] In 1913, a Berlin surgeon named Albert Salomon: D. J. Dronkers et al., eds., The Practice of Mammography: Pathology, Technique, Interpretation, Adjunct Modalities (New York: Thieme, 2001), 256.

[19] “trabeculae as thin as a spider’s web”: H. J. Burhenne, J. E. Youker, and R. H. Gold, eds., Mammography (symposium given on August 24, 1968, at the University of California School of Medicine, San Francisco) (New York: S. Karger, 1969), 109.

[20] In the winter of 1963, three men set out: Sam Shapiro, Philip Strax, and Louis Venet, “Evaluation of Periodic Breast Cancer Screening with Mammography: Methodology and Early Observations,” Journal of the American Medical Association 195, no. 9 (1966): 731–38.

[21] By the mid-1950s, a triad of forces: Thomas A. Hirschl and Tim B. Heaton, eds., New York State in the 21st Century (Santa Barbara, CA: Greenwood Publishing Group, 1999), 144.

[22] By the early 1960s, the plan had enrolled: See, for instance, Philip Strax, “Screening for breast cancer,” Clinical Obstetrics and Gynecology 20, no. 4 (1977): 781–802.

[23] Strax and Venet eventually outfitted a mobile van: Philip Strax, “Female Cancer Detection Mobile Unit,” Preventive Medicine 1, no. 3 (1972): 422–25.

[24] 除了乳房摄影之外,外科医生通常还会对女性患者进行乳房检查。——作者注

[25] “Interview … 5 stations X 12 women”: Abraham Schiff quoted in Philip Strax, Control of Breast Cancer through Mass Screening (Philadelphia: Mosby, 1979), 148.

[26] In 1971, eight years after the study: S. Shapiro et al., “Proceedings: Changes in 5-Year Breast Cancer Mortality in a Breast Cancer Screening Program,” Proceedings of the National Cancer Conference 7 (1972): 663–78.

[27] “The radiologist,” he wrote: Philip Strax, “Radiologist’s Role in Screening Mammography,” unpublished document quoted in Barron H. Lerner, “‘To See Today with the Eyes of Tomorrow’: A History of Screening Mammography,” Canadian Bulletin of Medical History 20, no. 2 (2003): 299–321.

[28] “Within 5 years, mammography has moved”: G. Melvin Stevens and John F. Weigen, “Mammography Survey for Breast Cancer Detection. A 2-Year Study of 1,223 Clinically Negative Asymptomatic Women over 40,” Cancer 19, no. 1 (2006): 51–59.

[29] “The time has come”: Arthur I. Holleb, “Toward Better Control of Breast Cancer,” American Cancer Society press release, October 4, 1971 (New York: ACS Media Division), Folder: Breast Cancer Facts, quoted in Lerner, “ ‘To See Today with the Eyes of Tomorrow.’ ”

[30] the Breast Cancer Detection and Demonstration Project: Myles P. Cunningham, “The Breast Cancer Detection Demonstration Project 25 Years Later,” CA: A Cancer Journal for Clinicians 47, no. 3 (1997): 131–33.

[31] Between 1976 and 1992, enormous parallel trials: See below for particular stud-ies. Also see Madelon Finkel, ed., Understanding the Mammography Controversy (Westport, CT: Praeger, 2005), 101–5.

[32] In Canada, meanwhile, researchers lurched: A. B. Miller, G. R. Howe, and C. Wall, “The National Study of Breast Cancer Screening Protocol for a Canadian Randomized Controlled Trial of Screening for Breast Cancer in Women,” Clinical Investigative Medicine 4, nos. 3–4 (1981): 227–58.

[33] Edinburgh was a disaster: A. Huggins et al., “Edinburgh Trial of Screening for Breast Cancer: Mortality at Seven Years,” Lancet 335, no. 8684 (1990): 241–46; Denise Donovan et al., “Edinburgh Trial of Screening for Breast Cancer,” Lancet 335, no. 8695 (1990): 968–69.

[34] The Canadian trial, meanwhile: Miller, Howe, and Wall, “National Study of Breast Cancer Screening Protocol.”

[35] For a critical evaluation of the CNBSS, HIP, and Swedish studies, see David Freedman et al., “On the Efficacy of Screening for Breast Cancer,” International Journal of Epidemiology 33, no. 1 (2004): 43–5.

[36] Randomization problems in the Canadian National Breast Screening Study: Curtis J. Mettlin and Charles R. Smart, “The Canadian National Breast Screening Study: An Appraisal and Implications for Early Detection Policy,” Cancer 72, no. S4 (1993): 1461–65; John C. Bailar III and Brian MacMahon, “Randomization in the Canadian National Breast Screening Study: A Review for Evidence of Subversion,” Canadian Medical Association Journal 156, no. 2 (1997): 193–99.

[37] “Suspicion, like beauty”: Cornelia Baines, Canadian Medical Association Journal 157 (August 1, 1997): 249.

[38] “One lesson is clear”: Norman F. Boyd, “The Review of Randomization in the Canadian National Breast Screening Study: Is the Debate Over?” Canadian Medical Association Journal 156, no. 2 (1997): 207–9.

[39] Migration into and out of the city: See, for instance, Scandinavian Journal of Gastroenterology 30 (1995): 33–43.

[40] In 1976, forty-two thousand women enrolled: Ingvar Andersson et al., “Mammographic Screening and Mortality from Breast Cancer: The Malmö Mammographic Screening Trial,” British Medical Journal 297, no. 6654 (1988): 943–48.

[41] “There was only one”: Ingvar Andersson, interview with author, March 2010.

[42] In 1988, at the end of its twelfth year: Andersson et al., “Mammographic Screening and Mortality.” Also Andersson, interview with author.

[43] When the groups were analyzed by age: Ibid.

[44] In 2002, twenty-six years after the launch of the original: Lennarth Nystöm et al., “Long-Term Effects of Mammography Screening: Updated Overview of the Swedish Randomised Trials,” Lancet 359, no. 9310 (2002): 909–19.

[45] Its effects, as the statistician Donald Berry describes it: Donald Berry, interview with author, November 2009.

[46] Berry wrote, “Screening is a lottery”: “Mammograms Before 50 a Waste of Time,” Science a Go Go, October 12, 1998, http://www.scienceagogo.com/news/19980912094305data_trunc_sys.shtml (accessed December 29, 2009).

[47] “This is a textbook example”: Malcolm Gladwell, “The Picture Problem: Mammography, Air Power, and the Limits of Looking,” New Yorker, December 13, 2004.

[48] “All photographs are accurate”: Richard Avedon, An Autobiography (New York: Random House, 1993); Richard Avedon, Evidence, 1944–1994 (New York: Random House, 1994).

[49] “As the decade ended,” Bruce Chabner: Bruce Chabner, interview with author, August 2009.