第二十八章 癌症统计
我们必须学会将对逝者的专注用于对生者的统计。[1]
——奥黛丽·洛德(Audre Lorde)
统计是这代人的宗教信仰。它既是希望又是救赎。[2]
——格特鲁德·斯泰因(Gertrude Stein)
1985年11月,正当肿瘤学身处严峻现实与浮夸过往的关键十字路口之时,哈佛大学生物学家约翰·凯恩斯(John Cairns)复活了对抗癌战争的进展评估。
众所周知,“复活”一词隐含着埋葬的意思,自1937年《财富》杂志发表抗癌文章以来,人们对抗癌战争的综合评估实际上已经被匪夷所思地埋葬在海量信息中。由于各式各样的细枝末节都被媒体过度报道,因此我们几乎无法把握该领域的整体发展轨迹。从某种程度上说,凯恩斯正在对前10年杂乱无章的观点做出反应。他希望能够摆脱细节困扰并俯瞰全局。癌症患者的总体生存时间延长了吗?自1971年以来对抗癌战争的巨额投资已经转化成为确切的临床成果了吗?
为了对“进展”这种公认的模糊概念进行量化分析,凯恩斯从一部始于第二次世界大战期间的破旧癌症登记册入手。其中不仅涵盖了美国各州的癌症相关死亡统计数据,还对涉及的肿瘤类型进行了详细分类。凯斯恩在《科学美国人》上撰文写道:“这些登记册勾勒出一幅完美的癌症自然史画卷,并且即将成为讨论任何治疗手段的重要基石。”[3]他希望通过分析这些数据掌握癌症演化的规律,而其时间跨度也从数日或数月延展至数十年。
凯恩斯开始使用20世纪50年代以来的癌症登记数据来评估肿瘤学治疗进展(进步)挽救的患者人数。(由于手术与放疗在20世纪50年代之前已经问世,因此这些疗法被排除在研究之外;凯恩斯对20世纪50年代之后生物医学领域快速发展阶段涌现出的进展更感兴趣。)他把这些治疗进展分门别类进行梳理,然后根据它们对癌症死亡率的相对影响做出统计预测。
第一类是“治愈性”化疗,也就是NCI的弗雷与弗赖雷克以及印第安纳大学的艾因霍恩团队所力推的方法。如果假设化疗对于各种癌症亚型的治愈率能够达到80%或90%,那么凯恩斯估计这种方法每年可以拯救2000~3000人的生命,包括700名急性淋巴细胞白血病患儿、大约1000名霍奇金病患者、300名晚期睾丸癌男性患者、20~30名女性绒毛膜癌患者(到了1986年,由于非霍奇金淋巴瘤的亚型也可以通过联合化疗治愈,因此又额外增加了2000人。尽管按照这种统计口径计算,治愈总数接近5000人,但是凯恩斯的早期研究并没有包含这些数据)。
除此之外,“辅助”化疗(例如博纳东纳与费舍尔的乳腺癌患者手术后化疗试验)每年也可以挽救10000~20000人的生命。最后,凯恩斯将宫颈涂片与乳房X光检查等早期癌症筛查手段也纳入其中。根据他的粗略统计,此类方法每年又可以挽救另外10000~15000人的生命。综上所述,这些防治手段每年可以挽救大约35000~40000人的生命。
现在让我们把这个数字与1985年的美国癌症发病率做一个比较。1985年的癌症发病率为448/100000,或者说每年有100万美国人被诊断为癌症。而同年的癌症死亡率为211/100000,或者说每年有50万美国人死于癌症。总而言之,即便是相对乐观地去估算可以挽救的患者人数,能够从治疗与筛查进展中获益的美国人也屈指可数(不及美国人患癌人数的1/20,或者说不到死于癌症人数的1/10)。
不过凯恩斯并没有因为这个数字而感到意外。实际上,他认为那些经验丰富的流行病学家也会理性面对。在医学史上,从来没有哪种重要疾病仅靠单一治疗方案就可以被攻克。例如,如果我们绘制出结核病患者的死亡曲线,那么就会发现死亡人数在新型抗生素问世之前数十年就已经下降。与那些灵丹妙药相比,城市发展水平(饮食营养、居住环境、卫生条件、污水处理与空气质量改善)潜移默化的改变起到了决定性作用,它们才是促使欧洲与美国社会结核病死亡率下降的主力军。此外,疫苗的应用也使脊髓灰质炎与天花得到了有效控制。凯恩斯写道:“之所以美国的疟疾、霍乱、伤寒、结核病、坏血病、糙皮病以及其他重大疾病的发病率大幅下降,是因为人类已经掌握了预防这些疾病的手段……将大部分成绩归功于治疗是对既往工作的否定。”
※※※
虽然凯恩斯的文章在政界颇具影响力,但是他依然缺乏统计学数据的支撑。人们需要某些量化手段将多年以来的癌症死亡率趋势进行比较分析,例如,1985年死于癌症的人数与1975年相比是否有所改变?1986年5月,距离凯恩斯的文章问世尚不足一年之时,他在哈佛大学的两位同事,约翰·贝勒(John Bailar)与伊莱恩·史密斯(Elaine Smith)就在《新英格兰医学杂志》上发表了一篇分析报道。
为了理解贝勒–史密斯文章的分析结果,我们首先要理解其采用的统计学方法。从一开始,贝勒就拒绝使用人们最熟悉的患者测量指标:生存率随时间的变化。5年生存率是衡量肿瘤患者在确诊之后生存5年的比例,但是生存率分析的致命弱点是它很容易受到偏倚的影响。
为了理解这些偏倚的由来,可以假设两个相邻村庄的人口数量与癌症死亡率完全相同。平均而言,两个村庄中癌症患者的确诊年龄均为70岁。他们在确诊之后继续生存10年直到80岁去世。
现在假设其中一个村庄引入了某种新型特异性检测手段,它可以将血液中的预防素(Preventin)蛋白水平作为肿瘤标记物。假设预防素蛋白是一种理想的检测指标,那么预防素“阳性”会被立即诊断为癌症。
让我们继续假设预防素这种极其灵敏的检测手段可以发现早期癌症。预防素筛查引入后不久,这种神奇的新型检测手段就开始大显身手,A村癌症患者的平均确诊年龄从70岁下降至60岁。然而由于缺乏有效的治疗手段,因此两个村庄的癌症患者平均死亡年龄没有变化。
对于一知半解的旁观者来说,这种情况可能会产生某种奇怪的结果。预防素筛查在A村中发挥了作用,癌症患者的平均确诊年龄为60岁,死亡年龄为80岁,其生存时间为20年。B村没有使用预防素筛查,癌症患者的平均确诊年龄为70岁,死亡年龄为80岁,其生存时间为10年。然而,“延长”的生存时间未必真实可靠。预防素怎么可能在没有任何治疗手段参与的情况下凭空延长生存时间呢?
其实答案显而易见:上述生存时间的延长只是一种假象。虽然表面上看起来生存率提高了,但实际情况是筛查延长了患者从确诊到死亡的时间。
为了避免出现这种偏倚,一种简单的做法就是对总死亡率而不是生存率进行评估(在以上案例中,死亡率并未受到早期筛查方法的影响)。
然而这种方法也存在严重的瑕疵。“癌症相关死亡”是癌症登记中的原始数据,它是医生对患者做出死亡诊断的统计结果。将时间跨度较长的原始数据进行比较存在以下问题:由于美国人口(就像其他国家一样)正在逐渐老化,因此癌症相关死亡率也势必随之增长。老年人不可避免地会罹患癌症,而这就像是潮水中存在的漂浮物。即便实际的癌症死亡率并未改变,但是如果国民中老年人口比例高于年轻人,那么就意味着将会有更多的人罹患癌症。
为了比较时间跨度较长的样本,我们需要采用一些方法将两组不同的人群进行标准化处理,换句话说就是运用统计学方法将其中一组人“缩入”到另一组人。其实这就是贝勒分析的创新之处:为了有效地完成这种数据缩放,他使用了一种名为“年龄校正”的标准化形式。
在理解年龄校正的含义之前,让我们先假设存在两组完全不同的人群。其中一组以年轻人为主,另一组则以老年人为主。如果我们对癌症死亡的“原始”数据进行统计,那么以老年人为主的人群的癌症死亡例数势必较多。
现在假设我们通过标准化处理消除了第二组人群的年龄差异,然后以第一组人群为参考,对第二组人群进行校正。当年龄差异消除之后,死亡率也会按比例缩减。由于两组人群中包含有相同数量(经过年龄校正)的老年人与年轻人,因此我们可以计算出经过校正的癌症死亡率。贝勒使用这种方法对跨度长达数十年的数据进行了仔细分析。他首先把每年的人口数分成不同的年龄组,如20~29岁、30~39岁、40~49岁,依此类推,然后再用1980年的人口分布(随机抽取作为标准)数据对其他年份进行标准化处理,最终得到经过校正的癌症发病率。只要各年龄组的人口分布都符合相同的人口统计学标准,那么就可以根据时间的推移对这些人群进行研究与比较。[4]
※※※
贝勒与史密斯的文章于1986年5月发表后随即撼动了肿瘤学领域的根基。就连有些悲观的凯恩斯也曾经期望,癌症相关死亡率至少应该随着时间推移出现小幅下降。但是贝勒与史密斯发现,凯恩斯的愿景有些过于理想:1962年至1985年,癌症相关死亡率增长了8.7%。当然这种增长是多种因素作用的结果,其中影响最大的是20世纪50年代吸烟率的增长导致肺癌发病率升高。
然而不争的事实是,美国的癌症死亡率并未下降。[5]贝勒与史密斯担忧地写道:“没有证据显示35年来在改善癌症疗效方面付出的艰辛对于减少死亡(最重要的临床结果评价指标)有什么整体影响。”[6]他们继续写道:“尽管在某些少见肿瘤(例如儿童白血病与霍奇金病)的姑息治疗与延长生命上取得了进展,但是我们实际上还是输掉了这场抗癌战争……35年来人们在改善癌症疗效上的所有努力可谓是付诸东流。”
其实选择“付诸东流”这个成语对于妄自菲薄的学术圈颇具深意。贝勒正是通过它向癌症研究当权派、NCI以及价值数十亿美元的癌症治疗产业宣战。一位记者曾经将他描述为“NCI的眼中钉”[7]。与此同时,医学界也齐声反对贝勒的分析结果,并且视其为爱唱反调、危言耸听、虚无主义、失败主义以及哗众取宠的典型。
可以预见的是,铺天盖地的回应迅即充斥了各种医学期刊。某个持批评观点的阵营认为,之所以贝勒–史密斯的分析结果看上去令人失望,并不是因为癌症治疗没有效果,而是由于采用的方法强度不够。这些批评人士主张,化疗过程要远比贝勒与史密斯想象中的复杂,以至于大多数肿瘤学家对于全量化疗的前景都顾虑重重。他们以某项于1985年公布的调查结果为例,当时仅有大约1/3的肿瘤科医生使用了最有效的联合化疗方案来治疗乳腺癌。[8]一位著名评论家写道:“据我估计,早期积极使用综合化疗可以拯救10000名乳腺癌患者的生命。相比而言,目前我们采用的治疗手段也就勉强让几千位患者获益。”
从理论上讲,上述观点也许非常正确。1985年的调查结果显示,许多医生在实施化疗时的确存在剂量不足的情况,至少按大多数肿瘤学家或是NCI制定的标准来看是这样。然而加强化疗可以使生存率最大化这种与之对立的观点也未经临床验证。尽管在某些类型的癌症(例如乳腺癌的某些亚型)中,增加剂量强度确实可以提高疗效,但是对于绝大多数癌症来说,增加标准化疗方案的剂量强度并不能改善生存率。因此来自NCI治疗儿童白血病的“先发制人”原则并不是针对所有癌症的通用方案。
此外,来自加州大学洛杉矶分校的流行病学家莱斯特·布雷斯洛(Lester Breslow)对贝勒与史密斯的观点提出了更精准的批判。布雷斯洛认为,尽管年龄校正死亡率是评估抗癌战争的一种指标,但是它绝不应该成为判断成败的唯一标准。实际上,贝勒与史密斯错误观点的基础就在于测量指标单一,或者说他们过分简化了测量进展的指标。布雷斯洛写道:“依赖单一进展指标的问题在于,测量指标改变会导致其传递的信息发生巨变。”[9]
为了证明他的观点,布雷斯洛提出了另外一种测量指标。他指出,如果化疗能够治愈5岁患儿的急性淋巴细胞白血病,那么它就可以将其潜在寿命延长65年(假设整体预期寿命为70岁)。相比之下,如果预期寿命为70岁的话,那么采用化疗治愈65岁的患者只能使其潜在寿命延长5年。但是贝勒与史密斯选择的测量指标(年龄校正死亡率)根本无法检测出上述两种情况之间的任何差异。例如,罹患淋巴瘤的年轻女性(治愈后其潜在寿命可以延长50年)与罹患乳腺癌的老年女性(治愈后可能于次年就死于其他疾病)使用了相同的测量指标,如果采用“潜在寿命延长”作为评价癌症进展的测量指标,那么这些数据就会变得更具说服力。综上所述,我们如今在抗癌战争中不是滑向失败而是迈向成功。
布雷斯洛尖锐地指出测量本身就具有主观性,因此他并未建议采用某种算法替代另外一种。他写道:“我们进行这些计算的目的是要表明结论非常容易受到所选测量指标的影响。1980年,癌症导致美国人(假设预期寿命为65岁)的潜在寿命损失了182.4万年。但是如果癌症死亡率维持了1950年的水平,那么美国人的潜在寿命损失将达到209.3万年。”[10]
布雷斯洛指出疾病测量本身就是一种主观行为,它最终势必演化成为对人类自身的测量。众所周知,客观结论只能源自规范决策。虽然凯恩斯或贝勒可以告诉我们癌症治疗对于潜在寿命延长或损失的具体数据,但是如果要评价投资癌症研究是否有“价值”,那么就要首先明确“价值”的定义:延长5岁儿童的生命要比延长60岁老人的生命更有“价值”吗?其实即便是死亡这种在贝勒与史密斯眼中“最重要的临床结果评价指标”依然不尽如人意。由于死亡(或至少社会意义的死亡)可以通过其他标准进行统计与描述,因此这往往会得出截然不同的结论。布雷斯洛认为疾病评估取决于人类的自我评估。社会与疾病经常在相互平行的时空中不期而遇,仿佛彼此都是对方的罗夏测验(Rorschach test)墨渍图版[11]。
※※※
贝勒可能愿意对这些哲学观点做出让步,然而他同时也已经有了更为务实的计划。他使用这些数据证明了一项原理。正如凯恩斯指出的那样,如果想要在人群层面降低某种疾病(任何疾病)的死亡率,那么目前已知的唯一手段就是预防。贝勒认为,即便可以选择其他测量指标评价抗癌战争的进展,预防这种策略也不应被曾经狂热追求治疗的NCI忽视。
NCI的绝大多数(80%)经费都直接用在了癌症治疗策略上,而用在预防研究上的经费只占大约20%[12](到了1992年,这个数字增长到30%;在20亿美元的NCI研究预算中,有6亿美元被用于癌症预防研究[13])。1974年,NCI所长弗兰克·劳舍尔对玛丽·拉斯克介绍了研究所开展的各种项目,他慷慨激昂地写下了三管齐下治疗癌症的原则:“治疗、康复、持续照护。”[14]其中既没有提到预防,也没有涉及早期症状检测——NCI根本就没有把癌症预防作为核心要务。
与此同时,私立研究机构也存在类似失衡的偏倚。例如,20世纪70年代,在纽约纪念斯隆·凯特琳医院的近100个实验室中,只有1个确认自己正在从事预防研究项目。[15]20世纪60年代早期,一位研究人员曾经在医生群体中进行过一次大规模的问卷调查,他惊讶地发现“没有一位医生”能够提出“癌症预防的思路、线索或理论”[16]。他冷冷地写道,癌症预防研究只是“建立在兼职的基础上”[17]。[18]
贝勒认为,这种本末倒置的失衡是20世纪50年代科学界夸夸其谈的产物:例如戈博的《治愈癌症:国家目标》就是一部好高骛远的作品,还有来自拉斯克派可以在10年之内治愈癌症的执念,以及类似于法伯这种学界泰斗的推波助澜。当然上述憧憬也可以追溯至埃尔利希笔下被赋予神奇法力的“魔弹”。如今,这些兼具先进、乐观与理性的魔弹与灵丹妙药将围绕癌症的悲观主义一扫而光,并且彻底改变了肿瘤学发展的历史版图。但是将“治愈”作为癌症的单一解决方案已经堕落为僵化的教条。贝勒与史密斯指出:“如果想要在抗癌领域取得实质性进展,那么就必须将研究重点从治疗转向预防……在我们寻觅那些总是无法企及的良方之前,应该采用客观、直接与全面的方式面对过去的失败。”[19]
[1] We must learn to count the living: Audre Lourde, The Cancer Journals, 2nd ed. (San Francisco: Aunt Lute, 1980), 54.
[2] Counting is the religion of this generation: Gertrude Stein, Everybody’s Autobiography (New York: Random House, 1937), 120.
[3] “These registries,” Cairns wrote in an article: John Cairns, “Treatment of Diseases and the War against Cancer,” Scientific American 253, no. 5 (1985): 51–59.
[4] John Bailar and Elaine Smith’s analysis: J. C. Bailar III and E. M. Smith, “Progress against Cancer?” New England Journal of Medicine 314, no. 19 (1986): 1226–32.
[5] cancer mortality was not declining: This was not unique to the United States; the sta-tistics were similarly grim across Europe. In 1985, a separate analysis of age-adjusted cancer mortality across twenty-eight developed countries revealed an increase in cancer mortality of about 15 percent.
[6] There is “no evidence”: Bailar and Smith, “Progress against Cancer?”
[7] “a thorn in the side of the National Cancer Institute”: Gina Kolata, “Cancer Progress Data Challenged,” Science 232, no. 4753 (1986): 932–33.
[8] As evidence, they pointed to a survey: See E. M. Greenspan, “Commentary on September 1985 NIH Consensus Development Conference on Adjuvant Chemotherapy for Breast Cancer,” Cancer Investigation 4, no. 5 (1986): 471–75. Also see Ezra M. Greenspan, let-ter to the editor, New England Journal of Medicine 315, no. 15 (1986): 964.
[9] “The problem with reliance on a single measure”: Lester Breslow and William G. Cumberland, “Progress and Objectives in Cancer Control,” Journal of the American Medical Association 259, no. 11 (1988): 1690–94.
[10] “Our purpose in making these calculations”: Ibid. The order of the quotation has been inverted for the purpose of this narrative.
[11] 罗夏测验由瑞士精神科医生、精神病学家罗夏(Hermann Rorschach)创立,亦称罗夏墨迹(Inkblo)测验、罗夏技术或简称罗夏。罗夏测验因使用墨渍图版又被称为墨渍图测验,现在已经被世界各国广泛使用。罗夏墨迹测验是最著名的投射法人格测验。测试方法是让受试者通过某种媒介建立起自己想象的世界,而受试者可能会透过这种无拘无束的情景显露其个性。——译者注
[12] prevention research received: John Bailar interviewed by Elizabeth Farnsworth, “Treatment versus Prevention” (transcript), NewsHour with Jim Leher, PBS, May 29, 1997; Richard M. Scheffler and Lynn Paringer, “A Review of the Economic Evidence on Prevention,” Medical Care 18, no. 5 (1980): 473–84.
[13] By 1992, this number had increased: Samuel S. Epstein, Cancer-Gate: How to Win the Losing Cancer War (Amityville, NY: Baywood Publishing Company, 2005), 59.
[14] In 1974, describing to Mary Lasker: Letter from Frank Rauscher to Mary Lasker, March 18, 1974, Mary Lasker Papers, Box 118, Columbia University.
[15] At Memorial Sloan-Kettering in New York: Ralph W. Moss, The Cancer Syndrome (New York: Grove Press, 1980), 221.
[16] “not one” was able to suggest an “idea”: Edmund Cowdry, Etiology and Prevention of Cancer in Man (New York: Appleton-Century, 1968), xvii.
[17] 这种质疑可能有其内在缺陷,因为它没有涉及预防和治疗的关系。——作者注
[18] Prevention, he noted drily: Moss, The Cancer Syndrome, 221.
[19] “A shift in research emphasis”: Bailar and Smith, “Progress against Cancer?”