第5章

假设检验

5.1 基本原理及方法

参数估计和假设检验是统计推断的两个重要方面。参数估计是以“数值”为其输出结果。与参数估计不同的是,我们还会经常遇到另一类问题,例如要判断新配方药物的疗效是否比原配方药物疗效好些?采取改进措施后合格品率是否提高?纤维的长度是否服从正态分布?等等。这类问题要求对总体参数的性质、分布的类型做出结论性的判断。我们对这类问题的共同处理方法是:先把某个结论当成一种假设,然后根据样本观测值的情况,运用统计分析的方法对假设进行检验,并做出判断。这类问题最终是以“判断”为其输出结果,我们把它归纳为假设检验的问题。

由于观测到的样本数据总会带有误差,因此不能简单地由样本统计量结果直接作结论,必须使用严格的统计假设检验方法才能得出科学的结论。本节着重介绍有关假设检验的基本原理和检验方法,这是下面几章讲解统计方法的理论基础,大家必须理解掌握。

为使大家对假设检验的基本原理有具体的了解,先看一个例子。

例5—1

原来的冷拉钢筋生产线上的钢筋平均抗拉强度为2000kg,标准差为300kg。经过调整参数后,希望钢筋平均抗拉强度能有所提高。项目团队实施改进后抽取了25根钢筋,测得钢筋平均抗拉强度为2150kg。问:能否断言,钢筋平均抗拉强度确有提高?

从此例的问题可以看出,我们是希望通过样本观测数据的情况,即“抽取了25根钢筋,测得钢筋平均抗拉强度为2150kg”这样的结果,去推断“整批钢筋平均抗拉强度是否确有提高”。这实际就是典型的假设检验问题:根据所获取的样本——运用统计分析方法——对总体X的一个假设做出判断。

问题的关键在于:如何运用统计分析方法呢?

一般的做法是:根据所讨论问题的性质构造一个检验统计量,计算出在原假设成立的条件下,该统计量应该有的分布及应拒绝的范围,再根据样本观测值是否落入应该拒绝的范围做出判断。

统计分析方法运用过程中蕴含了两条基本原理:

1.带有概率性质的反证法原理

在例5—1中,用μ代表总体的钢筋抗拉强度的平均值,这个值是我们不知道的。我们从抽样中得到的只是样本均值,而统计学的目的就是要用样本去推断总体。对于这个问题,我们知道,若总体均值μ=2000,则认为钢筋抗拉强度的平均值没有提高;若μ>2000,则认为钢筋抗拉强度的平均值有提高。为此可以建立两个命题,在假设检验中称它们为假设(hypothesis),前一个为原假设(或零假设)(null hypothesis),记为H0;后一个为备择假设(或对立假设)(alternative hypothesis),记为H1,即

alt

我们思考的逻辑是:为检验H0(原假设)是否正确,先假定它正确,看由此会出现什么结果,如样本观测值出现了一个与H0应有结果明显矛盾的情况,则表示应该判定“H0正确”这个假设是错误的,于是拒绝H0,这时检验结果是具有说服力的;如果没出现矛盾的情况,我们却不能判定“不拒绝H0”或“接受H0”,因为此时只能说明“目前还没找到足够拒绝H0的理由”而已,没有足够的说服力来肯定H0一定是成立的。

基于这些事实,H0和H1地位是不对等的,不能随意交换。因而,在一般情况下,H0要取那个在实践中应该受到保护,有足够证据时才能否定的论断或“不证自明”的论断作为原假设,在对参数进行检验时,我们将把相等的、无差别的、等号成立的结论作为原假设;根据要说明的问题,将待判定、待证明的、不相等的、有差别的结论作为备择假设,设为H1。对于参数检验的问题,原假设一定含有“等于”某值,备择假设中永远只可能是“大于”、“小于”或“不等于”这三种情况。

对于本例题所建立的检验,有人会问,检验原假设和备择假设中都没有包含“小于”号,这是否漏掉了一种可能而不完善呢?事实上,我们在这里只是检验“抗拉强度是否提高”的命题,并不关心也不讨论“抗拉强度是否降低”或“抗拉强度是否合格”的问题,因此,并不需要包含“小于”这种情况。正如在法院打官司,张先生告王先生欠他3万元,原假设H0是王先生不欠钱,备择假设H1是王先生欠3万元,张先生要举出证据来证明王先生确实欠钱。这时候是不需要讨论是否张先生反而欠王先生钱的问题,如果要讨论,那也是另一场官司的事了。

有些六西格玛培训教材中特别强调了“H0与H1一定构成全空间”,因此它们建议,此钢筋抗拉强度的检验问题应该写成:

alt

这里应该说明的是,“H0与H1一定构成全空间”这种说法是正确的,但问题在于什么是“全空间”。实际上,由于我们这里讨论检验的是均值这个参数,在分析之前,一定要根据检验问题的实际含义讨论清楚什么是我们所要检验的“参数空间”。注意,它与该参数全部可能取值的范围即“参数的自然空间”不见得是一回事。例如讨论“检验现在钢筋抗拉强度是否超过2000”问题时,钢筋抗拉强度μ的自然空间是全部实数(-∞,+∞)或(0,+∞),但我们的统计问题则只限于讨论μ≥2000这样的“参数空间”,我们只是希望将此空间分割为“μ=2000”(均值未提高)和“μ>2000”(均值有提高)两个部分。这里,μ<2000这部分是不需要讨论的。比如抽检了25根钢筋,其平均抗拉强度只有1900,那么这时如果要检验“现在钢筋抗拉强度是否超过2000”,这个检验问题的提法本身就是错误的。我们只能在样本平均抗拉强度超过2000后,才有资格讨论该总体在参数空间中究竟是“μ=2000”还是“μ>2000”。这样说来,“H0与H1一定构成全空间”虽然还是正确的,但我们的全空间是“μ≥2000”。总之,我们的问题“检验现在钢筋抗拉强度是否超过2000”写成式(5—1)或式(5—2)都是正确的,没有“对”与“错”的区分,但它们考虑的参数空间是不同的。另外,从统计学理论上看,对于检验式(5—1)和式(5—2),它们的一致最大功效(uniform most powerful,UMP)检验一定是相同的。因此两种设定原假设的形式其分析结果完全是相同的。由于式(5—1)的形式是更基本、更简单的,因此从理论上说,式(5—1)比式(5—2)要更简洁、更清晰,在实际工作中,用式(5—1)来处理问题,也更容易思考,所以各种统计计算软件也都采用这种表达方法来设定。因此编著者建议大家以后在工作中,不论对立假设是H1:μ>μ0,或H1:μ<μ0,还是H1:μ≠μ0中的哪一种,其原假设写成统一形式“H0:μ=μ0”,则处理起来更简洁、清晰,不易出错。

2.小概率事件原理

带有概率性质的反证法原理中,所谓的明显不合理情况指的就是竟然出现了小概率事件,因为按照常识,在假设“H0是成立的”条件下,与大概率事件相比,小概率事件在一次试验中是几乎不会发生的,如果它发生,说明最初的假设“H0是成立的”并不正确,因此应该拒绝H0。但与此同时,应该注意的是,在处理假设检验问题时,未考虑特殊情况,虽说小概率事件在一次试验中几乎不会发生,但不等于就不会发生,它仍然有发生的可能性。所以,根据小概率事件发生而做出的拒绝H0的判断有犯错误的可能,了解这一点是很重要的,这就是下一节要讨论的两类错误问题。

在实际工作中,常见的比较问题可以按总体的个数分为三种类型:单总体、双总体、多总体。上面所说的钢筋平均抗拉强度是否提高的问题是典型的第一种类型:单总体问题。如果想改进水泵的平均抽水量,改进前抽取15台,改进后抽取12台,希望检验改进后的水泵平均抽水量比改进前是否有提高,这就是双总体检验问题。如果有4台车床,都生产同型号的垫片,希望检验4台车床生产的垫片厚度的平均值是否相等,这就是多总体比较问题。

在MINITAB软件中,相应的问题是用样本来表述的,即称为“单样本、双样本、多样本”问题。本书以后的章节对这两种提法也就不再加以区分了。另外,从比较的对象上讨论,上述几个例题讨论的都是平均值问题,同样的三种比较类型还可以比较方差相等性、比率相等性或中位数相等性问题。这样一来,在六西格玛管理中经常遇到的检验问题,搭配起来至少有3×4=12类。下面我们将逐个介绍,并在本章最后给出一个检验方法总表(详见本章表5—16),供读者参考。