第7章

非参数检验方法

在本书的前几章已经介绍了常用的统计假设检验方法。但使用这些方法的共同前提有两条:一是观测数据要相互独立;二是数据要服从正态分布。如果数据不能满足上述要求则要另想办法。如果数据不独立,几乎失去所有讨论的理论基础,所有抽样定理都不再成立,检验统计量的分布也不再为相应的分布。遇到这种情况的最好对策是重新审查数据的获得过程,确认其究竟受到哪个不正常因素的影响,将此因素的影响去除,然后重新收集数据;如果从机理上分析数据确有不独立的成因(例如正常的股市指数、按月的销售记录等序列数据应该是相关的),则在收集的数据量足够大的条件下可以使用时间序列分析(time series analysis)等统计工具进行分析。如果数据是独立的,但是并不服从正态分布,则可以采用其他一些统计方法来分析。这里最重要的方法就是非参数方法。本章将对此作详细介绍。

首先要明确,检验问题本身分为“参数假设检验”和“非参数假设检验”两大类。例如,对于均值、方差或比率等的检验,其检验问题是首先对于数据的分布类型已确认(例如正态或二项),讨论的问题是针对参数的,这类问题称为参数检验问题;另一类检验问题则不是这样,例如对于分布的正态性或数据的独立性的检验、分布拟合检验等,可以假定的条件非常宽(例如只假定分布是“连续型”的或“对称”的,等等),其检验问题不是针对参数的,这类问题称为非参数检验问题。另外我们更加关注在参数检验问题中当正态性这个基本假定不能满足时,如何使用一些与分布类型无关的方法来进行检验。我们把解决非参数检验问题及使用与分布类型无关的方法来解决参数检验问题这两类方法统称为非参数检验法。

什么是参数检验方法?众所周知,参数检验方法指的是假定了分布类型后,用求平均值、标准差、极差等统计量做基础,再加工成检验统计量(如z统计量、t统计量等),最后根据这些检验统计量在原假设成立的条件下应该具有的分布及取值的范围,并用实际取值做出最终的判断。

非参数检验方法:问题仍是参数问题(均值相等性检验等),但方法是非参数的,即只是用“符号”(sign)、“秩”(rank)及“游程”(run)等几种与原来分布无关的工具进行分析,这就是非参数检验方法的基本思想。

这里有个重要问题要澄清:如果数据是服从正态分布的,那么是否可以用非参数检验法?当然可以。那么自然要问,对于正态数据使用参数方法与非参数方法有什么差别?结论是:第5章介绍的方法早就被统计学家证明是所有方法中最好的。因此,如果数据确实服从正态分布,则我们用第5章所介绍的方法一定是最好的,用非参数方法的结果会使相应检验的功效稍微降低一些,也就是犯第二类错误的概率β会增大,换言之,数据因与原假设不符合而被检测出来的可能性要小些。非参数方法简单易算,不需要验证很多条件就可以用,但在计算机日益普及的今天,计算量已不用多考虑,因此对于正态数据当然应首选参数方法;只有在数据非正态时才用非参数方法。另外,如果数据只是有序的数据(例如只有排队的名次结果),并非连续性数据,对这些数据是可以使用非参数检验方法的。

由于非参数检验的内容非常丰富,应用非常广泛,我们不可能介绍它的所有方面。在MINITAB软件中,也只有常用的一些非参数方法的计算,本章只介绍这些能够用MINITAB计算的内容。由于检验独立性的游程检验法已经在第5章介绍过了,本章将只介绍其余非参数检验的内容,包括:符号检验法;秩和检验法;符号秩检验法;多样本均值相等性的三种检验法。