4.1 数据分布拟合方法基础

4.1.1 数据描述性分析的数字特征

数据的描述性分析就是从数据出发概括数据特性,主要包括数据的位置特性、分散性、关联性等数字特征和反映数据整体结构的分布特征,它是数据分析的第一步,也是对数据进行更进一步分析的基础.

4.1.1.1 一维数据的数字特征

设有n 个一维数据:x 1 ,x 2 ,…,xn .它们是从总体X中观测得到的一个样本.其从小到大的顺序统计量值为x (1) ,x (2) ,…,x (n ) .在数学建模实践中,常用的描述一维数据的数字特征的随机变量主要有:

一、表示位置的数字特征

1.均值:

4.1 数据分布拟合方法基础 - 图1

2.中位数:

4.1 数据分布拟合方法基础 - 图2

3.分位数:

4.1 数据分布拟合方法基础 - 图3

其中0⩽p<1,[np ]表示np 的整数部分.当p =1时,定义:M 1 =x (n )

二、表示分散性的数字特征

1.标准差:4.1 数据分布拟合方法基础 - 图4

2.变异系数:4.1 数据分布拟合方法基础 - 图5 ,它为一个无量纲的值.

3.极差:4.1 数据分布拟合方法基础 - 图6

三、表示分布形状的数字特征

1.偏度:4.1 数据分布拟合方法基础 - 图7

其中s 为标准差,偏度是刻画数据分布对称性的指标.
若g 1 ≈0,则认为数据分布是近似对称的;
若g 1 >0,则认为数据是右偏态的;
若g 1 <0,则认为数据是左偏态的.

2.峰度:4.1 数据分布拟合方法基础 - 图8

峰度是另一种度量分布形状的量,它是以正态分布为标准,比较两侧极端数据分布情况的指标.当数据的总体分布为正态分布时,峰度g 2 ≈0;若g 2 >0,表示数据中含有较多远离均值的极端数值;若g 2 <0表示均值两侧的极端数值较少.

4.1.2 数据的参数分布类型

在数学建模中,我们经常需要对所研究的总体中所抽取的样本数据进行分布拟合检验,了解一些常见的数据参数分布类型是必要的.下面我们给出几类建模中经常用到的随机变量的概率密度函数,详细的介绍可参见《数据分析方法》或者其他的数理统计文献.

1.正态分布的概率密度函数:

4.1 数据分布拟合方法基础 - 图9

2.对数正态分布的概率密度函数:

4.1 数据分布拟合方法基础 - 图10

3.指数分布:

4.1 数据分布拟合方法基础 - 图11

4.Gamma分布:

4.1 数据分布拟合方法基础 - 图12

5.Weibull分布:

4.1 数据分布拟合方法基础 - 图13

6.Beta分布:

4.1 数据分布拟合方法基础 - 图14

4.1.3 数据的分布拟合检验方法

在许多实际问题的数学建模中,总体的分布类型往往不知道,或者知之甚少,这就需要根据样本的观察值对总体分布的类型及其参数进行统计推断,这就是我们所说的分布拟合检验问题.

1.皮尔逊(K.Pearson)χ 2 检验方法

皮尔逊χ 2 检验法是著名的英国统计学家K.Pearson于1900年提出来的.下面我们介绍这一方法.

设总体X 的分布未知,根据样本X 1 ,X 2 ,…,Xn 来检验关于总体分布的假设.假设检验问题为:

H 0 :总体X 的分布函数为F 0 (x )
H 1 :总体X 的分布不是F 0 (x )

皮尔逊χ 2 检验法的基本思想如下:在对数据按其取值范围进行分组后计算频数的基础上,考察每个区间的实际频数与理论频数的差异,它使用如下的χ 2 统计量:

4.1 数据分布拟合方法基础 - 图15

其中n 是样本观测数据的容量,l 是分组数,mi 和pi 分别为样本观测值落入第i 组的频数与其理论频数,第i 组的概率,其值可根据原假设所指定的分布求得.

根据假设检验问题:

4.1 数据分布拟合方法基础 - 图16

将实轴分为l 个区间,分点满足

4.1 数据分布拟合方法基础 - 图17

得l 个区间

4.1 数据分布拟合方法基础 - 图18

设pi 是原假设H 0 为真时,服从F 0 (x )的随机变量取值于第i 个区间(a i -1 ,ai ]的概率,即

4.1 数据分布拟合方法基础 - 图19

从而得到检验统计量χ 2 .设k 是F 0 (x )中待估参数的个数,例如,原假设是正态分布,其中均值μ 与方差σ 2 待估计,此时k =2.可证明当样本容量n 充分大且原假设H 0 为真时,统计量近似服从自由度为l-k -1的χ 2 的分布,即

4.1 数据分布拟合方法基础 - 图20

若原假设H 0 为真,χ 2 的值应比较小;否则,χ 2 有偏大的趋势.故对给定的显著水平α ,设由样本观测值算得的χ 2 的观测值是4.1 数据分布拟合方法基础 - 图21 ,则当4.1 数据分布拟合方法基础 - 图22 时,拒绝H 0 ;否则,不能拒绝H 0 .这里,4.1 数据分布拟合方法基础 - 图23 表示自由度为l-k -1的χ 2 分布的(下侧)分位数.

2.正态性W 检验法

W 检验法是夏皮罗(S.S.Shapiro)与威尔克(M.B.Wilk)于1965年提出的一种灵敏度高,计算简单,需要的样本容量小的正态性检验方法.W 统计量的计算步骤如下.

设样本观测值为x 1 ,x 2 ,…,xn ,其次序统计量为4.1 数据分布拟合方法基础 - 图24 .计算

4.1 数据分布拟合方法基础 - 图25

当n 是偶数时,4.1 数据分布拟合方法基础 - 图26 ;当n 是奇数时,4.1 数据分布拟合方法基础 - 图27 ,将di 与系数ai (有表可查)相乘并求和,得

4.1 数据分布拟合方法基础 - 图28

计算

4.1 数据分布拟合方法基础 - 图29

W 统计量满足0<W ⩽1,假设检验问题为

H 0 :F (x )是正态分布函数,H 1 :F (x )不是正态分布函数

在原假设H 0 为真时,W 的值接近于1,W 的值过小应拒绝H 0 ,因此其检验p 值为

4.1 数据分布拟合方法基础 - 图30

其中W 是根据样本观测值x 1 ,x 2 ,…,xn 算得的W .当p <α 时,拒绝H 0 ;当p ⩾α 时,不能拒绝H 0

4.1.4 多维数据的数字特征及相关分析

在实际生活中,人们更多遇到的是多维数据,它是从多维总体(X 1 ,x 2 ,…,xpT (p 维)中观测得到的.对于多维数据,除按前述一维数据的描述性分析方法分析各分量取值的数字特征外,更重要的是分析各个分量之间的相关关系,这就是多维数据的相关分析.

1.相关系数

设(X,Y )T 是二维总体,从中得到观测数据(xi ,yiT ,i =1,2,…,n .引进数据观测矩阵

4.1 数据分布拟合方法基础 - 图31

4.1 数据分布拟合方法基础 - 图32

则(X,Y )T 称为二维观测数据的均值向量.记

4.1 数据分布拟合方法基础 - 图33

分别称sxx 和syy 为X,Y 的观测数据的方差,称sxy 为X,Y 的观测数据的协方差,而

4.1 数据分布拟合方法基础 - 图34

称为观测数据的协方差矩阵.注意总有sxy =syx ,即数据的协方差矩阵是对称矩阵.

由Schwarz不等式有:4.1 数据分布拟合方法基础 - 图35

所以 S 总是非负定的.观测数据的相关系数计算公式是

4.1 数据分布拟合方法基础 - 图36

由Schwarz不等式,有|rxy |⩽1,称rxy 为Pearson相关系数.

2.多维数据的Pearson相关矩阵

设(X 1 ,X 2 ,…,XpT 是p 维总体,从中取得样本数据

4.1 数据分布拟合方法基础 - 图37

记各组观测数据为

4.1 数据分布拟合方法基础 - 图38

称之为样品,引进n ×p 样本数据观测矩阵

4.1 数据分布拟合方法基础 - 图39

X 的p 个列分别是p 个变量 X 1 , X 2 ,…, X p 的n 个观测数据.

(1)第j 列数据的均值

4.1 数据分布拟合方法基础 - 图40

(2)第j 列数据的方差

4.1 数据分布拟合方法基础 - 图41

(3)第j,k 列数据的协方差

4.1 数据分布拟合方法基础 - 图42

并且有4.1 数据分布拟合方法基础 - 图43

4.1 数据分布拟合方法基础 - 图44

为p 维样本观测数据的均值向量.称

4.1 数据分布拟合方法基础 - 图45

为样本观测数据的协方差矩阵.易知有

4.1 数据分布拟合方法基础 - 图46

均值向量 x 与协方差矩阵 S 是p 维观测数据的重要数字特征. x 表示p 维观测数据的集中位置,而协方差矩阵 S 的对角线元素分别是各个变量观测值的方差,非对角线元素是两两变量观测值之间的协方差.

(4) X 的第j,k 列数据的相关系数

4.1 数据分布拟合方法基础 - 图47

rjk 是无量纲的量,总有4.1 数据分布拟合方法基础 - 图48

4.1 数据分布拟合方法基础 - 图49

是观测数据的Pearson相关矩阵.记

4.1 数据分布拟合方法基础 - 图50

对p 阶对角矩阵,则有

4.1 数据分布拟合方法基础 - 图51

相关矩阵 R 也是p 维观测数据的最重要的数字特征,它刻画了变量观测值之间的线性相关的密切程度. R 往往是多维数据分析的出发点. S 及 R 总是非负定的,在实际应用中, S 及 R 常是正定的.

观测数据矩阵 X 的第j,k 列数据的Spearson相关系数记为qjk ,称

4.1 数据分布拟合方法基础 - 图52

为多维数据的Spearson相关矩阵.从其定义看,数据的Spearson相关矩阵视乎较Pearson相关矩阵损失了数据的某些信息,但Spearson相关矩阵适用于研究具有一般分布的p 维总体,且对有异常值的观测数据,具有耐抗性. Q 同样是非负定的.