9.2 协方差

协方差(covariance)可以用来衡量相关变量变化趋势是否相同。假设我们有两列序列XY,它们与其均值离差为:

enter image description here

enter image description here

这里μXX的均值,μYY的均值。如果XY的变化方向一致,那么它们与均值的离差应有相同的正负号。

如果我们将二者的离差相乘,那么当二者的符号相同时,乘积为正数。所以这些乘积加和的结果可以用来衡量两个序列变化是否一致。

协方差就是这些乘积结果的平均值:

enter image description here

这里n表示序列的长度(XY必须有相同的长度)。

协方差的计算比较简单,但我们一般较少使用,因为这个值很难解释。另一个问题是,协方差的单位是XY的单位的乘积。在前面的那个例子里,这个单位就是千克*厘米,我们还很难说这个单位有什么意义。

习题9-1

请编写一个计算两个数据序列协方差的函数Cov,为了测试你写的函数,可以计算两个相同序列的协方差,确保有Cov(X, X)=Var(X)。

读者可以从http://thinkstats.com/correlation.py下载到答案。