6.4 线性相关系数
为了获取最好拟合度而求解最小二乘法的做法并不意味着相关结果就是有用的。在前面的部分中,我们使用了有明确相关性的价格系列,因此其结果显示是有效的。即使一个价格系列并不单独依赖于另一个价格系列之时,最小二乘法也总能给出一个答案,如此你可能会认为这两个数据项可以相互影响,比如可支配的收入数量和电视机购买之间的相关性,但是,事实也可能并非如此,在美式足球超级碗比赛时,电视机的购买量可能会出现峰值。
线性相关性会生成一个系数值r2 ,或称为相关系数,其所表达的数据规模在+1(完全相关)和0(没有相关性)之间。然而,如果想知道从+1到-1之间的不同情况,最好的方法是观察r而不是r2 ,因为如此则可以知道相关性是正的还是负的。两个价格系列之间的负相关性意味着当一个价格系列呈上升趋势时,另一个系列则呈下降趋势。同时,当r=+1时,则存在一个完美的正相关性;当r=0时,则说明两者之间没有相关性;当r=-1时,则有一个完美的负相关性,如图6-5所示。其实,前述方法是最实用的,其可以发现两个价格系列是否以类似的方式在运行,如果r2 小于0.20,那么,此线性回归没有实用价值。从范例当中,我们可以看到通过Excel模式所得到的玉米和大豆之相关性的结果r2 =0.83,很高;同时,无论是使用价格还是指数,ABX公司股价与黄金价格的相关性都只是0.26。虽然我们是出于套利的目的才进行回归分析的,然而,这里更重要的是看其整合性而非相关性,关于这一点,我们会在第13章中进行阐述。
图6-5 相关度
资料来源:William Mendenhall and James Reinmuth,Statistics for Management and Economics,2nd ed.(Belmont,CA:Wadsworth,1974).Reprinted by permission.
相对于最近的n天,我们计算相关系数r,其中,t代表的是今天,而使用皮尔森积矩相关方程(Person’s productmomentum Correlation)所得的关系式如下:
上式当中,sx 和sy 是相应价格系列x和价格系列y的标准差,而x和y是相关的均值,而对r的解析模式如下。
r=+1 此情境反映的是一个完美的正的线性相关性,数据点会沿着直线向上、向右(见图6-5)排列,而x向上方的每一次移动都引起y值相应的向上移动。
+1>r>0 随着r值无限的接近+1,其相对于正的近似线上的散点分布会变得更加均匀(见图6-5b)。
r=0时,则不存在线性相关(见图6-5c和图6-5d)。
-1<r<0 随着r值接近-1时,相对于负的近似线的散点分布而言,其会变得更加均匀。
r=-1 此情境显示的是完美的、负的线性相关性,该线向下、向右移动(见图6-5e),而当x向上移动时,y值会相应地向下移动。
在Excel编辑过程中,相关性函数correl(x,y)会归于r2 ,虽然相应公式似乎有所不同,但是,其只是一种相关因子的重组模式。如果你要知道相关性是正值还是负值,那么,你就有必要自己做一些计算。英航网站的电子表格spreadsheet所相关的TSM软件中的ABX-Gold regression comparison of power fits程序则可以将相关公式与Excel模式进行比较。
6.4.1 在应用时间序列之时对相关系数所进行的调整
因为大多数价格分析涉及两个时间序列,所以我们应采取一些预防措施,从而避免出现扭曲结果所导致的行情趋势。长期的上升或下降趋势将会使相关的小型运行模式蒙上阴影,并且夸大其相关性;同时,所输入的相关性是典型的价格变化模式,而不是实际的价格。如果我们以百分比的形式表示前述这些变化,那将是最好的,但是,相对于回测期货数据而言,我们则应使用相关的价格差。而对于大多数软件而言,比如Excel,其所计算出来的相关性将取决于你输入什么样的系列,所以你首先要做的是去除趋势的影响因子。
6.4.2 使用回归模式进行相关的预测
回归分析的一个明显的优势是它允许分析师预测价格未来的运行趋势。在线性回归的情况下,预测仅仅是一种直线的延伸。如果你认为回归值是一段时间内所计算的平均值,那么,相应预测就是此均值的延展模式。此外,如果你没有其他令人信服的信息,那么这个预测就是最安全的。在本章的后面,笔者将会阐述其他非线性的解决方案,进而预测更加复杂的价格运行模式。
回归预测是概率模型的基础。如果替代玉米和大豆的相关性,然后,像我们在第一个沃尔玛公司相关的范例所示,应用大豆价格和时间序列,找到直线拟合所相关的斜率和截距项(见表6-2),那么,相应的结果是:
其中,Y是第X年的大豆价格。
因为相应替代解将1956年定为1,1982年定为27,如此,农业平均收入的预期值为:大豆在1985年的价格为7.32美元/蒲式耳,1990年为8.38美元/蒲式耳(X=35),如此则每年增加22美分,那么,这个过程将导致大豆的价格在2011年会达到13美元,而现在的交易价格在14美元左右。
置信带
回归分析包括了其对自身准确性的测量模式,我们称为置信水平,它是相对于拟合方程和样本数据规模所相关的误差而确定的概率分布值。如果观察图6-3,我们会发现直线并不能触碰所有的点,但是,其“最佳拟合点”可以通过使用误差的标准差而确定N个数据点的合计方差的形式来进行测度;误差项e是实际数据点和最小二乘法相关直线所对应各点的差值。如果实际的数据点是yi ,拟合直线上对应点的数值是,那么,s就是误差的标准差,相应公式为:
其中,ei =yi -。
我们可以参考正态分布表(见附录A),95%的置信水平对应1.96个标准差,那么,置信度95%项下围绕于预测线上下的置信带的数值为:
图6-6a显示了95%置信区间下大豆相关的预测模式。其实,我们对区间外的点是特别感兴趣的,同时,我们可以通过以下两种方式之一对其进行解析:
(1)区间外的分布点并不代表正常的价格行为,且相应的预期是其会被调整至区间内;
(2)相对于具有代表或适应性的数据而言,相关模型没有被执行且应该被重新估测。
图6-6b也表明了相应预测失去了精准性,因此需要进一步测试。同时,预测是基于样本数据的规模来寻找相应的回归系数——在初始的解决方案中,其所包含的数据越多,相关预测准确性所持续的时间就越长。
图6-6 置信带
在前面关于玉米和大豆相关性的范例之中,相关Excel模式的分析结果显示了相应斜率和Y轴截距项的值(见表6-4),其所对应的是95%的置信区间。一般来说,斜率是更有趣的价值——当斜率为0.3358时,其得到的答案是置信度(95%)上限值为0.3974,置信度下限值为0.3974,如此,上限值高出18%,下限值降低了22%。因为我们只使用了少数的几个数据点,因此,相应的数值显得非常大。