2.4 价格分布之概率相关的阶矩:方差、偏度和峰度
概率分布的阶矩描述了各数据点位的形态,这些数据点均聚集于均值的周围。而所谓的阶矩有四,即均值、方差、偏度以及峰度,每一个阶矩所反映的是分布形态的不同情况,简单地说,均值就是中心值或平均值,方差是各个数据点与均值的距离,偏度是相对于均值左偏或右偏的倾斜度,而峰度则是相关数据集群的巅峰值。均值已经被讨论过了,所以,我们将从第二个阶矩开始进行相关的论述。
在接下来的计算中,我们将使用均值符号P来显示列表当中一系列n个价格的平均值。大写的P指的是所有价格,小写的p指的是个别价格,即
另外,我们仍然可以应用与算术平均值相类似的计算方法,测度相应的均值偏差(MD),其是测量相关分布的基本方法,可以根据任意的中心点位进行计算,相应公式如下:
上式当中的MD值是将相关价格的算术平均值与每个价格之间的差异汇总之后再平均所得到的数值,或者说,它是针对中心点位所做的一些另类衡量,而且,相应的差值都是正数,这个公式将贯穿于本书的各个章节当中。
2.4.1 方差(第二个阶矩)
所谓方差(var)非常类似于均值偏差,它是对分散值所做的最佳估计,且将被作为其他计算的基础,相应公式为:
在上式当中,值得注意的是:方差是标准差(s/σ)的平方,即var=s2 =σ2 ,这是最常用的统计方法之一。在Excel中,方差函数以var(list)表示;在TradeStation平台的EasyLanguage语言中,方差以variance(series,n)表示,标准差(s)通常显示为σ,其是一种特殊的、测量偏差的平均值,所使用的是平方根模式,即
上式当中,个体价格与均价之差的平方值用来着重测量相关的极值水平,然后,对所得出的总值再求平方根,这种通用的测算方法也将贯穿于本书的始终。对n个价格数据而言,标准差在Excel函数中以Stdevp形式表示,在TradeStation函数中以StdDev(price,n)形式表示。
在测量数据分散性方面,标准差是最受欢迎的一种方式。均值左右的1个标准差的范围表明,有68%的数据集合分布于此区间之内;均值左右的2个标准差的范围则包含了95.5%的数据;3个标准差包含99.7%的数据,这几乎包括了所有的数据。如果不能保证涵盖所有的价格数据,那你可以使用3.5个标准差,其将涵盖正态分布中100%的数据。此外,“钟形图”上的各个数值代表了一组完全处于正态分布的数据,如图2-6所示。
图2-6 以算术平均值法确定的正态分布图,其所显示的是一个标准差的比例区域
2.4.2 偏度(第三个阶矩)
其实,大多数价格数据并不是正态分布的。对于实物商品而言[如黄金、谷物、能源,甚至是利率(以收益率表示)],其价格往往会在较低水平的点位徘徊很长一段时间,而在极端高点则只持续很短的时间。在1980年1月的某一天,黄金价格达到每盎司800美元的峰值,而在未来20年中的大部分时间里,其价格仍然保持在每盎司250美元和400美元之间,如果我们取325美元为平均价格,那么,相应的价格分布则不可能对称——如果1个标准差是140美元,那么,在一个正态的价格分布当中,相关金价跌至185美元的可能性很大,而这又是不太可能发生的情境,此种不对称性在农作物市场中的表现最为明显。比如,大豆或咖啡在某一年内十分短缺,那么,其价格将被推得很高,但是,作为一个普通农作物,在下一个年度,其价格将会回到先前的水平。
图2-7 偏度:几乎所有的价格分布都存在正偏的趋向,即向右侧较高的价位所甩出的尾部较长
市场价格相对于时间的相关性显示出,相应的行情在较低的价格水平徘徊所花费的时间会更多,我们可以用偏度来测量那些游离于对称分布之外的畸变量,这使得左侧的曲线似乎较短,且有向右扩展的态势(即趋向更高的价格)。向两侧扩展的曲线涵盖的是尾部形态,向右延伸的尾部被称作正偏,向左延伸的尾部被称为负偏,如图2-7所示。
在一个完美的正态分布当中,其均值、中位数以及众数都应该是完全一致的。而当价格呈现正偏的态势时,即相应的时间序列所相关的是较高的价格,那么,均值所相关的是最大的变化,众数所相关的是最小的变化,而中位数则介于二者之间。我们可以利用概率分布的标准差来调整均值与众数之间的离散差异,进而测算出比较可靠的偏度值(SK ),相应的公式如下:
在适度的偏度分布里,均值和众数之间的差值是均值和中位数之差的3倍,它们之间的关系也可以写成下列公式:
为了显示第二个阶矩和第三个阶矩(方差和偏斜度)之间的相似性,我们所使用的更常见的计算公式是:
上式当中,n是在相应分布中的价格数量;σ是相关价格的标准差,此偏度函数可以在Excel和TradeStation平台中找到。
2.4.3 数据转换
数据系列的偏度有时可以通过转换机制进行修正。价格数据在特殊的模式当中可能被扭曲,例如,如果两倍价格出现的频率是3次,而3倍价格出现的频率是1/9次,那么,通过取每个数据项的平方根,我们就可以将相应的原始数据转化为正态分布的形式。因此,价格数据本身的属性常常会显示出对数、幂以及平方根之间的相关性。
基于价格的偏态分布,我们就可以计算出相应的概率分布,将呈正态分布形式的概率转换为等价的指数概率PE ,而相应的公式是:
式中 X——所有价格的均值;
P——呈正态分布的概率;
log10 e——0.434294482。
由上式可知,正态分布的概率值P对价格分布中所发生概率的估算比较保守,而指数分布概率PE 则夸大相应的概率值。只要有可能,我们最好使用精确值进行计算。然而,在计算风险的时候,最好的方式是:宁可将相关风险预期的略高一些,千万不要低估它们!
2.4.4 不同点位的相对价格分布之中的偏度
因为大多数商品较低的价格水平取决于它的生产成本,所以,在相应的临界值之上,其价格分布有明显的支撑倾向,这些属性导致了相关行情的正偏态势。如果我们只考虑短期行情,那么当价格高得离谱的时候,它们可以反复无常地变化,并且很不稳定,从而导致负偏形态,这种现象可以解释为相关价格在高点处的压力很重。在介于高点和低点间的价格水平之上,我们可以看到,其分布频率似乎是正态的。图2-8显示了整个价格分布中的变化,例如,在20天中,价格移动的方向是大幅上涨的,而相应均值则显示出,价格分布的中心已经从正偏的态势转变为负偏的态势,此种模式表明,所谓正态分布并不适合于所有的价格分析;还有,log对数、指数以及幂的分布形式最好只用于长期的分析。
图2-8 不同价格水平相关分布形态的变化——点A、点B和点C表示的是三个短期分布的渐增性均值,同时,它们显示了一个从正偏到负偏的分布形态
2.4.5 峰度(第4个阶矩)
作为最后一个测量值,峰度是用来描述价格分布形状的,其所反映的是一个尖点值或一个价格分布的平面度,其形态则如图2-9所示。对偏度的测量有利于我们得到一个公正的评估值,从而判断相关的行情是顺势运行还是横向调整。如果你看到价格稳步上涨,那么,其相应的分布区间所覆盖的范围会更广,并呈现均匀的态势,此为负峰度;如果价格在区间震荡,那么其分布频率将围绕于均值附近呈集群状态,此为正峰度。在第18章中,我们会谈到史泰米亚(Steidlmayer)所著的《市场结构图》(Market Profile),其中,在讨论依据实时价格变化而测量动态累积分布频率之时,我们会用到峰度这个概念。
图2-9 峰度:当分布的尖点高于正态分布的尖点时,我们视其为正峰态,其反映的是典型的盘整行情;当相应行情显示出明显的趋势性,且呈现扁平形的分布态势之时,我们则视其为负峰态
根据第三个阶矩偏度的计算方法,我们可以用相同的模式来计算相应的峰度K值,其公式如下:
还有一种计算峰度的替代公式,即
式中 n——在相关价格分布之中所采集的数据量;
pi ——各价格的独立值;
P——相应价格的平均值;
σ——相关价格的标准差。
我们最常使用的是溢出峰值,如此则可以更加容易地发现所谓的非正态分布。溢出峰值KE=K-3,因为正常的峰度值是3。
当我们对系统进行测试时,峰值是很有价值的。如果你发现日收益率的峰值所相关的交易系统是盈利的,那就是说,其表现比正态情境要好,但是,如果峰值高于7或8,那么从一开始看起来,相关的交易方法则有矫枉过正之嫌。高峰值意味着规模相似的获利交易在数量上有压倒性的态势,但在现实交易中,这是不可能发生的。所以,我们对任何高峰值都应马上采取怀疑的态度。
2.4.6 对分布频率和标准差的选择
因为标准差对绝大多数最常见价格数据的偏态分布是不产生影响的,所以,频率分布是非常重要的,举例来说,如果回顾小麦的柱形图,我们会发现,在过去的25年里,小麦的平均价格是3.62美元,这些价格的标准差是1.16美元,而向均值左侧移动1个标准差,其所对应的数值是2.46美元,相应的素材空间却没有对应的数据;在右侧3.5个标准差的范围之中,所包含的数据则是100%,即7.68美元,而此数值远低于小麦价格实际的高点。
图2-10 于频率分布图两端、按10%概率水平所进行的测度,其在低价位的密度聚集形态会使低价区看起来比较窄,而高价低频数据则会出现在一个广泛的分布区域之内
对于高度倾斜的数据,如果用标准差的话,在分布图的两侧都会产生失真的效应,而频率分布则会给出非常明确和有用的图片,如果我们基于分布频率而测算10%和90%的概率水平,那么,所有的数据将被从低到高地进行排序;如果我们每个月有300个数据点,那么10%的概率水平所对应的点位是30,另外90%的概率水平所对应的点位是271,那么,中位数的价值将被定位于151,如图2-10所示。
当分布图的长尾甩向右侧时,此时,分布频率和标准差则预示着一场大的价格变动即将发生,而如果分布图形非常对称,那我们就不用担心了。对于那些有极端变化的行情,无论通过什么方法,我们都无法预测此种极端变动所涉及的范围。毫无疑问,如果给予足够的时间,我们将看到此种变化所带来的损益会大于,或许更大于我们之前已经看到的一切。
2.4.7 自相关分析
在数据当中,序列相关性或自相关性均具有持久的特质,也就是说,根据过去的数据,可以预测未来的数据(某种程度上),此种属性显示出相应行情具有某种趋势性。发现自相关性的简单方法就是:把数据转换至相应电子表格的A列,然后,将数据下移一行并将其复制到B列,如此就可以找到A列和B列的相关性;如果要计算附加相关性,那我们可以将B列数据下拖2、3或4行,如此则可显示一个即存的周期。
得到自相关系数的正规方法需要应用德宾-沃森检验,此方法需要借用一个d值的统计公式,即能够测量相应残差(e值:N个数据点与均值之差)所发生的变化,相应的公式如下:
上式当中,d值总是介于0和4之间。如果d等于2,那相关数据就不存在自相关性;如果d值小于2,那所呈现的是数据自身彼此间的正相关性;如果d值小于1,那么,误差项中的相似性就要大于其合理性;如果d值大于2,那么在误差项中,其会显示更多负的自相关性。
正向自相关性或者序列相关性意味着:一个正向残差因子很有可能被其他的、正向的残差因子所伴随。
2.4.8 获取收益的概率
中国有句谚语:事物的不确定性会让人产生不安全感,但如果事物具有确定性,这又是荒谬可笑的。
如果我们参看图2-6,其所显示的是过去50年里股市的年化收益率,相应均值约为8%,标准差为16%。在任何一年里,我们均可预期相应的收益率是8%。然而,收益率大于24%仍然有32%的可能性(平均值加上1个标准差),或者收益率低于-8%(平均值减去1个标准差)的可能性也是32%。如果你想找到收益率等于或高于20%所相关的概率,那你就必须先对相应的各个数值进行调整,而相关的数学公式如下:
如果你的目标收益率是20%,那么,我们计算的结果是:
在附录A中的表A-1中,我们给出了正态分布曲线的概率值,当查找0.75倍的标准差时,其所给出的概率是27.34%,在整体的数据组中占54.68%,而剩下的接近一半的数据所对应的概率是22.66%,此为高于20%目标收益率的概率值。
2.4.9 概率计算的自动化程序
当你处理一个电子表格或计算机程序之时,在相关列表当中查找相应的概率值是不方便的,然而,概率值比标准差值更容易被理解。对应于一个特定的z值(标准差),如果使用以下近似值的计算方法 [1] ,你就可以计算相应曲线所占的面积,即
令z′=|z|,即取z的绝对值,然后,
其中,r为收益率,而c值为:
那么,概率P,即目标收益等于或超过预期收益的概率是:
我们现在举个实例,即已知标准差z=0.75,那我们先行计算r值:
接下来,我们将r值代入概率方程,即
由上式可知,相应数值超过0.75倍标准差的概率为22.7%(也就是说,此概率值在分布图中落在0.75倍标准差的外端),而能够落在±0.75倍标准差区间内的相应数值所相关的概率是1-(2×0.2266)=0.5468或54.68%。在附录A的表A-1中,你会发现其显示的结果与此次计算所得数值是相同的。
对于那些使用Excel的人士而言,其可以使用正态分布函数[相关变量有价格(p)、均值(mean)、标准差(stdev)、累积值(cumulative)],如此则能够找到相应的答案,其中:
·p代表的是现价或现值;
·mean代表的是现值p所相关的系列价格的均值;
·stdev代表的是现值p所相关的系列价格的标准差;
·cumulative:如果你要计算z值,那么,在此项下选择“true”。
如果正态分布函数所相关的变量已知,例如normdist(35,20,5,true),那么,相应的概率值就是0.99865或99.8%;如果在累积cumulative项,你选择“false”(即虚构),那么,相应的结果就是0.000866。
2.4.10 标准残差项
在整个交易系统开发和测试的过程中,我们想知道的是,所得到的测试结果是否符合预期。关于这个问题,相应的答案总是依赖于样本数据的规模以及方差数值的大小,而方差值则是相应时间序列之内具有代表性的数据。
有一种测量误差的方法,我们称之为“标准残差”(简称SE),其功能是运用方差法对基于多种样本数据而形成的分布区间之中的残差进行估算,从而得到相应的数值。这是一种测试方法,其作用是确定如何将样本均值与所有数据的实际均值分离开来,它解决了数据的一致性问题,而相应的数学公式是:
式中 Var——样本均值的方差;
n——在样本均值中数据点的数量。
上述所谓“样本均值”指的是数据采样的次数,通常情况下,我们每次使用n个数据点以及相关样本的均值来查找相应的方差值。在大多数的情境之下,正如本章前面所论述的那样,我们会使用单一的数据系列来计算相应的方差值。
2.4.11 t分布统计量和相关自由度
当一个分布形态之中所涉猎的价格或交易较少时,我们可以预期的是相应曲线的形状更具变化性,例如,它可能是分散的,从而使相关分布的峰值较低,同时,分布图形的尾部会甩得更高。这里有一种方法,凭此我们可以测量一个源于较小数据组的样本分布与正态分布(隶属于大样本的数据)之间的近似度,即使用t分布的统计方法[也被称为“学生t检验模式”,由W.S.戈塞特(W.S.Gossett)所开发],而所谓t分布检验模式是根据相关的自由度(简称df)来计算的,而df值对应的是n-1项,而n是样本的规模,即在分布当中所使用的价格数量,而相应的t值计算方法如下:
在范例当中,数据越多,测试结果就越可靠。在表2-2中,通过观察几个t值,我们能够对相应分布的形状进行广泛的观察,而相应t值所对应的上尾区间的几个概率值是0.10、0.05、0.025、0.01和0.005。如表所示,随着样本容量n的增加,t值会逐步趋近标准正态分布图形的尾部区间。
表2-2 0.025上尾概率所对应的t值
那些所需的、具有影响力的t值可以在附录A中的表A-2“t-分布”中找到,相应列向量“0.10”所对应的是90%的置信度,“0.05”的置信度是95%,“0.005”的置信度是99.5%。例如,如果在样本中有20个价格,而我们所预期的上尾概率是0.025,那么,相应的t值就需要被调整至2.086;相对于较小规模的样本,为了得到相同的置信度,t值会变得较大。
在测试交易系统之时,相应的自由度能够以相关交易策略所生成的交易次数来表示——当你几乎没有交易时,无论你使用多长的历史交易记录,所得到的结果都不具有参考性。在测试交易策略时,你会发现决策过程中所使用的交易次数和参数或变量的规模之间所显示出的一种相关性,即所使用的变量越多,就需要生成更多的交易,以期形成一种可接受的置信水平。
2.4.12 二元样本数据的t分布检验
你可能想比较两个时期的数据,进而确定相应价格模式是否已经发生了显著的改变,而一些分析人士则以此种方法来消除不一致的数据。但是,作为人类进化过程的一个组成部分,价格和经济数据的特点是不断变化的,同时,相应的系统交易也应该能够适应这些变化。在如此情境之下,有一种方法对于测试相应的交易结果而言是最合适的,我们可以用它来决定一个交易决策是否要贯彻下去,这就是二元样本数据的t检验模式,其公式如下:
式中 和——第一周期和第二周期所各自对应的均值;
var1 和var2 ——第一周期和第二周期所各自对应的相应价格的方差值;
n1 和n2 ——第一周期和第二周期所各自对应的价格数据的数量。
上式当中,两个被比较的周期是相互独立的,而且,在表A-2中,我们要首先找到相应的置信水平,进而确定相关的自由度df。对此,我们可以使用萨特思·韦特(Satterth Waite)的近似法进行相应的运算,公式如下,且式中的s所代表的是相关数据值的标准差:
当使用t分布检验去发现相应交易系统所生成损益的一致性时,我们需要以每一笔交易的净收益来取代相关的数据项,而各数据项的值则由交易的次数来决定,同时,我们要用收益率而不是价格来计算其他所有的数值。
[1] Stephen J.Brown and Mark P.Kritzman,Quantitative Methods for Financial Analysis,2nd ed.(Dow Jones-Irwin,1990),238-241.