2.3 价格的分布形态
对于相应价格分布的考量是非常重要的,因为其将预示着在通常情境之下会发生什么状况。我们无法知道明天的标准普尔指数的交易区间会在什么位置,但是,如果目前的价格是1200点,那么,我们就有很大的理由相信:今年其价格的浮动区间大约在900~1500点,而其在1100点和1300点之间波动的概率不大,而其在1150~1250点波动的可能性会更小,事实上,我们几乎没有机会准确地把握标准普尔点数的波动范围。就一个事件发生的可能性而言,你可以基于后验分布的考量,进而设置一个概率或置信度的层级。
在以下所有的数据当中,我们将使用一些有限数量的价格,或者在一些情境之下,以相应交易损益作为其范例数据。而我们想要做的是测量样本的特殊属性:首先,发现样本价格数据的分布形态;然后,以较少的样本结果与大数据样本的结果相比较,或研判两个样本数据的相似程度,所有这些考量将表明:与预期的大数据样本相比较,较少量的样本数据不太可靠,而如果你已了解了相应误差的规模或预期各自分布形态的差异,那么,小样本数据还是可以使用的。
2.3.1 频率分布
频率分布(也称为一个直方图)很简单,但作为一种图形,其却能更直观地反映出数据的特征。从理论上讲,我们预期大宗商品的价格将会在更多的时间区间之内处于相对较低的水平,而高价格所相关的时间序列是短暂的。如图2-2所示,其显示了过去25年的小麦价格变化模式,而我们将图中最频繁出现的,且使供给和需求达到平衡的价格称为“均衡价格”;当小麦发生供不应求的情况之时,或者当出现意想不到的需求之时,其价格在一个较短时期内将会上涨,直到需求得到满足(如果价格太高了,这种情况可能发生),或者通过增加供应来满足相应的需求。另外一种情形就是,在通常情况下,价格分布的尾部形态稍向左偏,即偶尔出现以低于生产成本的价格所进行的交易,或在高供给的情境之下所进行的打折销售。
图2-2 小麦价格(1985~2010年)
现在,我们用20个空间素材来计算相应的频率分布区间,如此则可以发现相关的最高价和最低价,然后,我们将二者的差值除以19,从而得出每个素材空间的规模;接下来,我们从最低价格开始,加上一个素材空间的值,由此得到第二个价格数值,再添加一个素材空间的数值就可得到第三个价格数值,如此等等。当此项工作完成之时,在最低价格的初始值至最高价格的终值的区间之内,你会得到20个素材空间的数值。然后,你就可以计算每个素材空间之中的价格数量,这是一个几乎不可能完成的任务,你或许可使用电子表格来完成此工作:在Excel中,你可以点击数据/数据分析/直方图键,由此进入素材空间的工作区(你需要提前设置),进而分析相关的数据,然后,在电子表格上选择一个空白区域以输出相应的计算结果(最好放在素材空间的右侧),接下来,单击OK键,如此,频率分布将会被即时地显示出来,这样,你就可以绘制相应的测试结果,如图2-3所示。
图2-3 小麦价格之频率分布图,其显示了一个右偏的尾部形态
根据频率分布图的显示,最常见价格下跌区间为3.50美元/蒲式耳到4.00美元/蒲式耳之间,但最活跃的区间为2.50美元/蒲式耳到2.50美元/蒲式耳之间;频率分布图的尾部形态向右延伸至略低于10美元/蒲式耳的位置,如此则清楚地显示了相关价格的厚尾形态。如果图2-3显示的是一个正态分布,那么,在超过6美元/蒲式耳的价位就没有相应的素材空间 [1] ;同时,在低于2.50美元/蒲式耳的区间之内没有相应的素材空间,这是因为这个价位属于生产成本,如果低于这个价格,则会出现亏损的情境,那么,相关的业者将拒绝出售此类商品。然而,美国政府制定了支撑价格的项目计划,以此来保证农业生产者的最低收益。
通过小麦的频率分布,我们也可以感知相应通货膨胀率和美元变化率的净值,这个问题将在本章的结尾处被再次解析。
2.3.2 短期行情分布情境
在较短的时间间隔之内,虽然价格的运行模式不是那么稳定,但是,同样的频率分布形态还是会出现的,如果我们截取2007年度的小麦价格图(见图2-4),我们会看到其在年中呈现的是稳步上升的状态,紧随其后的是一个宽幅的、于更高价格水平之上的横盘模式。然而,在图2-5中,分布频率所显示的是一个类似于长期分布的模式,最常见的值出现在较低水平的价位之上,而且其厚尾形状偏向右侧。而如果我们选择了2007年9月相关价格达至顶点之前的几个月的指标作为参考数据,如此,该图会进一步显示其峰值价格趋向右侧,厚尾形状则向左偏,对于大宗商品而言,这代表了在测试的期限之内,价格是不稳定的,而此种状况往往会预示着价格的跌势。
图2-4 2007年小麦价格日间图表
图2-5 2007年小麦价格的频率分布图,价格区间为0.50美元
综上所述,我们可以预期:就实物商品(如农产品、金属、能源)而言,其价格的分布形态会倾向于左偏(更多的则出现在低价格区),而在高价位的区域,有一条长尾偏向图表的右侧,这是由供求关系不平衡所致,其必然导致价格在一段相当短的时间之内维持在高价位的水平。在股票市场上,历史已经表明,股市不会无限期的维持异常高的市盈率(P/E)。然而,它的调整期一般会需要好多年,其不像农产品那样以年为周期。当观察较短的价格相关的时间序列之时,我们可以把那些不符合标准分布的模式看作是一种“过渡”。如果读者想要了解更多的关于价格分布的内容,那你可以参考第18章,其中,特别重要的是关于“价格分布”和“史泰米亚的市场结构理论”这两个部分。
在前一节的探讨过程中,我们以居中趋向的测量方式将相关价格运行的形态及尖点刻画于相应的频率分布图之中。而当相应分布处于非对称的情境之时,以三种方法所计算的均值呈如下的相关性,即
算术平均值>几何平均值>调和平均数
2.3.3 中位数和众数
我们这里介绍另外两个测量值,即中位数和众数,这两个值通常用于定义相应的分布形式。中值,或称“中间项”,有利于构建“中心”的数据,即当数据被分类时,它是位于中间的值。同时,中位数的优点是:其可以贴现极端数值,这可能是被扭曲的算术平均值;中位数的缺点是:你必须将所有的数据进行分类排序以定位中间点。总之,除非所使用的测试项目的数量非常小,中位数可以被定义为首选的均值。
所谓众数所显示的是最常见的价值,如在图2-5中的频率分布所相关的800素材空间当中,相关众数是最高的那一条棒线。
在正态分布的价格系列之中,众数、均值以及中位数的数值是相同的,然而,随着相应数据出现正偏或负偏的情境,众数、均值以及中位数的三个数值彼此之间会渐行渐远,而其一般属性所显示的相关性是:
均值>中值>众数值
正态分布图通常被描绘成一条钟形的曲线,而均值两侧的价值以同等的幅度下降。对大部分被使用的价格和性能数据而言,相关的分布图形往往呈现右偏态势(即向更高的价格或更高的收益区间偏移),同时,图形左侧会呈现平坦或切断的形态(显示的是更低的价格或交易发生损失的情境)。如果基于一个固定的趋势止损系统绘制一个交易损益的分布图形,那你所获取的收益范围就会从零到一个非常大的值,而理论意义上的损失值将会被限定在被止损的范畴之内。在本章的后半部分,我们会提到偏态分布,其对概率的测度是非常重要的。其实,在一个交易的环境当中,没有什么真正意义上的“正态”分布。
2.3.4 各类均值计算方法的主要特性
每个平均方法都有其独特的意义和实用性,接下来,让我们总结并指出其各自的主要特征。
首先,算术平均值会受到每个数据元素的影响,但是,相较于其他方法而言,其更倾向于强调极端值,同时,此种均值很容易计算,并且从属于代数处理的范畴。
与算术平均值相比,几何平均值配置于极端变化数值之上的权重不大,而当被使用的数据是以比率或百分比的形式表示之时,应用几何平均值的效果最好,但是,几何平均值不能用于夹带负数的运算。同时,几何平均值的运算也属于代数处理的范畴。
调和平均值最适用于把握时间的变化,其与几何平均值一起被应用于经济学的价格分析之中。调和平均值的计算比较困难一些,因此,尽管它也属于代数处理的范畴,但是,与其他的均值计算方法相比,它不太受欢迎。
所谓众数是一个最常用的数值,并且其只能由频率的分布模式所决定。众数所适应的场合是相关数据最为集中的区域,并且,其可以在合理的、大量的样本数据之中显示相应的特征值。相对于一组无序的数据(如价格)而言,寻找众数的模式就是在耗费时间,因为其不属于代数处理的范畴。
中位数即中间值,当不完整的数据组需要设定中心点位之时,计算此中间值则是最有用的,其不受极端变化的影响,而且能够以简单的方法发现。然而,由于中值的计算需要将数据进行排序,因此,其计算起来比较缓慢;另外,尽管中位数具有一些代数的性质,但它并不适合采用电子计算的方式。
[1] 素材空间与正态分布的密度函数类似。——译者注