2.1 数据和均值所相关的理念

    2.1.1 平均法则

    在相关论述伊始之际,我们选择平均法则为开篇之作,因为人们对此法则存在大量的误解,从而使其经常被错误地引用。在交易过程中,所谓的平均法则是指,当我们可以预期一连串不规则之损失的时候,则需要以相同数量的、通过反向运行模式所获取的收益来进行对冲。而我们需要明了一个概念,即预期当前被高估的行情以及超买的价位于下一个时间序列会趋向一个被低估和超卖的行情的做法是错误的,这不是什么平均法则。通过对大量范本的测试,我们发现,如果将大部分的情境分散来看,其代表性价值可以覆盖异常事件,进而使得这些异常事件变得无关紧要,而其代表值则是趋近于均线数值的。

    图2-1阐述了上述的原理法则,于其上我们可以发现,其所显示的平均项的数量非常大;同时,靠近正态平均项旁边一侧异常组的添加项非常小,其不影响该分组的平衡,它就好像在偌大的喷气式飞机上只有一名乘客,他不会影响到飞机的承载,因为个人的体重对飞机的操作是微不足道的,即使在机舱之内来回走动,你也不会被注意到。所以,长时段的利润、损失或异常的持续运行的价格行情都是不常见的,随着时间的推移,异常事件终将会被大量的、具有压倒性优势的正态情境所抵消。在第22章的第22.3节中,我们会对前述的问题进行更加深入的讨论,同时,我们还要探讨其是如何影响交易的。

    图2-1 平均法则:正态情境一定会压倒非正态分布——对于极端情况,我们没有必要为了达到某个平衡而去调高某个节点,且调低下一个节点

    2.1.2 样本内以及样本外数据

    适当的测试程序需要将样本内和样本外的数据组进行分别设置,关于这个问题,我们将在第21章中进行相关的探讨,目前,我们应该首先考虑最重要的关键点。另外,所有的测试程序都在过度填充各类数据,而如果不运行测试程序的话,我们就很难知道所运行的系统和思维是不是可行。因此,通过删除有效期内未被使用的数据,你就会捕捉一个更好的交易时机,所以在投入资金之前,你就应该运作相关的交易理念。

    这里有很多种方法来选择样本内的数据,例如,如果你有20年间的历史性交易价格,那么你可以选择使用前10年的数据进行测试,同时将余下的10年时间作为备用以资验证。但是,随着时间的推移,行情会出现各种变化,进而使得市场常常出现不确定性,而且相应的趋势也是或明或暗地予以显现。此时,如果在样本外数据所相关的期间之内你无法看见相应的数据,那么最好的办法是交替使用样本内和样本外数据所各自相关的测试周期,一般以两年的时间间隔为一个节点。但是,相应测试周期的交替使用可能对持续的、长期的趋势产生不良的影响,对此,我们将在第21章中探讨相应的解决方案。

    在保留样本外数据时,最重要的因素是,你要发现一个机会去使用它。一旦你竭尽全力地为一个交易程序创建了相应的规则,那么,你就要通过看不见的数据去运行这个程序,而如果相应的测试结果比较成功,那你就可以应用这个系统进行交易。但如果测试失败了,那你也算是完成了一项工作,而且,你不能关注失败的原因,也不必试图通过改变交易方式以求达到更好的测试效果——你或许已经得到了反馈的信息,即你的样本外数据被认为是有问题的,如果进行第二次尝试,那测试效果肯定会更好,但是,这一次却显得有些“矫枉过正”了。

    2.1.3 对数据充足度问题的考量

    我们需要拥有多少数据才算充足呢?统计学家会说,“越多越好”。因为你测试的数据越多,结果就越可靠,而基于一套完美数据的技术分析才会生成比较幸运的结果。相关的交易所会记录的每一个价格——无论是IBM(美国国际商用机器公司)在5月5日于纽约市场的收盘价,还是欧洲美元利率期货于芝加哥市场在10:05时所报出的价格,它们都可以被确认,进而具有精确的价值。

    我们要记住一点:当你为了开发系统而使用样本内和样本外数据的时候,你需要尽可能多地进行相应的采集工作——如果你保留了50%的数据,那么,你所构建的投资组合与交易模型就只能发挥一半的功效。

    2.1.4 经济数据

    大多数其他类型的统计数据与股票、期货、ETF基金以及其他可在交易所交易产品的价格和交易量所相关的信息相比,就不那么及时、准确,也不可靠。经济数据,比如生产者价格指数(PPI)或房屋开工数,将以月度均值的形式发布,同时进行季度性的调整。一个月度均值的报告会涵盖大量的数字信息,而对PPI数据而言,一些生产商所支付的资金可能少于前月的均值,而另外一些生产商则可能会支付比前月均值更高的资金,但相关的平均值一般都是+0.02。由于价值系列的缺失以及各成分数据价值的标准差的存在,相应信息的有效性在一定程度上被降低了,而相关统计数据通常要在下一个月进行修订,有时甚至会做出相当大的调整。如果你要针对前述这些报道设计出一种交易方法,或者你要应对美国能源部(DOE)每周所发布的数据,那么你需要熟悉其于被发布和修正时刻准确的历史信息,如此,你会很容易地找到那些被修正的数据同时也能发现什么是你所不需要的。

    如果要使用经济数据,你必须注意相关的数据是什么时候被发布的。美国的数据是非常准确和及时的,但其他国家可能要晚几个月或几年才发布相关的数据。如果所输入的程序是来自商品研究局(CRB)年鉴的月度数据,那么你需要再度确认一下这些数据何时才是实际可用的。

    2.1.5 样本误差

    当使用均线之时,我们有必要准备足够的数据,从而使均线的数值准确无误。因为大多数统计数据是通过抽样而获取的,所以我们要特别注意对具有代表性的数据进行累积汇总,此种方法对价格同样适用。然而,如果只取一些价格的平均值,或者只分析小行情的走势,那么相应的测试结果会很不稳定,这就好比如果缺乏足够的素材,你会很难描绘出一幅精确的图画。

    当使用小的、不完整的或具有代表性的数据集合之时,样本数据的近似残差值或近似精准值可以通过使用标准差的方法进行相关的计算。而如果标准差的数值过大,那么,其所表示的是一组极其分散的点,这样反而会使均线的数值缺乏代表性,这个发现缺陷的过程则是测试的意义所在。当然,随着程序诸元的增加,测试的准确性也在不断地提高;同时,样本的误差也会变得相对较小,而相关数理模型如下:

    注:N代表的是抽样数据的累积数量。——译者注

    由上式可知,如果只采用一个项目作为样本,则会产生100%的误差,而采用四个项目为样本,则其误差率为50%。误差的大小对任何交易系统的可靠性都具有非常重要的作用——如果一个系统只有4个交易版本,那么,对于将来的运行效果而言,无论盈利还是亏损,其都将难以得出可靠的结论。因此,我们必须提供充足的交易数据,如此才能确保所得出的误差率趋近于最小。为了使误差率降低至5%以下,抽取400个交易品种是非常必要的。但是,这里存在一个困境,即由于系统每年只生成2个或者3个交易品种,如此,则会使我们陷于一个非常缓慢运行的趋势之中,为了弥补这个缺陷,我们在许多市场都会使用完全相同的抽样方法,并且对各种类别的交易进行集合式的分析(关于此方面更多的内容,我们将在第21章进行更加深入的探讨)。

    2.1.6 具有代表性的数据

    数据的数量对相关信息正确性的判断具有关键性的作用,然而,在所使用的数据当中,至少应该包括一个牛市行情区间、一个熊市行情区间以及一些横盘波动的时间段。当然,如果能够提供上述两个及两个以上的整体行情时段就更好了。如果你打算使用1990~2000年这10年间每日标准普尔指数的期货价格,或者你想使用从2010年起10年期美国国债25年数据的话,那么你只会看到一个牛市行情。而无论何时,作为多方,如果你所持有头寸的时间足够长,则其相关的交易策略必定是有利可图的;反之,如果你为各种各样的其他类型的价格运行模式所困,那么,在行情下落之时,你就很难创建一个成功的交易策略,而相应的测试结果对现实也没有什么借鉴作用。

    2.1.7 无用数据之相关问题分析

    这里有明显的例子显示:当一个股票或者期货市场经历了一个结构性的变化过程,同时,当前数据也显示出与历史数据有很大不同,例如,以通用电气公司(GE)的演变为代表,其从灯泡制造商发展到大规模的金融机构,即发生了巨大的结构性变化;2010年,该公司宣布其经营主体将重回制造行业,而这可能又是另一个结构性的变化。另外,我们也看到,起源于美国的诸如麦当劳一类的企业,其业务范围已扩展至广泛的国际领域,如此变化又影响到相关价格模式的结构性变化。在外汇方面,我们看到各欧洲国家的货币首先由协议联系在一起,最后合并成一个单一的货币单位,即欧元。

    当相应数据反映了一个不同质公司的现状,或呈现了一个变化了的地缘政治情势之时,在你的测试过程中,仍然使用相关的历史性数据还会显得那么重要吗?理想情况是:如果这些数据能够适应各种情境的变化模式,并且在相当长的、不间断的测试周期中持续获得相应的收益,那么,我们就可以认定与之相关的交易策略是完整而充实的,而统计学家所持的观点是,测试时间的跨度越长越好。对你来说,随着相关公司和市场的持续发展,你要不断调整相应的程序以求达到“适者生存”的境界。

    如果你是一个快单交易者,那你可能会考虑限制相应的测试时间,使其尽量地缩短。如果每天你交易一次,那么,5年之后,你会生成1250笔交易;10年之后,你会有2500笔交易。在前述2500笔交易当中,如果总体交易状况是盈利的话,那么,样本误差比率就是符合交易要求的,然而,这些交易可能并没有涵盖那些具有代表性的、不同类型市场和各种价格模式所涉及的数据。因此,即使从事了大量的交易,你仍然需要进行多次的跨年度测试,进而保证数据的稳健性。

    2.1.8 安全第一法则

    我们不能忽视的是,你所测试的结果的准确性取决于生成系统所使用的数据量和相应的交易次数。如果相应关于损失的预期不可靠,那么,这只能说明你所投入的资金正在陷于一种危险的境地。