地理区别

    本节中我们将探索海湾地区不同城市的住房价格变化。因为我们查看的是平均价格,我们必须注意不要包含只有很少的销售量的城市。我们决定重点放在每周平均销售量至少10套的所有城市。这种方式最后筛选出58个城市(总共是245个城市,占24%),共428415套住房销售量(占销售总量的82%)。

    然后,我们计算了以周为单位的平均房价。图18-6显示了这些价格,每个城市使用一条不同的曲线来描绘。统计学家为这种展示方式起了一个很生动的名字:“意大利面条曲线”。很难从一大堆线条中查看任何东西。对这种曲线的一种改进方法是对每条线进行平滑,删除短期的变化,使我们可以重点观察长期趋势。

    地理区别 - 图1

    图 18-6:每个城市的每周平均销售价格。这种类型的绘图通常被称为“意大利面条曲线”。它需要平滑,因为曲线中这种“周到周”之间的变化无法检测出趋势

    为了创建平滑的曲线,我们使用了广义的可加模型(GM),它是对线性模型的范化(Wod 2006)。广义可加模型通过优化权衡切近数据并且线条平滑的方式来拟合线条曲线。实际上,它消除了噪音数据带来的短期影响,并且将重点集中于长期趋势。这正是我们所需要的:我们对每天的或者每周的变化不感兴趣,而只对和住房危机相关的长期变化感兴趣。

    图18-7上方显示了平滑化后的结果。这是一个很大的改善。现在我们可以真正看到一些模式!注意该图和第一个图在规模上的重大区别:平滑数据已经删除了一些非常昂贵的住房的销售高峰的描述。我们还会对每个城市指数化,正如我们之前对每个十分数指数化那样:通过相对初始价格进行划分,使得每个城市可以有一个共同的规模,允许我们把重点放在变化上。这一点显示在图18-7下方。

    现在还存在很多变化,但是我们可以开始看到增长值模式直到2007年年中,然后后期值开始下降。为了进一步探讨,我们需要分别查看这些城市,如图18-8所示。该曲线图占了很大空间,但是它提供了很多额外的信息,因此是值得的。我们可以挑选出一些有趣的模式:伯克利和旧金山显示的高峰值较低,而下降值较少;而Mountain View的独特之处在于它的住房价格一点都没有下降。其他城市如Oakley、Vallejo和San Pablo,则是大起大落,高峰值很高,而跌落值也很大。

    回想一下我们之前关于San Jose城市的讨论,我们注意到,原始数据本身描述了San Jose城市的很多社区。由于这一点,有时相同的地址被分配给多个社区,但是该数据还表明这些社区具有鲜明的特点。Berryessa、东San Jose、北San Jose和南San Jose有相似的曲线,呈现出很鲜明的高峰和一样鲜明的下降;而另一方面,Cambrian、San Jose和西San Jose则没有出现这么大幅度的下降。

    经过进一步调查,我们发现一个使得城市之间相互区别的主要特征:在繁荣期价格之间的区别以及它们最近的下降幅度。我们创建了一个新的变量,称为“价格回落”,它表示在2006年2月(繁荣期的顶峰)和2008年11月(写本章内容时的“低谷”)之间的平均价格的相对下降。图18-9通过新的变量对城市进行分组。这些城市的划分是随机的,但是你可以看到每组城市如何遵循相似的模式:繁荣越鼎盛,崩溃越惨烈。这意味着这单个数字可以很好地总结住房危机的繁荣和萧条方面。

    地理区别 - 图2

    地理区别 - 图3

    图 18-7:平滑后的每周销售价格,每条曲线表示一个城市(上图)。下图底部的曲线进行了指数化来显示价格的变化比例。模式开始出现了

    我们已经确定城市具有不同的模式,但是还不知道产生这种现象的可能原因。地理模式,如图18-10所示,没有显示任何特别突出的,除了受灾最严重的地区通常是旧金山市的北部和东部。这并不能提供有力的说服力,因此我们需要寻找更多的数据,可以帮助我们获得更深入的理解。