结论
我们从多个角度查看了数据,观察到的是相同的东西:住房危机在更贫困地区相对伤害更深。繁荣和萧条对于价格低的住房打击更早更大;平均收入较低的城市高峰值更高,下降更多,落差也更大。很多繁荣景象和新建筑有关,绝大多数的目标是低端市场。
很多新建成的住宅远离旧金山市区,在较不发达的地区,居民平均收入较低、孩子更多、上下班时间更长。虽然价格上最大的绝对下降发生在高端,但从跌下的价格相对于房子本身的价值所占比例的角度考虑,较便宜的住房损失更大。
自从房地产泡沫成为头条新闻,所有这一切都和我们所学到的关于次级抵押贷款一致。很多信誉很低的人也获得了抵押贷款,初始每个月支付很少。当这些支付款项不断增长时,他们就无法支付了,违约和丧失抵押品赎回权的数量开始上升。我们之前猜测过2008年销售的增长可能和丧失抵押品赎回权有关,而且下一步有趣的步骤是定位出丧失抵押品赎回权的数据,并结合我们的销售数据一起调研。
我们使用了相对简单的统计方法如索引、计算位数、平滑和分块来探索大的、复杂的数据集合。我们从广泛的摘要开始,然后深入探索细节,但是我们还只是触及表面。如果你对我们的数据感兴趣并希望进一步了解我们的工作细节,或者尝试一些你的想法,你可以在git库:https://github.com/hadley/sfhousing检出所有数据和代码。我们写的所有代码(R、Perl和shell脚本)都是运行在开源软件上,因此,任何人都可以复制这些工作成果,而不需要购买昂贵的软件。再生性的原则(Gntleman和Temple Lang 2007)在科学实验室非常重要,在这里也很重要:如果我们犯了一个错误,你可以发现它、解决它并观察对结论的影响。
通过这次实践工作,我们获得了从住房数据中抽取、探索、分析并最终得出有用的洞察见解的快乐。此外,我们希望关于该策略、方法和技巧的通用的说明能够被证明对于那些和我们志同道合一起工作和从真实数据中学习的人有所帮助。