探索旧金山
探索了城市之间的区别,我们开始更详细地查看单个城市。旧金山是个很显然的选择:在我们包含的数据中它是最大的城市,也是我们最熟悉的城市,而且它包含一些标志性的特征,可以很容易为别人所识别。我们通过抽取旧金山的所有地址来开始探索,这些地址通过非常高的精确度进行编码,为我们总共提供25377个地址。我们创建了一个简单的经纬度散点图,如图18-13所示。
图 18-11:从上到下,住房价格的下降(价格回落)和平均收入、大学生比例和平均交通时间的关系
图 18-12:新的构建与最近价格(上图)和个人收入(下图)的关系,数据以县为单位聚集。住房单位个数在价格较低和人均收入较低的住房城市相对增长最大
对于城市的居住地区,该图给了我们非常详尽的画面。我们可以看到街道方向、海滨边界和公园。一些地区的视图,如市中心,显得更散落,因为这些地方住宅区较少。(在本章中,我们将避免用简写词“房子”,因为很显然很多销售的住房指的是公寓。)
该绘图的一个问题是我们无法看到每个特定位置的销售数量。图18-14显示了试着捕获信息的两种尝试。在上图,我们显示的是冒泡图,其地理位置和销售数量成正比。现在,我们得到和商业区非常不同的视图:那里有很高的销售量。仔细查看这些数据可以发现这些公寓建筑有几百套的公寓。在下图,我们把旧金山分成经度和纬度0.005平方米的方块,计算每个方块内的住房数量。这给了我们更高层次的视图,显示主要的家庭所在的地区。
图 18-13:(上图)对于数据中的每个住宅销售都画出了一个小点,它给我们非常好的旧金山布局的感觉;(下图)为了比较,显示的是一张旧金山的街道地图,来自http://openstreetmap.com(见彩图68)
使用相同的分块方式,我们计算了住房价格的均值和变化系数。变化系数是通过除以平均值计算出来的标准差。我们这里使用它是因为$100000的变化在当住房价格很低时要比住房价格高相对更重要。
图 18-14:住宅销售数量的地理分布。(上图)该图和之前的绘图相似,但是点的大小和每个唯一位置的销售数量成正比。这大大改变了图片,因为城市大公寓的复杂性现在开始凸显出来。(下图)在更高层聚集的销售显示:经度和纬度被划分到少数的分块,每个分块的销售数量都被计数,作为分块的颜色显示
图18-15显示了这两种求和统计的地理分布。我们可以看到Presidio城市边界和该城市的南海岸最昂贵的住房。在西南地区看起来有个高峰:这就是富裕的St.Francis Wood地区,在旧金山州立大学附近。变化系数存在一个有趣的地理趋势:似乎价格朝着西北地区增长。
图 18-15:使用和之前图相同的经度和纬度分块方法;均值(上图)和变化系数(下图)是使用相同的灰色调来计算和显示的