地理编码

    当第一次查看数据时,我们认为对所有的436106个唯一地址进行地理编码是非常重要的。也就是说,我们想要为每一个地址关联一个经度和纬度值,这样可以很容易地探索细粒度的空间效果。这是一个很有趣的挑战:你如何对将近50万的地址进行地理编码呢?

    我们从查看G公司和Yahoo!提供的Web服务开始。这些服务不适合有两个原因:一是它们对于每天的请求个数有严格的限制;二是使用结果数据时存在繁琐的限制约束。单单请求限制就意味着对所有的地址进行地理编码可能需要花费1个多月的时间,而且其授权将会影响到公开发布结果!进一步调研之后,我们发现一项非常有用的开源服务,USC WebGIS,它是由南加州大学的GIS研究实验室提供的(Gldberg和Wilson 2008)。该服务对于非商业使用是免费的,而且对于结果数据的使用没有什么约束。我们开始使用该服务,不存在每天的使用上限,但是由于速度原因存在一个隐含的上限:我们每天只能够对大约8万条地址进行地理编码,因此为总共40多万条数据进行地理编码花费了5天多的时间。该免费服务的缺点是地理编码的质量不是很好(它只使用了公开可以访问的地址数据),但是该服务的创始人很乐于帮助别人,并且发布了该服务主题的优秀的介绍文档(Gldberg 2008)。

    除了经度和纬度,USC WebGIS服务提供的结果中还包含了用来描述结果本身准确程度的一个类别变量:精确地址、邮政编码、区县等。