数据检查
对于每个阶段的数据分析,通常而言,花一些时间来确保数据的准确性是完全必要的,地理编码也不例外。地理编码的错误来自于很多方面:地址中存在拓扑错误,新的建筑通常不会列在公开的数据库中,邮政编码随着时间可能变更。我们在使用USC WebGIS过程中,怀疑该软件可能存在一个bug,因为大量的地址被错误地分配到该州的洛杉矶及其他地区;我们使用另一个免费在线服务http://gpsvisualizer.com对这些地址进行了重映射。调试过程中,为了识别在旧金山海湾区很远以外的地址,我们使用统计建模工具R来为每个区县以及绝大多数的城镇描绘经度和纬度的简单地图。
San Jose地区的地址提出了一个有趣的地理编码挑战。如一些“城镇”的销售列表,我们找到的所有映射网站都无法识别这些信息,因此我们假定它们是社区的非正式名称:San Jose的北部、南部、东部和西部,Berryessa、Cambrian和一些其他地区。
只要可能,我们就试着纠正任何错误。当无法纠正错误时,我们就使用统计建模工具R的缺失值来表示我们不知道该地区准确的经纬度值。这种处理方式比扔到那些“错误匹配”更好,因为不同目的需要有不同的准确度:当我们以区县或者城市的粒度对数据进行映射时,只要有很接近的地理位置就可以。为经度和纬度使用缺失值确保任何包含可疑的地理编码的地区都会从使用经纬度的分析中删除,但是在其他情况中,都会包含这些缺失值。