15.5 理性处理不完整数据
推理方法会根据变量间的数学或者逻辑关系来填补或恢复缺失值。下面的一些例子有助于阐明这些方法。
在sleep
数据集中,变量Sleep
是Dream
和NonD
变量的和。若知道了它们中任意两个动物的得分,你便可以推导出第三个。因此,如果一些观测缺失了这三个变量中的一个,你便可以通过加减来恢复缺失值信息。
第二个例子,我们考察各代群体(依据出生年代区分,如沉默的一代、婴儿潮一代、婴儿潮后期一代、无名一代、千禧一代)在工作与生活间的平衡差异。调查对象都被问及了他们的出生日期和年龄,如果出生日期缺失,你便可以根据他们的年龄和其完成调查时的日期来填补他们的出生年份(以及他们所属的年代群体),这样便可使调查问卷完整。
另一个例子是通过逻辑关系来恢复缺失数据。数据来源于一系列的领导力研究,参与者被问及他们是否是经理(是/不是)和他们直接下属的个数(整数)。如果他们在是否是经理的问题上留白,但却告知他们有一个或多个直接下属,那么可以推断他们是经理。
最后一个例子是我经常参与的性别研究,比较的是男女领导风格和效力间的差异。参与者会完整填写他们的名字(姓和名)、性别和关于他们领导方式和影响的详细评价。如果参与者在性别问题上留白,为了将他们包含在研究中,我便需要插补这些缺失值。在最近一项对66 000个经理的研究中,11 000(17%)个人没有填写性别项。
在最后这个例子中,我会按以下推理过程进行处理。首先,将姓和性别交叉制表。一些姓会与男性相联系,一些会与女性相联系,还有一些会与两种性别相联系。比如,“William”出现了417次,总是男性;相反,“Chris”出现了237次,但有时是男性(86%,“克里斯”),有时是女性(14%,“克丽丝”)。如果一个姓在数据集中出现超过20次,并总是与男性或者女性(不是同时两者)相联系,我便认为该姓代表着一个性别。利用该假设,我创建了一个性别专有姓的性别查询表,查询这个表,我便能恢复7000个实例(有缺失值经理人中的63%)。
推理研究法常常需要创造性和想法,同时还需要许多数据处理技巧,而且数据的恢复可能是准确的(如睡眠的例子)或者近似的(性别的例子)。下一节我们将探究一种通过删除观测来创建完整数据集的方法。