15.4 理解缺失数据的来由和影响
识别缺失数据的数目、分布和模式有两个目的:(1)分析生成缺失数据的潜在机制;(2)评价缺失数据对回答实质性问题的影响。具体来讲,我们想弄清楚以下几个问题。
缺失数据的比例多大?
缺失数据是否集中在少数几个变量上,抑或广泛存在?
缺失是随机产生的吗?
缺失数据间的相关性或与可观测数据间的相关性,是否可以表明产生缺失值的机制呢?
回答这些问题将有助于判断哪种统计方法最适合用来分析你的数据。例如,如果缺失数据集中在几个相对不太重要的变量上,那么你可以删除这些变量,然后再进行正常的数据分析。如果有一小部分数据(如小于10%)随机分布在整个数据集中(MCAR),那么你可以分析数据完整的实例,这样仍可以得到可靠且有效的结果。如果可以假定数据是MCAR或者MAR,那么你可以应用多重插补法来获得有效的结论。如果数据是NMAR,你则需要借助专门的方法,收集新数据,或者加入一个相对更容易、更有收益的行业。
以下是一些例子。
在最近一个关于找工作的问卷调查中,我发现一些项常常一同缺失。很明显这些项聚集在一起,因为调查对象没有意识到问卷的第三页的背面也包含了这些项目。此时,可以认为这些数据是MCAR。
在一个关于全球领导风格的调查中,学历变量经常性地缺失。调查显示欧洲的调查对象更可能在此项目上留白,这说明某些特定国家的调查对象没有理解变量的分类。此时,这种数据最可能是MAR。
最后,我还参与了一个抑郁症的研究。该研究发现,相对于年轻的病人,越老的病人越可能忽略描述抑郁状态的项。经过访谈发现,越年老的病人越不情愿承认他们的症状,因为如此做违反了他们“三缄其口”的价值观。但是,由于绝望和注意力无法集中,抑郁症越严重的病人也越可能忽略这些项。此时,可以认为这种数据是NMAR。
正如你通过前述所了解的,模式的鉴别只是第一步。为了判断缺失值的来源,你需要理解研究的主题和数据收集过程。
假使已经知道了缺失数据的来源和影响,那么让我们看看如何转换标准的统计方法来适应缺失数据的分析。我们将重点学习三种非常流行的方法:恢复数据的推理方法、涉及删除缺失值的传统方法、涉及模拟的现代方法。沿着这个思路,我们将简要回顾一些在专业工作中应用的方法,以及已经废弃并需要扔掉的旧方法。而我们的目标一直未变:在没有完整信息的情况下,尽可能精确地回答收集数据所要解决的实质性问题。