15.9 小结
多数统计方法都假设输入数据是完整的且不包含缺失值(如NA
、NaN
、Inf
)。但是现实世界中的大多数数据集都包含了缺失值。因此,在进行下一步分析之前,你要么删除缺失值,要么用合理的替换值代替它们。统计软件包常常会提供一些默认的缺失值处理方法,但是这些方法可能不是最优的。因此,理解各种各样可用的方法以及它们的分支就显得非常重要。
在本章中,我们学习了一些鉴别缺失值和探究缺失值模式的方法。我们的目标是理解产生缺失值的机制,以及它们对后续分析可能产生的影响。我们回顾了三种流行的缺失值处理方法:推理法、行删除法、多重插补。
当数据存在冗余信息或有外部信息可用时,推理法可用来恢复缺失值。当数据是MCAR,后续样本量的减少对统计检验效力不会造成很严重的影响时,行删除法非常有用。而当你认为数据是MCAR或MAR,并且缺失数据问题非常复杂时,多重插补将是一个非常实用的方法。虽然许多数据分析师对多重插补法不熟悉,但是用户贡献的软件包(mice
、mi
和Amelia
)使得该方法应用起来非常容易。我相信在不久的将来,多重插补法将会得到广泛的应用。
本章最后简略介绍了R中处理某些专业领域中缺失值的软件包,并单独列出了一些在处理缺失值时应该尽量避免使用的方法(成对删除和简单插补)。
下一章,我们将探究高级作图方法,包括lattice图形的使用、ggplot2系统,以及交互式图形方法。