第二部分 基本方法

在第一部分中,我们探索了 R 环境,并讨论了如何从广泛的数据源导入数据、如何组合和变换数据,以及如何将数据准备为适合进一步分析的形式。在导入和清理完数据后,下一步通常就是逐个探索每个变量了。这将为你提供每个变量分布的信息,对理解样本的特征、识别意外的或有问题的值,以及选择合适的统计方法都是有帮助的。接下来是每次研究变量子集中的两个变量。这一步可以揭示变量间的基本关系,并且对于建立更复杂的模型来说是有益的第一步。

第二部分关注的是用于获取数据基本信息的图形技术和统计方法。第 6 章描述了可视化单个变量分布的方法。对于类别型变量,有条形图、饼图以及比较新的扇形图。对于数值型变量,有直方图、密度图、箱线图、点图和不那么著名的小提琴图(violin plot)。每类图形对于理解单个变量的分布都是有益的。

第 7 章描述了用于概述单变量和双变量间关系的统计方法。这一章使用了一个完整的数据集,以数值型数据的描述性统计分析开始,研究了感兴趣的子集。接下来,它描述了用于概述类别型数据的频数分布表和列联表。这一章以那些用于理解两个变量之间关系的方法作结,包括二元相关关系的探索、卡方检验、t 检验,以及非参数方法。

在读完第二部分以后,你将能够使用 R 中的基本图形和统计方法来描述数据、探索组间差异,并识别变量间那些显著的关系。