第7章 基本统计分析
本章内容
描述性统计分析
频数表和列联表
相关系数和协方差
t检验
非参数统计
在前几章中,你学习了如何将数据导入到R中,以及如何使用一系列函数组织数据并将其转换成为可用的格式。然后,我们评述了数据可视化的基本方法。
在数据被组织成合适的形式后,你也开始使用图形探索数据,而下一步通常就是使用数值描述每个变量的分布,接下来则是两两探索所选择变量之间的关系。其目的是回答如下问题。
各车型的油耗如何?特别是,在对车型的调查中,每加仑汽油行驶英里数的分布是什么样的?(均值、标准差、中位数、值域等。)
在进行新药实验后,用药组和安慰剂组的治疗结果(无改善、一定程度的改善、显著的改善)相比如何?实验参与者的性别是否对结果有影响?
收入和预期寿命的相关性如何?它是否明显不为零?
美国的某些地区是否更有可能因为你犯罪而将你监禁?不同地区的差别是否在统计上显著?
本章,我们将评述用于生成基本的描述性统计量和推断统计量的R函数。首先,我们将着眼于定量变量的位置和尺度的衡量方式。然后我们将学习生成类别型变量的频数表和列联表的方法(以及连带的卡方检验)。接下来,我们将考察连续型和有序型变量相关系数的多种形式。最后,我们将转而通过参数检验(t检验)和非参数检验(Mann—Whitney U检验、Kruskal—Wallis检验)方法研究组间差异。虽然我们关注的是数值结果,但也将通篇提及用于可视化这些结果的图形方法。
本章中涵盖的统计方法通常会在本科第一年的统计课程中讲授。如果你对这些方法不熟悉,有两份优秀的文献可供参考:McCall(2000)和Snedecor & Cochran(1989)。除此之外,对于讲到的每个主题,也有许多翔实的在线资源可供参考(如维基百科)。