第7章 基本统计分析

本章内容

  • 描述性统计分析

  • 频数表和列联表

  • 相关系数和协方差

  • t检验

  • 非参数统计

在前几章中,你学习了如何将数据导入到R中,以及如何使用一系列函数组织数据并将其转换成为可用的格式。然后,我们评述了数据可视化的基本方法。

在数据被组织成合适的形式后,你也开始使用图形探索数据,而下一步通常就是使用数值描述每个变量的分布,接下来则是两两探索所选择变量之间的关系。其目的是回答如下问题。

  • 各车型的油耗如何?特别是,在对车型的调查中,每加仑汽油行驶英里数的分布是什么样的?(均值、标准差、中位数、值域等。)

  • 在进行新药实验后,用药组和安慰剂组的治疗结果(无改善、一定程度的改善、显著的改善)相比如何?实验参与者的性别是否对结果有影响?

  • 收入和预期寿命的相关性如何?它是否明显不为零?

  • 美国的某些地区是否更有可能因为你犯罪而将你监禁?不同地区的差别是否在统计上显著?

本章,我们将评述用于生成基本的描述性统计量和推断统计量的R函数。首先,我们将着眼于定量变量的位置和尺度的衡量方式。然后我们将学习生成类别型变量的频数表和列联表的方法(以及连带的卡方检验)。接下来,我们将考察连续型和有序型变量相关系数的多种形式。最后,我们将转而通过参数检验(t检验)和非参数检验(Mann—Whitney U检验、Kruskal—Wallis检验)方法研究组间差异。虽然我们关注的是数值结果,但也将通篇提及用于可视化这些结果的图形方法。

本章中涵盖的统计方法通常会在本科第一年的统计课程中讲授。如果你对这些方法不熟悉,有两份优秀的文献可供参考:McCall(2000)和Snedecor & Cochran(1989)。除此之外,对于讲到的每个主题,也有许多翔实的在线资源可供参考(如维基百科)。