第2章 创建数据集
本章内容
探索R中的数据结构
输入数据
导入数据
标注数据
按照个人要求的格式来创建含有研究信息的数据集,这是任何数据分析的第一步。在R中,这个任务包括以下两步:
选择一种数据结构来存储数据;
将数据输入或导入到这个数据结构中。
本章的第一部分(2.1~2.2节)叙述了R中用于存储数据的多种结构。其中,2.2节描述了向量、因子、矩阵、数据框以及列表的用法。熟悉这些数据结构(以及访问其中元素的表述方法)将十分有助于了解R的工作方式,因此你可能需要耐心消化这一节的内容。
本章的第二部分(2.3节)涵盖了多种向R中导入数据的可行方法。可以手工输入数据,亦可从外部源导入数据。数据源可为文本文件、电子表格、统计软件和各类数据库管理系统。举例来说,我在工作中使用的数据往往来自于SQL数据库。偶尔,我也会接受从DOS时代遗留下的数据,或是从现有的SAS和SPSS中导出的数据。通常,你仅仅需要本节中描述的一两种方法,因此根据需求有选择地阅读即可。
创建数据集后,往往需要对它进行标注,也就是为变量和变量代码添加描述性的标签。本章的第三部分(2.4节)将讨论数据集的标注问题,并介绍一些处理数据集的实用函数(2.5节)。下面我们从基本知识讲起。