2.1 数据集的概念
数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。表2-1提供了一个假想的病例数据集。 表2-1 病例数据
病人编号 (PatientID) | 入院时间 (AdmDate) | 年龄 (Age) | 糖尿病类型 (Diabetes) | 病情 (Status) |
---|---|---|---|---|
1 | 10/15/2009 | 25 | Type1 | Poor |
2 | 11/01/2009 | 34 | Type2 | Improved |
3 | 10/21/2009 | 28 | Type1 | Excellent |
4 | 10/28/2009 | 52 | Type1 | Poor |
不同的行业对于数据集的行和列叫法不同。统计学家称它们为观测(observation)和变量(variable),数据库分析师则称其为记录(record)和字段(field),数据挖掘/机器学习学科的研究者则把它们叫做示例(example)和属性(attribute)。我们在本书中通篇使用术语观测和变量。
你可以清楚地看到此数据集的结构(本例中是一个矩形数组)以及其中包含的内容和数据类型。在表2-1所示的数据集中,PatientID
是行/实例标识符,AdmDate
是日期型变量,Age
是连续型变量,Diabetes
是名义型变量,Status
是有序型变量。
R中有许多用于存储数据的结构,包括标量、向量、数组、数据框和列表。表2-1实际上对应着R中的一个数据框。多样化的数据结构赋予了R极其灵活的数据处理能力。
R可以处理的数据类型(模式)包括数值型、字符型、逻辑型(TRUE/FALSE
)、复数型(虚数)和原生型(字节)。在R中,PatientID
、AdmDate
和Age
将为数值型变量,而Diabetes
和Status
则为字符型变量。另外,你需要分别告诉R:PatientID
是实例标识符,AdmDate
含有日期数据,Diabetes
和Status
分别是名义型和有序型变量。R将实例标识符称为rownames
(行名),将类别型(包括名义型和有序型)变量称为因子(factors
)。我们会在下一节中讲解这些内容,并在第3章中介绍日期型数据的处理。