2.4 数据集的标注

为了使结果更易解读,数据分析人员通常会对数据集进行标注。通常这种标注包括为变量名添加描述性的标签,以及为类别型变量中的编码添加值标签。例如,对于变量age,你可能想附加一个描述更详细的标签“Age at hospitalization (in years)”(入院年龄)。对于编码为1或2的性别变量gender,你可能想将其关联到标签“male”和“female”上。

2.4.1 变量标签

遗憾的是,R处理变量标签的能力有限。一种解决方法是将变量标签作为变量名,然后通过位置下标来访问这个变量。考虑之前病例数据框的例子。名为age的第二列包含着个体首次入院时的年龄。代码:

  1. names(patientdata)[2] <- "Age at hospitalization (in years)"

age重命名为"Age at hospitalization (in years)"。很明显,新的变量名太长,不适合重复输入。作为替代,你可以使用patientdata[2]来引用这个变量,而在本应输出age的地方输出字符串"Age at hospitalization (in years)"。很显然,这个方法并不理想,如果你能尝试想出更好的命名(例如,admissionAge)可能会更好一点。

2.4.2 值标签

函数factor()可为类别型变量创建值标签。继续上例,假设你有一个名为gender的变量,其中1表示男性,2表示女性。你可以使用代码:

  1. patientdata$gender <- factor(patientdata$gender,
  2. levels = c(1,2),
  3. labels = c("male", "female"))

来创建值标签。这里levels代表变量的实际值,而labels表示包含了理想值标签的字符型向量。