2.4　数据集的标注

2.4　数据集的标注
- 2.4.1　变量标签
- 2.4.2　值标签

为了使结果更易解读，数据分析人员通常会对数据集进行标注。通常这种标注包括为变量名添加描述性的标签，以及为类别型变量中的编码添加值标签。例如，对于变量age，你可能想附加一个描述更详细的标签“Age at hospitalization (in years)”（入院年龄）。对于编码为1或2的性别变量gender，你可能想将其关联到标签“male”和“female”上。

2.4.1　变量标签

遗憾的是，R处理变量标签的能力有限。一种解决方法是将变量标签作为变量名，然后通过位置下标来访问这个变量。考虑之前病例数据框的例子。名为age的第二列包含着个体首次入院时的年龄。代码：

names(patientdata)[2] <- "Age at hospitalization (in years)"

将age重命名为"Age at hospitalization (in years)"。很明显，新的变量名太长，不适合重复输入。作为替代，你可以使用patientdata[2]来引用这个变量，而在本应输出age的地方输出字符串"Age at hospitalization (in years)"。很显然，这个方法并不理想，如果你能尝试想出更好的命名（例如，admissionAge）可能会更好一点。

2.4.2　值标签

函数factor()可为类别型变量创建值标签。继续上例，假设你有一个名为gender的变量，其中1表示男性，2表示女性。你可以使用代码：

patientdata$gender <- factor(patientdata$gender,
                             levels = c(1,2),
                             labels = c("male", "female"))

来创建值标签。这里levels代表变量的实际值，而labels表示包含了理想值标签的字符型向量。

2.4 数据集的标注