2.4 数据集的标注
为了使结果更易解读,数据分析人员通常会对数据集进行标注。通常这种标注包括为变量名添加描述性的标签,以及为类别型变量中的编码添加值标签。例如,对于变量age
,你可能想附加一个描述更详细的标签“Age at hospitalization (in years)”(入院年龄)。对于编码为1或2的性别变量gender
,你可能想将其关联到标签“male”和“female”上。
2.4.1 变量标签
遗憾的是,R处理变量标签的能力有限。一种解决方法是将变量标签作为变量名,然后通过位置下标来访问这个变量。考虑之前病例数据框的例子。名为age
的第二列包含着个体首次入院时的年龄。代码:
names(patientdata)[2] <- "Age at hospitalization (in years)"
将age
重命名为"Age at hospitalization (in years)"
。很明显,新的变量名太长,不适合重复输入。作为替代,你可以使用patientdata[2]
来引用这个变量,而在本应输出age
的地方输出字符串"Age at hospitalization (in years)"
。很显然,这个方法并不理想,如果你能尝试想出更好的命名(例如,admissionAge)
可能会更好一点。
2.4.2 值标签
函数factor()
可为类别型变量创建值标签。继续上例,假设你有一个名为gender
的变量,其中1表示男性,2表示女性。你可以使用代码:
patientdata$gender <- factor(patientdata$gender,
levels = c(1,2),
labels = c("male", "female"))
来创建值标签。这里levels
代表变量的实际值,而labels
表示包含了理想值标签的字符型向量。