第4章 基本数据管理

本章内容

  • 操纵日期和缺失值

  • 熟悉数据类型的转换

  • 变量的创建和重编码

  • 数据集的排序,合并与取子集

  • 选入和丢弃变量

在第2章中,我们讨论了多种导入数据到R中的方法。遗憾的是,将我们的数据表示为矩阵或数据框这样的矩形形式仅仅是数据准备的第一步。这里可以演绎Kirk船长在《星际迷航》“末日决战的滋味”一集中的台词(这完全验明了我的极客基因):“数据是一件麻烦事——一件非常非常麻烦的事。”在我的工作中,有多达60%的数据分析时间都花在了实际分析前数据的准备上。我敢大胆地说,多数需要处理现实数据的分析师可能都面临着以某种形式存在的类似问题。让我们先看一个例子。