2.6 小结
数据的准备可能是数据分析中最具挑战性的任务之一。我们在本章中概述了R中用于存储数据的多种数据结构,以及从键盘和外部来源导入数据的许多可能方式,这是一个不错的起点。特别是,我们将在后续各章中反复地使用向量、矩阵、数据框和列表的概念。掌握通过括号表达式选取元素的能力,对数据的选择、取子集和变换将是非常重要的。
如你所见,R提供了丰富的函数用以访问外部数据,包括普通文本文件、网页、统计软件、电子表格和数据库的数据。虽然本章的焦点是将数据导入到R中,你同样也可以将数据从R导出为这些外部格式。数据的导出在附录C中论及,处理大数据集(GB级到TB级)的方法留待附录G中讨论。
将数据集读入R之后,你很有可能需要将其转化为一种更有助于分析的格式(事实上,我发现处理数据的紧迫感有助于促进学习)。在第4章,我们将会探索创建新变量、变换和重编码已有变量、合并数据集和选择观测的方法。
但在转而探讨数据管理之前,让我们先花些时间在R的绘图上。因为许多读者都是因为对R绘图怀有强烈的兴趣而开始学习R的,为了不让你们再久等,在下一章我们将直接讨论图形的创建。我们关注的重点是管理和定制图形的通用方法,它们在本书余下章节都会用到。