第一部分 入门
欢迎阅读本书! R 是现今最受欢迎的数据分析和可视化平台之一。它是自由的开源软件,并同时提供 Windows、Mac OS X 和 Linux 系统的版本。通读本书,你将掌握精通这个功能全面的软件所需的技能,有效地使用它分析自己的数据。
本书共分四部分。第一部分涵盖了软件的安装、软件界面的操作、数据的导入,以及如何将数据修改成可供进一步分析的格式等基本知识。
第一章将带你熟悉 R 环境。这一章首先是 R 的概览,介绍使其成为强大的现代数据分析平台的独有特性。在简要介绍了如何获取和安装 R 之后,我们通过一系列的简单示例探索了 R 的用户界面。接着,你将学习如何通过可从在线仓库中免费下载的扩展(称为用户贡献包)来增强基本安装的功能。最后,本章以一个示例结尾,让你自测学到的新技术。
熟悉了 R 的界面之后,下一个挑战是将数据导入到程序中。在当今这个信息丰富的世界中,数据的来源和格式多种多样。第 2 章全面介绍向 R 中导入数据的多种方式。此章的前半部分介绍了 R 用以存储数据的各种数据结构,并描述了如何手工输入数据。后半部分讨论了从文本文件、网页、电子表格、统计软件和数据库导入数据的方法。
从工作流程的观点考虑,下一步理应讨论数据管理和数据清理问题。然而,许多第一次接触 R 的用户都对其强大的图形功能表现出了浓厚的兴趣。为了不扫你的兴,第 3 章我们直接开始探索图形的绘制问题。这一章对创建图形、自定义图形、以各种格式保存图形的方法进行了综述,描述了如何设定图形中使用的颜色、符号、线条类型、字体、坐标轴、标题、标签以及图例,最后还介绍了将多个图形组合为单个图形的方法。
尝试过 R 的图形功能之后,我们再重返数据分析的正题。由于数据很少以直接可用的格式出现,因此在开始解决感兴趣的问题之前,我们经常不得不将大量时间花在从不同的数据源组合数据、清理脏数据(误编码的数据、不匹配的数据、含缺失值的数据),以及新变量(组合后的变量、变换后的变量、重编码的变量)的创建上。第 4 章讲述了 R 中基本的数据管理任务,包括数据集的排序、合并、取子集,以及变量的变换、重编码和删除。
第 5 章在第 4 章的基础上,进一步讲解了数据管理中数值(算术运算、三角运算和统计运算)函数和字符处理(字符串取子集、连接和替换)函数的使用。为了阐明许多相关函数的用法,整章使用了一个综合示例进行讲解。接下来是关于控制结构(循环、条件执行)的讨论,你将学到如何编写 R 函数。编写自定义函数能够让你将许多程序执行步骤封装在单个的函数中进行灵活调用,这大大拓展了 R 的功能。因为数据的重塑和整合对于为进一步分析而准备数据的阶段通常很有用,所以最后将讨论一些重组(重塑)数据和整合数据的强大方法。
学习完第一部分之后,你将完全熟悉 R 环境的编程,并可掌握输入和访问数据、清理数据,以及为进一步分析做数据准备所需的技术。另外,你还会获得创建、自定义和保存多种图形的经验。