第8章
探索性数据分析
探索性数据分析(exploratory data analysis,EDA)是应用统计学中一个新的非常重要的研究方向。近几十年来,已有多本专著及大量论文研究了探索性数据分析这一专题,实际应用也取得了明显成效。在六西格玛管理中,要寻求过程的改进,但又不能主观臆断问题产生的原因,不应对数据有太多的前提假定,这就要求更加看重探索性数据分析方法的意义。由于它是一种全新的统计方法,为了让读者对于探索性数据分析(EDA)的内容有些初步的了解,我们将在8.1节介绍有关探索性数据分析的概念,包括EDA的特点,它所讨论的四大主题及常用术语。后面三节将按三个主题分别介绍。在8.2节介绍有关数据分布的探索工具,包括茎叶图、箱线图、字母图和根状图等。在8.3节介绍有关两个变量间线性关系方面的探索工具,主要是耐抗线等。在8.4节介绍有关响应变量与两个自变量因子间的线性关系方面的探索工具,着重探索如何使用可加性模型,主要是中位数平滑法等。至于在EDA中包含的另一个工具“耐抗平滑”(resistant smooth)则主要是关于如何对于有序数据列使用平滑工具以消除随机波动,这种平滑对于发现和汇总数据趋势及异常值都非常有用。由于这部分内容属于时间序列分析范畴,我们将在本书的姐妹篇《基于MINITAB的现代实用统计》(见参考文献[21])中予以介绍。