第11章 中级绘图
本章内容
二元变量和多元变量关系的可视化
绘制散点图和折线图
理解相关图
学习马赛克图和关联图
第6章(基本图形)中,我们学习了许多应用广泛的图形,它们主要用于展示单类别型或连续型变量的分布情况。第8章(回归)中,我们又回顾了一些用于通过一系列预测变量来预测连续型结果变量的实用图形方法。第9章(方差分析)中,我们学习了其他很有用的绘图技巧,用于展示连续型结果变量的组间差异。从各方面来看,本章将是对之前图形主题的延伸与扩展。
本章,我们主要关注用于展示双变量间关系(二元关系)和多变量间关系(多元关系)的绘图方法。比如下面的例子。
汽车里程与车重的关系是怎样的?它是否随着汽车的气缸数目不同而变化?
如何在一个图形中展示汽车里程、车重、排量和后轴比之间的关系?
当展示大数据集(如10 000个观测)中的两个变量的关系时,如何处理数据点严重重叠的情况?换句话说,当图形变成了一个大黑点时怎么办?
如何一次性展示三个变量间的多元关系(给你一个电脑屏幕或一张纸,并且预算没有《阿凡达》那么多)?
如何展示一些树随时间推移的生长情况?
如何在单幅图中展示一堆变量的相关性?它又如何帮助你理解数据的结构呢?
对于《泰坦尼克号》中幸存者的数据,如何可视化他们的船舱等级、性别和年龄间的关系?可以从这样的图形中得出什么样的结论?
以上这些问题都可以通过本章讲解的方法来解决。我们将尽量使用真实的数据集。不过,最重要的问题还是要掌握一般的绘图方法。如果你对汽车属性或树木生长的例子不感兴趣,可以使用自己的数据。
本章将首先从散点图和散点图矩阵讲起,然后探索各种各样的折线图。这些方法都非常有名,在研究中有广泛的应用。接着,将回顾用于相关性可视化的相关图,以及用于类别型变量中多元关系可视化的马赛克图。这些方法也非常实用,不过了解这些方法的研究人员和数据分析师并不多。通过这些绘图方法的示例,你将能更好地理解数据,并将你的发现展示给其他人。