第15章 分布与建模
使用汇总统计和图形能很好地帮助我们理解数据,但它们有一定的局限性。统计数据不能告诉你数据的形状,而图形不能扩展到多个变量(如果变量超过五六个就会变得很混乱)1,它们在数量上也不可扩展(你必须亲自察看每一个)。而且统计和图形都不擅长让你从数据中预测到什么。
1如果你无意中已经使用过biplot,那么非常好,你的确具有一些极客的天分。如果你使用一些诸如主成分分析或因子分析的降维技巧,绘制大量的变量是可行的,这些技巧能减少实际中所使用的变量数目。
这就是我们需要模型的原因:如果你已经充分理解了数据的结构并且能运行一个合适的模型,你就能通过对相关数据进行定量判断而作出预测。
目前已有大量的统计模型存在,还有更多的在不断地涌现,连大学的统计部门也难以消化。为了避免把这本书变成一门统计课,本章只处理一些非常简单的回归模型。如果你想另外了解统计学,建议阅读The R Book和Discovering Statistic Using R,这两本书非常详细地解释了统计的概念。
在运行任何模型之前,我们需要一些关于如何生成随机数、各种分布和公式的背景知识。