第13章 广义线性模型

本章内容

  • 建立广义线性模型

  • 预测类别型变量

  • 计数型数据建模

第8章(回归)和第9章(方差分析)中,我们探究了线性模型,它们可以通过一系列连续型和/或类别型预测变量来预测正态分布的响应变量。但在许多情况下,假设因变量为正态分布(甚至连续型变量)并不合理,例如下面这几种情况。

  • 结果变量可能是类别型的。二值变量(比如:是/否、通过/失败、活着/死亡)和多分类变量(比如差/良好/优秀)都显然不是正态分布。

  • 结果变量可能是计数型的(比如,一周交通事故的数目,每日酒水消耗的数量)。这类变量都是非负的有限值,而且它们的均值和方差通常都是相关的(正态分布变量间不是如此,而是相互独立)。

广义线性模型扩展了线性模型的框架,它包含了非正态因变量的分析。

在本章中,我们将首先简要概述广义线性模型,并介绍如何使用glm()函数来进行估计。然后我们将重点关注该框架中两种流行的模型:Logistic回归(因变量为类别型)和泊松回归(因变量为计数型)。

为了让讨论更有吸引力,我们将把广义线性模型应用到两个用标准线性模型无法轻易解决的问题上。

  • 什么样的个人信息、人口统计信息和人际关系信息可以作为变量,用来预测婚姻出轨问题?此时,结果变量为二值型(出轨/没出轨)。

  • 药物治疗对于八周中所发生的癫痫次数有何影响?此时,结果变量为计数型(癫痫次数)。

我们将利用Logistic回归来阐释第一个问题,用泊松回归阐释第二个问题。建模过程中,将还考虑对每种方法进行扩展。