第8章 回归
本章内容
拟合并解释线性模型
检验模型假设
模型选择
从许多方面来看,回归分析都是统计学的核心。它其实是一个广义的概念,通指那些用一个或多个预测变量(也称自变量或解释变量)来预测响应变量(也称因变量、效标变量或结果变量)的方法。通常,回归分析可以用来挑选与响应变量相关的解释变量,可以描述两者的关系,也可以生成一个等式,通过解释变量来预测响应变量。
例如,一个运动生理学家可通过回归分析获得一个等式,预测一个人在跑步机上锻炼时预期消耗的卡路里数。响应变量即消耗的卡路里数(可通过耗氧量计算获得),预测变量则可能包括锻炼的时间(分)、处于目标心率的时间比、平均速度(英里/小时)、年龄(年)、性别和身体质量指数(BMI)。
从理论的角度来看,回归分析可以帮助解答以下疑问。
锻炼时间与消耗的卡路里数是什么关系?是线性的还是曲线的?比如,卡路里消耗到某个点后,锻炼对卡路里的消耗影响会变小吗?
耗费的精力(处于目标心率的时间比,平均行进速度)将被如何计算在内?
这些关系对年轻人和老人、男性和女性、肥胖和苗条的人同样适用吗?
从实际的角度来看,回归分析则可以帮助解答以下疑问。
一名30岁的男性,BMI为28.7,如果以每小时4英里的速度行走45分钟,并且80%的时间都在目标心率内,那么他会消耗多少卡路里呢?
为了准确预测一个人行走时消耗的卡路里数,你需要收集的变量最少是多少个?
预测的准确度可以达到多少?
由于回归分析在现代统计学中非常重要,本章将对其进行一些深度讲解。首先,我们将看一看如何拟合和解释回归模型,然后回顾一系列鉴别模型潜在问题的方法,并学习如何解决它们。其次,我们将探究变量选择问题。对于所有可用的预测变量,如何确定哪些变量包含在最终的模型中?再次,我们将讨论一般性问题。模型在现实世界中的表现到底如何?最后,我们再看看相对重要性问题。模型所有的预测变量中,哪一个最重要,哪一个第二重要,哪一个最无关紧要?
正如你所看到的,我们会涵盖许多方面的内容。有效的回归分析本就是一个交互的、整体的、多步骤的过程,而不仅仅是一点技巧。为此,本书并不将它分散到多个章中进行讲解,而是用单独的一章来讨论。因此,这一章将成为本书最长最复杂的一章。只要坚持到最后,我保证你一定可以掌握所有的工具,自如地处理许多研究性问题!