第19章美丽的政治数据 - 实例2：估计的时间序列 - 《数据之美 : 解密优雅数据解决方案背后的故事》

实例2：估计的时间序列

图19-2说明了经典的逻辑回归（一种预测“是/否”结果的标准统计方法）方法的一个问题，以及如何使用所谓的弱信息化的贝叶斯方法来解决该问题。对于从1952～2000年每次美国总统选举的投票数据，我们为每年的数据拟合了一个分离的逻辑回归模型，预测给定种族、收入和一些其他变量的共和党人的投票选择。

在每个小图中，每个点代表一个逻辑回归系数，垂直线条表示估计的不确定性程度。点序列显示了每种选择的单独的估计，图形中的两行显示了种族和收入的估计系数的时间序列。（为了简单起见，我们没有将其他的系数列在这里。）图中的最左边一列的两个图形使用的是经典的估计，而最右侧的两列则采用的是两种不同的贝叶斯估计（在这个例子中，它们生成的答案基本相同）。

图19-2的估计结果看起来不错，除了1964年是一个完全的分隔点，那一年所有的黑人都支持民主党。因此，种族系数的估计值是负无穷大——也就是说，其推论是那一年黑人选举共和党的概率是0%。1964年共和党确实不受黑人选民支持（那年共和党候选人是Barry Goldwater，他曾经反对《the Civil Rights Act》），因此他们得到的黑人选票肯定为0。这种回归的目的，正如几乎所有的调查分析一样，是为了得出关于普通人群的结论，而不仅仅是调查一个小样本，因此，我们不能仅仅满足于经典的负无穷大的估计结果。（图19-2左栏显示的估计实际上不是无限的，那是因为用于拟合模型的软件是迭代的，在达到一定程度之后就停止了。）

实例2：估计的时间序列 - 图1

图　19-2：左栏显示了在一个逻辑回归中的两个预测器的估计的系数值（标准误差±1），预测共和党人会选举民主党候选人作为总统的概率，对美国选举研究中心提供的从1952～2000年的每次选举的数据进行分别拟合。数值变量收入（初始值规模是1-5）首先被集中起来，然后通过除以两种标准差重新调整规模。1964年存在一个完全分割点（没有一个非洲裔的选民支持共和党候选人Barry Goldwater)，导致那一年预测器的系数估计值为-1。（该估计的有限值和标准误差是通过多次使用统计建模工具R中的glm函数进行迭代确定的，直到程序终止。）其他两列显示了对于相同模型，使用不同的“弱信息”先验分布的贝叶斯估计。贝叶斯推论解决了1964年由于完全分割点导致的预测器系数估计值为-1的问题，而对其他年份的估计则没有太多效果

本图以及其他和它类似的图的优点在于，它的严格并行性（1990年Tufte和1967年Bertin提出的“小倍数”思想）允许读者——以及该图的创建者——一次性做出很多比较。

贝叶斯方法，正如图19-2的最右侧两栏所示，为1964年的黑人选民系数生成了一个合理的值——低于1952～2000年中的任何一年，而且有更大的不确定性边界，但不是无限的。在解决该问题时，贝叶斯程序并没有混合其他年份或者模型中的其他变量的系数估计（正如图中第二行的收入系数所示）。

该图谈不上漂亮，但是它说明了一条重要且通用的原则，即图形化不仅仅只是为原始数据做的。统计学中常见的实践是在一张表中显示这种结果，但是好的图形可以通过更少的空间显示更多的信息(Glman等2002）。

从我们的角度考虑，以图形的方式展示参数估计有助于向别人表达我们的方法的有效性，同时也可以进一步证实我们的估计序列是合理的，而将估计系数放到一个表格中的方式（或者更经典的计算机输出的很长的序列）将无法达到这种效果。