7.1 在差异中寻求什么
如果只有一个变量,比较起来会很容易。这栋房子的占地面积比另外一栋要大,或者这只猫比另一只猫要重。如果有两个变量,可能会稍微困难一点,但依旧是可行的。第一栋房子的占地面积比较大,但第二栋房子的浴室数量更多。第一只猫更重、毛更短,而第二只猫较轻、毛较长。
但如果有一百栋房子或者一百只猫,该怎样分类呢?如果每栋房子都有更多变量,例如卧室的数量、后院的面积还有物业管理费,又该怎么办?这时我们面对的是对象的总数乘以变量的总数。现在的情况要棘手多了,而这正是我们所关注的。
也许你的数据中包含多种变量,但你希望把所有对象(比如人或地点)进行分组,然后找出其中最出众的或者说异常值。你希望看到每一个变量间的差异,也希望看到所有变量间的差异。两个篮球运动员的场均得分可能是天壤之别,但他们的场均篮板、抢断和出场时间却可能非常接近。我们需要找出事物间的差异,但也不要忘记相似性和背后的关联性,就和那些体育评论员一样。