2.8 异常值

异常值就是远离集中趋势的值。异常值有可能是采集和处理数据过程中的错误导致的,也有可能是罕见的正确结果。很有必要检查异常值,有时对这些异常值修剪(trim)既恰当又十分有用。

在活婴的怀孕周期数据中,最低的十个值是{0, 4, 9, 13, 17, 17, 18, 19, 20, 21}。低于20周的值肯定是错误的,只有高于30周的值正确的可能性才比较大。介于两者之间的值就很难解释了。

另一方面,最大的几个值分别是:

  1. weeks count
  2. 43 148
  3. 44 46
  4. 45 10
  5. 46 1
  6. 47 1
  7. 48 7
  8. 50 2

强调一下,有些值很有可能是错误的,但不好说。一种处理方法是对一定比例的最高和最低值修剪(参见http://wikipedia.org/wiki/Truncated_mean)。