样本的偏见
假设,你想买一款新手机,于是去询问三位朋友的建议——到底是买iPhone,还是买三星。如果我们把这种经历当作一次抽样调查的话,我确定,它绝对不可能告诉你真实的结果。
我们在做抽样调查的时候,样本往往从一开始就有了最常见的“偏见”——谁愿意反馈我的问卷,谁的建议就被反映在调查结果中;而不愿意给我反馈的人,他的意见就不会反映在调查结果里。有趣的是,被我们忽视了的那些没有反馈的样本,很多时候却是我们最需要知道的结果。
比如,今天淘宝做了一项调查,问:“你爱淘宝吗?”在收到1万份回复为“爱”时,我们的调研报告就得出了“大家都爱淘宝”这一结论。但事实上,我们总共发出了10万个样本,这一结果说明有9万个样本对这个调查保持了沉默。此外,我们在做调研时,会向被调查者赠送礼物,有些人是因为收到了礼物才觉得应该“说点好话”。在了解到这样的情况后,你还会轻易得出“大家都爱淘宝”的结论吗?所以,当我们分析一份数据的时候,一定要问自己:“样本的背后有什么是我们不知道的。”
我们经常会看到易观、Comscore、艾瑞等机构公布某一事物的调研数据。在看到这样的数据时,我常会问,他们的样本是怎么挑选的?据我所知,他们有一个第三方监控软件,它会以数百元每月的费用“购买”样本,并把监控软件置于后台。试想,如果你想做一个高端样本的调研,那么这种做法可行的可能性很小,就算有可能,结果也不会准确。因为他们即使出1 500元每月的资金也无法获取准确的数据。缘由显而易见,让月薪为5万元以上的用户把软件放在后台,然后监测自己每天做了什么,他们自然不会答应。所以说,在这种取样结果中,注定有一部分数据缺失而最终导致结果不正确。
在现实生活中,我们往往不会去想采样的问题,这就造成我们对很多调查结果深信不疑,我们的决策就会有对号入座的嫌疑,而这种嫌疑非常常见。比如,某人告诉你说他身边的很多朋友也是天秤座,这是因为他心里能想到的朋友很多都是天秤座,事实上其他他未能想到的人也可能是别的星座。再举两个现实中的例子,解释一下样本的偏见。比如,某人说他开了2 000次的汽车从没有出现过意外。今天,他喝酒了,但那2 000次里从来没有喝酒后驾驶的样本,所以2 000次这个数据在今天是没有参考意义的,因为并不能证明他喝完酒之后还能安全驾驶。而如果他说有过200次喝了超过3瓶白酒,而且喝完之后开了50公里回家的经历。那么,这200个样本就有参考性了。
样本数量是否足够和是否平衡的问题,是另一个常见的“偏见”。某杂志对用户们偏爱的手机操作系统做了一项调研,结论是现实中的人更多地在使用安卓系统。但是,这本杂志的读者群主要是IT界人士——这个取样一开始就存在偏见,而抽样又是来自读者群,再加上IT界人士本身也比较倾向于接受安卓系统,所以样本的不平衡就造成了结论的失真。
另外一个影响样本的因素是时间。我们公司有一个360度调查,用于反馈员工对部门的评价。如果我想拿高分,我在调研开始前请大家吃饭,给大家培训……我做好所有调查中出现的项目。你要相信,短时记忆力是十分强大的,这就是一个典型的时间样本。这样的抽样,是典型的“似是而非”。那么,假如想消除时间因素对结果的干扰怎么办?其实很简单,你只要随便抽取一天来询问员工:“你的部门好吗?”这往往才会得出有价值的答案。
此外,偏见还会因为我们抽样时的询问方式出现。这里有一个很好的例子,Amazon的调研就很让人信服,它的问卷第一句话就是:“你的亲戚好友里,有没有亚马逊员工?”如果你回答“是”,那么很可能你的意见就不会在这份样本结果里出现。亚马逊的员工、亲友和普通亚马逊消费者的观念是很可能存在差异的。亚马逊的问法,使得调研出的数据更加精确,让有“偏见”的样本也存在了意义,因为它能区分双方的用户层次有多少不一样。
在调研过程中,如果这个样本在你调研前就是有目的的,那么这份有偏见的数据也是有价值的,比如可以通过交叉信息来验证结果是否准确。这在我们身边很常见,比如,你问三个朋友,我是买iPhone还是三星。但首先你得问:“你用的是什么手机?”如果他买了iPhone,却推荐三星,你就要追问为什么了。
同样,我现在去询问淘宝小二:“你会选择在哪里购物?”他们熟悉淘宝,肯定会受到影响。而如果对小二们调研,结果显示更多人愿意去京东、当当购买商品时,这就证明京东和当当确实不错——起码就某些类别来说是不错的。此时,有偏见的样本对企业仍然存在价值。
值得注意的是,样本跟大数据不同。大数据相信全量数据,而非样本;是分析得出,而不是抽样获得。