07 数据的盲点,负面数据的力量

    07 数据的盲点,负面数据的力量 - 图1

    张溪梦 LinkedIn商务分析部总监

    品觉的书主要讲的是决战!那么咱们就从兵法的角度来看大数据!只讲三点:

    第一,对“道”的理解:就是分析师对人和事物基本规律的诠释。分析问题千万不要从分析大数据开始,而是要从对人、世界、产品或者商业行为最基本的认知着手!

    第二,对“计”的理解:计就是计谋!交战之前用“商业智能”的一个重要作用就是要造成信息情报不对等,然后进一步造成了战略优势的不对称,从而造就取得优胜的“势态”。

    第三,对“胜”的理解:决战的目的是要胜利,兵法上取胜的一些基本的要领比如以快打慢、以少胜多、以众击寡,在大数据分析上完全适用,要做到分析得快速而精准、大规模部署以及产品化等。

    这次为品觉的新书做推荐,既感到非常感激和荣幸,又感到诚惶诚恐。我的水平非常有限,完全是抛砖引玉,希望读者们细细品味《决战大数据》!

    如果数据存在盲点,核心数据就无法轻易显现出来。那么,分析有盲点的数据就像是在清水中炼油,虽然耗时耗力,但仍有可能会一无所获。那么,为什么有人能在相同的数据中找出关键点,有人却视若无睹?从大数据时代出发,在思考的过程中,有一个问题必须得到解决,那就是假定数据都是可以获得的情况下,什么样的数据才是关键?

    数据盲点
    在数据中,盲点可以分为两类:一类是物理盲点,另一类是逻辑盲点。

    既然谈到了盲点,就必须要对盲点下一个定义。我们通常意义上的盲点指的是,眼睛没有看到的现实存在体。数据上的定义也基本类似,就是指被我们无意中忽略了的重要数据或者角度。在数据中,盲点可以分为两类:一类是物理盲点,另一类是逻辑盲点。

    所谓的物理盲点,就是指在数据库中不存在这样的数据,即企业没有收集到应该收集的数据,这一类数据问题的产生通常是数据收集策略出了问题。让我们来回顾一下在商品详情页上作标记的这个案例,之前我们在评价某一个商品是不是被用户有效地浏览时,使用的数据指标是用户在页面上的停留时间,但是这个指标存在天然的缺陷。

    首先,停留时间不完全代表用户对商品的喜好。在企业收集到的数据场景中,有很大一部分可能是用户的无意识停留行为,比如,用户刚打开网页,就被领导叫出去开会或谈话等,而这种情况导致用户在某些页面停留时间过长的数据就没有收集的必要。其次,停留时间通常情况下不容易计算清楚。在传统的日志模式下,停留时间都是按照下一个页面打开的时间作为上一个页面结束的时间。当一个人在多个窗口同时停留时,则会陷入停留时间过短的误区。在要评价用户是否对页面感兴趣时,数据就出现了物理盲点——企业没有精确的数据来描述用户是否对商品感兴趣。面对这种情况,就需要企业在商品详情页上用技术的手段作上标记,以记录用户在页面上是否有动作以及是否滚动屏幕去看更多的内容。在明确了用户具体看到了哪些内容后,企业就收集到了相应有效的数据,就能够很好地对商品页面进行后续的分析。

    对于物理盲点来说,如果出现在PC的网页上,算是“万幸”;如果出现在手机客户端,那就是一个比较大的问题了。为什么这么说呢?因为PC上网页的模式是网站可以随时调整的——上一秒做完改版,加上代码发布后,下一秒用户就能看到全新的内容,企业需要的数据也会在下一秒开始收集。但是,物理盲点一旦出现在无线APP上,就会给数据收集带来很大的难度。

    造成这种现象的主要原因有两个:第一个原因是无线终端的数据收集技术还不是很成熟,即便是已经想到了要收集手机的哪些数据,也会由于开发工程师的疏忽等非主观原因造成数据的忽略,当然,PC端也可能会有疏忽。而第二个原因会让这个问题加重,在PC端,如果出现了因疏忽造成数据遗漏的情况,企业可以通过快速地修复网页来弥补,一般只会造成几分钟或者几小时数据的遗漏。而无线APP客户端就没有那么容易了,因为无线终端要求用户经常更新版本,但实际生活中,并不是所有用户都会安装新版本。另外,即便是所有用户都愿意安装新版本,新版本的推出也会受到系统方的制约,比如,对于iOS系统而言,申请发布新版本可能需要等待数日。这时候,整体的数据收集活动就会遭受很大的影响。所以,在数据收集的规划期,一定要尽可能地想清楚自身需要什么数据来衡量业务,尽可能地避免可能出现的盲点。有时候,为了避免盲点,企业必须尽可能多地收集一些数据,以此来减少物理盲点出现的可能性。

    相对于物理盲点的数据遗漏情况,逻辑盲点就是有数据但是没有被很好地发掘出来。数据逻辑盲点的出现很多时候与数据分析师或者数据使用者的经验和敏感度都有关系。在分析数据时,相关从业者需要对数据抱有敬畏之心,不可轻易放过任何一个可能产生问题的点。

    通常,企业在分析数据时,会将焦点放在宏观的数据上,比如总体登录商品页面浏览的人数。很少有人会去关注个别商品页面的浏览人数,而且即使是有些商品的浏览人数明显激增时,分析师往往也不会投入精力去详细研究——由于日常工作的繁忙,这类数据更多时候是被当作一个异常数据忽略了,而这就形成了一个盲点。逻辑盲点如果未得到重视就很有可能对企业的业务造成极大的损害。

    数据分析实例

    曾经,在某电商网站就出现过这样的一个案例——某一个商品的浏览人数非常多,而这个商品的交易量却很有限,这与常理是不相符的,因为通常情况下,大量的浏览一定会带来大量的成交,那么,为什么会出现如此违背逻辑的现象呢?后来,该电商网站的一名员工发现,他虽然没有浏览过这个商品,但却在自己的浏览记录里发现了这个商品,奇怪之余,他马上就上报了系统故障问题。直到这时,大家才投入精力去重点解决这个问题。后来,经过认真的分析发现,是有人用了一种非常“聪明”的方法在刷数据。该电商网站的用户ID是一串有序增长的数字,而此商品的卖家就模拟其他用户的ID去访问它商品的所在网页,并且成功骗过了日志系统的防作弊机制,使得没有浏览过这个商品的用户在自己的浏览记录里面发现了这个商品。那么,这个卖家为什么要做这样的事情呢?因为网站会在后台记录这个产品,并且误认为它是用户的喜好,并向用户推荐相关的产品。

    在上面这个案例中,从问题出现到问题解决经过了一段时间,虽然没有造成重大损失,但也对部分用户的体验造成了影响。其实,这样的问题如果能够在出现之初就得到关注,并认真地去研究异常数据、寻找根源,就能够避免其带来的影响。

    同样,还有一些数据也容易被忽略掉。对于一些平台型电商或者自营电商的平台来说,成交额总是能够获得更多的关注,而对退货情况则关注得较少。在各家电商中,通常又都会对成交额定指标,每个运营类目的团队或者员工都会有成交额的KPI。在很多时候,考核成交额并没有太大的问题,但是就是有些公司去钻“重成交,轻退款”的漏洞。这种情况在各个公司中屡见不鲜,一些经营平台的员工会让平台的卖家“想方设法”去完成成交额,并许诺将活动资源的支持作为回报。所以,有些卖家就采取了“自己买进,然后退款”的手段把成交额提上去。这样一来,虽然员工得到了业绩,卖家得到了资源,但是公司却没有获得任何好处。其实,在这个过程中,只要关注类目或者商品的退款率,这些数据就能够被轻易地发现,盲点自然就会消失。

    在逻辑盲点中,最大的盲点是将PC数据和无线终端数据混着看。很多网站都会统计转化率的数据,即电商网站通常所看的购买用户除以浏览用户得出的数据,在单纯PC的情况下,这个转化率大体可用,还是可以描述宏观经营状况的。但是,在无线终端进入后,这个数据就有问题了。无线成交的数据记录在了成交中,但是浏览的数据却没有计入到浏览中,所以就会导致转化率越来越高。如果忽略了这一点,就有可能漏过重要的商机。

    数据除了物理和逻辑盲点,甚至还有一些是人为制造的“盲点”。人为制造的盲点就是故意把数据进行掩盖,或者人为地调整数据的口径。在一些网站,定义独立访客(UV,即UniqueVistor)的时候考虑更多的是自主UV,也就是说只有用户主动访问一个页面时才算数。但是,有些人为了自己的绩效,可能会做一些手脚,比如,在对外投放弹窗广告时也算用户主动访问;在页面加上嵌入模块,使得用户访问一个页面时有两条数据以增加UV的数据。这些情况通常比较隐蔽,甚至能够欺骗管理层。所以,管理层在听取数据汇报的时候,不仅要看数据的变化和趋势,也需要对数据的口径有一定的理解,最重要的是要问清楚定义是什么。如果涉及转化率,就要问清楚计算它的分子分母是什么,这才不至于掉入数据的盲区。幸好,现在商业的整体环境对数据都比较重视,我接触到的高管对数据也越来越关心,越来越多地使用数据做决策,也越来越重视数据的分析和挖掘对业务产生的价值。这样一来,数据的盲区也会越来越少,数据也会变得越来越有价值。

    小偷思维
    面对数据的盲点,正能量思考告诉你怎么做可以到达成功的终点,负能量思考则告诉你怎么做才不会失败。

    数据的盲点有没有什么价值呢?让我们举一个生活中的例子。

    “十一黄金周”时很多人都外出旅游,你的房子里7天都没有开灯。这样一项信息,对你而言没有任何用途,但对于小偷来说就是机会。小偷的成功,另外一个很重要的原因在于能够度量风险。对于小偷来说,一间屋子三天不亮灯并不代表没人在家。小偷会一直观察环境有没有突然变化,会对零散的信息如噪音特别敏感,他将所有感官能力都提升到了警戒线。有些小偷之所以会成功,一个很大的原因在于他们会度量风险,也就是会使用“负能量思考”(Negative Thinking)看待问题。

    人类是有惰性的,我们喜欢尽量把自己想要思考的东西变得简单。“坏人”却很愿意承认不可预见性的存在。就像我们常常判断一件事情是“好”或“不好”,而不是“未知”。举例来说,我参与了一场赌博,赌注为200元。在这一事件中,以我看来,赢就是“好”,输就是“不好”。但对于“坏人”来说,他们就一直在衡量一些“未知”的情况,比如,你去的赌场是不是黑店、警察会不会突然闯入没收赌资或者刚一开始你就输了200元。

    “坏人”之所以会对“未知”的情况如此关注,是因为当“坏人”的风险实在是太高了。对于正常人来说,家里丢失了一件东西也许无关紧要,而对小偷来说,失败是要坐牢的,这就注定他要细心观察那些正常人所看不见的数据。想做小偷里的“成功人士”,首先想的肯定不是如何偷东西,而是偷完以后怎么不被人发现,小偷必须懂得利用蛛丝马迹来降低风险。

    其实,当失败的代价越大、风险越高时,人类自然有这种天生的动物般的敏感。也许你不知道自己已经在风口浪尖,但当你已经身处其中时,你一定会提高自己对风险的度量能力,不是吗?动物世界就有这样的现象,能力越小的动物,越具有优秀的聆听风险的能力,而猛兽们则没有。

    也许你会问,对于我们这些不准备做“小偷”的人来说,负能量思考又有多大的意义?

    我们会受到经历和经验的影响,如果自己真退化到很弱小的状态,就会像小动物一样能够聆听风险。高风险能让一个人对不可预见性非常敏感,那时候的负能量思考和避免风险的能力就自然而然地出现了。所以,如果我们平时也懂得用这样的“思维”思考,我们就会避免很多错误。如果这时我们再站在“坏人”的角度去做负能量思考,觉得别人出错就是你的机会,很多人出错就是你的大机会,这甚至会产生一条很有价值的产业链。

    在美国和澳大利亚,有种灯可以设置偶尔亮、定时亮和晚间亮,这说明它的研发者是一个典型的具有负能量思考能力的人。可见,我们身边的这些负能量思考,是可以产生巨大价值的。

    再看看我们身边的商业环境,这样的负能量思考也很常见。奇虎360的周鸿祎就是具有这样思考能力的人。看他的轨迹,从3721到360,他注意到了很多人的错误,观察到了很多人需要免费杀毒软件的需求。

    当你希望能达成某个目标时,你必须用心去观察别人观察的事物,这样才会提升你的观察力。对一般人来说,都意识到了培养自己“正能量思考”(Positive Thinking)能力的重要性,也都意识到要用心观察成功人士是如何成功的。但同时也要注意,应该培养自己运用负能量思考的眼睛去观察别人是如何失败的。面对数据的盲点,正能量思考告诉你怎么做可以到达成功的终点,负能量思考则告诉你怎么做才不会失败。

    当对手的数据就摆在那里时,不看的人才是傻瓜,这并不涉及道德问题。偷看不是数据世界的本质,但观察别人怎么失败却可以实实在在地降低自己的成本。值得注意的是,获取数据情报在正常情况下很不容易。在这个时候,你得想着不能破坏公司的名誉,还要想着不能让别人来偷看自己的数据,更要把别人来“偷”数据的后门给关掉。

    在上述过程中,我只是在“模仿小偷”。总的来说,一个“坏人”观察到的数据,正常人很难看得懂,但如果你学会用负能量思考的方式去观察,必然会对你有很大的提升。如果你想要训练到这样的程度,是一件很难的事情,毕竟你的心态是正常的,你不会去关注谁的包没有拉好,不是吗?无意识地培养负能量思考,就叫乱想。如果你为了一个目的去规范训练的话,你就会成为一个很厉害的“小偷”;对于日常生活来说,叫作很厉害的“观察者”;而对于数据世界来说,你就是一个很厉害的“数据分析师”。

    “小偷思维”给了我们换个角度观察数据的方式,而现实中我们可以用这种思考方式来度量数据盲点的价值。这两个内容看似分离,但是核心点是一样的,就是有没有看到应该看到的数据,有没有错失不应该错失的数据。

    数据盲点的价值
    是否看到数据盲点价值的核心就是,有没有看到应该看到的数据,有没有错失不应该错失的数据。

    先提一个假设性问题:200米以外忽然发生了爆炸,你如何通过大数据鉴别出是不是有人蓄意而为?如果是,如何快速地锁定嫌疑人?

    通常情况下,我们可以主要分析两个数据:在爆炸之前,现场有没有出没一些形迹可疑的人;爆炸发生后,人群中有没有行为怪异的人。打个比方说,一般爆炸发生后,大部分人都是朝着事故发生的方向走,以观察谁受伤或者单纯为凑热闹。如果这时,有两个人是反向快速离开现场的,就可以算是怪异行为了。

    有人也许会问,这和大数据有关系吗?当然有,而且还能引发我们思考另外一个问题:数据的盲点在哪里?

    平时大家接触到的都是信息,而其中可以被量化的信息称为数据。所谓大数据时代,就是指可以记录和调用的数据变得越来越多。互联网和移动互联网就像两台巨大的超级传感器,把人、物、空间和时间等数据进行实时记录,让我们在时间和空间里都留下线索。

    数据从太少到太多,从简单到复杂,而且还衍生出了无限的关联数据。面对海量数据,我们常常疑惑的是,这些数据究竟是不是足够了?是多了还是少了?回到前面提到的案例中,人们常常可以预见充满“正能量”的信息(现场围观群众的行为),但很容易漏掉充满“负能量”的数据(把数据范围放大,你可以注意到急速离开现场的人)。这里面的盲点指的是,我们观察数据的时候容易只将焦点放在正面数据上,而忽略掉负面数据。

    这种案例不胜枚举。以我的日常工作为例,在团队给高管们做报告的时候,我通常不看报告,而是主要记录高管们“什么时间点头”、“什么时间针对性地做了笔记”和“什么时间没怎么听在看手机”。你不要小看这三个数据,当与当时报告的内容对应(关联)起来时,我就能容易地知道在刚才做的报告中哪一部分是不吸引人的和哪一部分是需要改进的。尤其是高管看手机的时间,完全可以算是理论上的“负能量”数据,但对报告的改进其实非常有价值。

    再比如说,公司每月有10亿元的交易量,虽然额度已经很大了,但你是否分析过,其实还有2亿元可能的交易量没有做成。为什么?因为有人看了不买。为什么不买?通过分析这些“负能量”数据,其实很可能发掘出非常有价值的平台交易增长点。

    还有一类盲点数据,常常发生在我们赖以依存的经验上。我的导师说过:“‘假定’这件事情,一般是所有误判的源头。‘假定’会让人盲目。”很多时候,人们在做一个决策时会依靠经验,但经验有可能是错的,这会导致“假定”的错误,继而影响执行的结果。如果今天你看到一张桌子,上面有很好吃的食物,但把手伸过去时却被烫到了。以后再看到类似的桌子,你恐怕都会因为这个之前的经验而不敢靠近。显然,错误的经验会让你不断地犯错误。

    经验会成为盲点,还有一个重要的原因是你没有注意到环境变化的趋势。有时候,有经验反而会经历惨败,因为这件事情本身已经出现趋势的变动,但大家却未察觉。之前的经验关联到当下的决策,会变成你认为必然发生的经验,甚至是规律,但这个规律会骗人。股票市场中的教训已经太多了。

    做数据分析,经常会被邀请做趋势判断。比如,对两家公司的员工增减态势做分析。从表面上看,一家公司的员工比另一家少,但如果再看行业的背景,一个是“新创公司”,一个是有10年历史的公司。此时,再结合业态的发展趋势时,你就会对他们做出不同的判断。想要做出正确的判断,必须先抓住其发展的趋势。

    古语有云:“无知最穷。”在大数据时代,那些自诩对大数据什么都懂的人,其实却对无数盲点而不自知。他们浅薄地认为数据越多就越能解决问题,实则是无知的表现。

    在海量的大数据面前,我们面对的最大盲点就是,衡量应该收集多少数据才算足够,即存;如何管理从未见过的如此多和广的数据,即管;如何使用它们实现更大的价值,即用。