10 存、管、用,阿里巴巴运营数据的外三板斧
从2011年开始,阿里巴巴开始从数据化运营向运营数据发展,并形成了一个良性循环——从数据化运营的内三板斧“混、通、晒”走到了运营数据的外三板斧“存、管、用”。
存,数据收集的开始
收集数据不是目的,让收集起来的数据如何产生价值才是最终的目的。
“存、管、用”从存开始,第一件事情就是把数据收回来、集中起来、存起来。
为什么要收集数据?因为在以往的数据化运营里产生了一些问题,虽然我们解决了一些,但还有一些问题并没有得到解决。当谈到如何更好地解决这些问题时,我们想到了运用数据可能是有效的,所以在这个场景里面,我们开始收集数据、管理数据和使用数据。
就拿电子商务的数据收集为例,比如母婴类目,我们可以通过填写宝宝的年龄或者购买的特定品类(不同段数的奶粉、不同型号的尿不湿和不同尺码的衣服)等来推算出宝宝最新的一个年龄阶段;在汽车类目上,我们可以通过客户购买的机油、滤清器等型号来推算出客户是否有汽车以及车型;甚至是衣服也可以用来作为数据收集使用的场景,比如从一个用户购买衣服的历史尺码来观察用户是否有身材上的变化。关于数据收集,前文已有较多篇幅的介绍,这里不再赘述。
所以,就数据的收集而言,最重要的不是看我们收集了什么数据,而是要思考这些数据如何使用以及收集这些数据到底能够起到什么样的作用。用一句话来说,就是收集数据不是目的,收集起来的数据如何产生价值才是最终的目标。不过,如何收集在未来具有价值的数据的确是一个难题,当中就需要一些经验的判断了。
管,保护好存储数据
学会用数据产品来解决获取及使用数据的问题。
数据存储下来之后,数量和广度都很大,就需要对之进行完善的管理。数据管理的内容包括很多方面,比如,数据的来源、如何让数据不丢失、如何保护数据的安全、如何让数据准确和稳定以及如何更好地运用数据,这些都是数据运营中的“管”。但是,“管”并没有一个标准可循。在我和一些投资人以及国外互联网公司的数据专家们的交流中,他们都认同我的一个观点:大数据管理到底要怎么做?答案就是“没有准确答案”。
其实,对于数据的管理,整个大数据行业和其他行业一样都经历过很多起起落落。比如,IT技术刚兴起时,各公司对IT系统和OA的追随十分盲目,最后却没有产生期望内的回报。到后来,信息化管理开始兴起,管理信息系统(MIS)开始被很多企业推崇,不管规模大小,企业都开始使用ERP和MRP系统,结果,仍然没有达到预期。就数据而言,在互联网公司,2004年左右,美国的一些数据管理经验在国内造成了很大的轰动,很多公司纷纷建立BI团队,但是到了2009年左右,各公司又开始不完全认同BI数据部门,这也是事实。
但也正是在那个时候,国内顶尖互联网公司的数据化运营开始启动。阿里巴巴的数据管理最不一样的地方在于非常依赖数据产品,希望用数据产品来解决获取及使用数据的问题。
当时,我们犯了一个直到现在才发觉的错误。那就是,我们的做法跟一些美国公司的想法一致,即“不管怎么样,我们先收集数据,将来肯定有用”。
我觉得,在我职业生涯的这些年,最值得反思的就是这句话。因为没有一家公司可以让你无止境地收集数据,然后再使用,这根本是不现实的。
而这就是“不做决定的代价”。因为,在这个世界上,有一些决定是我们一定要做的。从运营数据的角度来说,如果我们只收集数据而不做分析和应用的话,代价就是很沉重的存储成本。
无须多言,这种存储成本的代价是巨大的。即便是一家富有的公司,即便是它的机器比较多,但也只能短时间地延续这种损失。即使是阿里巴巴这样的公司到最后也会发现,这样做是不行的。因为不管你有多少机器,这些数据都在呈指数式增长,当提到怎么备份时,问题就出来了。
你肯定会问,在这种情况下如何备份?此时,你就要决定,什么东西需要先备份,什么东西可以先放在“冷库”里。“冷库”的意思是一些成本比较低的服务器,但是放在“冷库”中的数据不能随时使用,需要调出来才可以使用。
针对这种情况,有人说,我们仅把3年前的数据都放进去吧,够吗?答案就是:还是太多了。有人说,那我们可以把一年半以前的数据都放进去吧?我说不行,因为用数据观察业务发展趋势的分析师一般都要看3年的数据,所以这种做法也不现实。
在面对“决定放什么数据进‘冷库’”和“决定什么数据在紧急情况下一定要保护”的问题时,你就会发现以前我们所讲的观点——数据先收集起来,将来再使用,完全是一个伪命题。
以前,从来没有人对这个伪命题表示过异议,无论银行,还是金融机构,甚至以前的互联网公司,而当大数据出来后,这个观点就成为了一个借口、一个伪命题。
是的,这是一个很难下的决定,但这就是你必须要做的决定。如果,你在以后的某天发现你需要的数据,没有得到提前保存的话,那就只能错失这一发展机会了。事实上,这是企业的博弈。
你可能会问,一家企业并不需要从事所有的商业,为什么所有的数据都要收集呢?事实就是这样,这是数据人在管理上的不负责任,平心而论,这个责任也非常难承担。
大公司们正在数据管理这条路上学习,而当前我们面临着很多以往不曾预见的问题。比如,我们是应该在各个部门里运作,还是集中管理数据?我们是应该在数据安全的前提下更开放,让更多人找到数据的价值,还是应该更封闭,让泄露数据的可能性更小?另外,个人隐私怎么去保护?我们怎么才能成为一家负责任的数据管理公司?这些都是代表性的难题。
现在,大型的互联网公司通常都同时拥有成百上千种在开发的项目,它们都在直接或间接地改变着数据,而在这种情况下,又如何保障数据安全?事实上,数据的源头已经“脏”了,而下游使用数据的人还不知道,同时,源头的数据使用者也没有责任告诉下游这些数据已经“脏”了。
所以,我的观点是如果你数据使用得不好,这对你本来的发展影响也不会很大。但是如果你数据使用得好,而且将它作为公司的核心竞争力,那么你的麻烦就大了。因为你的数据源本来就来自各个地方,而每一个来源没有责任要告诉你,今天从它那儿来的数据是正常的和可靠的。特别是大数据出现后,数据的精准与否更加重要。因为,大数据在很多情况下,是利用外部数据来帮助内部数据进行调整的,如果你的内部数据都难以保证“干净”的话,那么外部数据同样无法保证“干净”。
数据管理,是大数据行业的“脏活”、“苦活”和“累活”,是最悲催和最难解决的事情。 如果没有这些背景作铺垫,我对很多公司在做所谓的大数据的运营就持有怀疑态度了。所以,我觉得很多所谓的“大数据专家”都是作家,而非真正的数据人。
用,从收集数据到管理数据
在“用”数据的问题上,数据的分裂和重组,都能做到颠覆性创新。
到底应该如何应用数据,才能用来解决当今公司中存在的一些问题?在“存、管、用”的过程中,如果使用时产生问题,我们会询问是决策的问题还是执行的问题;如果是决策错了,我会责问相关人员是否明确了收集回来的数据的作用,以及有没有保管好这些数据,如果不知道,那就是一个偏差;如果不是数据结合过程中出错,那就是数据源本身出了问题,就要对数据的源头“存数据”更加严 格。这时候你会发现,“存、管、用”也是一个反复验证的过程。
在“存”数据上,我看到的问题是,很多人往往只看到数据的表象,比如,根据有过购买行为的用户来做数据收集,而大部分在“冰山”之下的数据就放任不管了。
我依然用某电商母婴频道的例子来解读,收集数据的维度是多种多样的。再假定如果什么“数据”都可以获取,如果中国每家医院的数据库都是开放和可合作的话,那么这个数据就又庞大又准确。
在“用”数据的问题上,数据的分裂和重组,都能做到颠覆性创新。用户的生理性别是决策的重要依据,而现在可以从购物属性上变成“早男晚女”,这种改变并不违背运营数据的原则,因为这是购物属性,这个创意来自“本来不可以分裂的东西分裂了,本不应该重组的东西产生了新的力量”的理念。比如,你只知道用户的地址,然后根据安居客知道他房子的租金,再加上一些外部信息的补充,如10公里内有没有银行和电影院,有没有大型购物中心,然后就可以在数据世界中重现他的财富圈和生活圈。而当这个地址是办公室时,那就可以得出他办公生活区和日常生活这两个生活圈。
从使用数据的角度来说,电商行业就有很多值得其他行业借鉴的地方,可以让数据能够真正地使用起来,并且产生实际的商业价值。先来看看现在电商的背景,不论是以阿里为代表的平台型电商,还是以京东为代表的自营型电商,或者以一号店为代表的垂直类电商,他们的一个共同特点就是商品非常丰富,商品数量动辄就是百万千万级,而平台类型电商的商品数量可能更多。
对于消费者来说,进入一个电商网站的首页并不需要看到那么多的商品,如果消费者有明确的购物诉求,那么,可能会直接进入电商网站的搜索引擎开始寻找商品;如果没有明确的诉求则可能是在电商网站提供的类目和活动等区域随意寻找。这个时候问题就来了,页面内容是有限的,消费者的时间是有限的,消费者的需求是有偏好的,但是商品量非常大,电商的目标又是为了能够通过闲逛让消费者产生成交额,那么,如何找到合适的商品放在首页就成了问题的关键。
面对这样的问题,我给出的解决方案是通过一套数据中间层,来生成用户在特定市场的个性化标签。电商企业不同类目运营的员工通过算法或者人工选品来实现用户标签和商品的匹配,从而实现用户“逛”的效率最优,进而提高用户的购买转化率。
第一步,建立用户的标签
建立标签,简单地说就是通过数据的分析来对用户的偏好进行描述,建立标签通常有以下三种方法。
1.通过业务规则结合数据分析来建立标签。这一类型的标签和业务人员的经验紧密结合,这里可以举几个例子,以对这类标签的设置有更加直观的感觉。
比如,业务人员可以判断出购买某一个具体车型的人可能就拥有这款车,此时,就可以通过数据进行分类,把用户分为大众高尔夫车主和福特福克斯车主等,这个时候当用户进入汽车配件类目时,就可以直接为用户推荐相应的汽车配件,直到用户有明确的行为去搜索别的汽车用品时,再进行数据调整。再比如,有些用户平时很少网购,但一到大型节日前就会大量购买商品,这一类用户通常都是企业的采购人员,这时候就可以在礼品等类目进行企业礼品的相关推荐,甚至直接推荐该网站的储值卡。还有,对于中老年人的识别,可以通过用户经常使用的地址和包裹的寄送地址来进行区别,比如,经常在某地给一个固定地方寄送包裹的,那么结合购买的商品就可以认为包裹的接收人可能是老人,就可以给用户贴上一个“家有老人”的标签,在相应衣服类目中就会出现中老年服饰。
2.通过模型来建立标签。比如在婚庆类目上的特定行为,当然,特定行为是通过数据模型识别出来的,此时我们就可以认为其是一个即将结婚的用户,这样可以结合时间来给用户打上婚庆标签,也可以持续观察这一类用户,在未来可能会打上家装的标签和母婴的标签等。结合用户的手机充值和收货地址等行为,可以用模型计算出该用户是否是自己购买,还是作为一个网购的中心者为他人购买,如果能判断经常为他人购买,则可以打上类似于“网购影响力中心”这样的标签,可以在不同类目的场景中运用。
3.通过模型的组合来生成新的标签。任何一个模型都是有生命周期的,或者说企业内部不同的建模人员可能对同一用户会做出不同的判断,所以,我们需要对模型不断地进行整合。通常情况下,可以采用模型投票的方法来从多个模型中抽象出合适的标签。比如,在三个模型中,两个模型认为宝宝是3~6个月,一个认为宝宝是12个月以上,那通过模型的整合,应该可以确定宝宝为3~6个月。
第二步,标签的应用
标签的应用是指在电商网站的首页或者是具体的类目频道页,进行标签的使用。
标签的使用,最核心的就是数据中间层和前台业务层的对接,并且能够让运营人员非常方便地进行商品的设置。这里涉及两个核心点:一是中间层和业务层的对接,二是中间层的易用性。下面分别就这两个内容来做一些探讨。
中间层和业务层的对接。目前,对接是在互联网广告中非常热的概念,典型的应用之一就是DMP(Data Management Platform)。在这个系统中,用户以标签化的形式存在,也就是之前给用户打好的标签有了一个管理的平台,终端使用者可以在这个系统中进行用户选择,选择完成之后就会产生一个投放计划。DMP还会和前台业务平台进行打通,简单地说就是用户登录首页之后,系统就会认出用户身上的标签,就可以根据DMP中设置的计划来产出不一样的
内容。
中间层的易用性。对于终端用户来说,选择标签需要足够简单,并且能够非常清楚地知道这个标签具体代表的含义是什么。对于数据从业者来说,让数据变得超级简单是一个非常重要的使命,所以界面的设计和后台的管理等内容都非常重要,否则可能会失去标签系统的价值。
对于大数据来说,“用”是让数据发挥价值的最大一步,在这里我也只是举了一个数据应用的简单例子——标签系统。这个例子是数据和运营数据紧密结合的一个案例,也是数据运营或者数据驱动的一个典型案例。只有先结合大数据的技术将数据化运营做好,才能让数据从成本转化成利润,才能真正发挥出大数据的价值。