05 数据分类与数据价值,什么才是你的核心数据

    05 数据分类与数据价值,什么才是你的核心数据 - 图1

    程 杰 Acxiom(安客诚) 全球副总裁,数据科学家

    大数据像铺天盖地的洪水一样涌来!由于近年来数字媒体、网络和移动技术的迅猛发展,数据的积累速度已对数据的存储、管理、分析和决策应用提出了前所未有的挑战。很多企业、政府、学校和研究机构为了能在大数据时代继续生存和发展都在重新定位和寻找新的方向。让我们高兴的是,作为一个先行者,品觉在阿里巴巴已经走出了一条大数据运营的路,并又在运营大数据方面总结了很多成功经验。他的《决战大数据》一书尤其为读者提供了“数据化思考”的模式和框架。通过用实例讲故事、作比喻,品觉打破了大数据的神秘,然而又能使读者产生丰富的联想,开动脑筋,真正理解大数据成功运用的要诀。感谢品觉为“大数据金矿”的探索开发作出的贡献。

    在大数据时代,首先要做的是收集大量数据,但收集数据并非仅是把收集过来的数据放到硬盘里面那么简单,更需要的是对数据进行分类、存放及管理。不然就如同一个杂乱的储藏室——放东西进去的时候很轻松,等到要找东西出来的时候就会浪费大量的时间,甚至可能再也找不到。如今,数据在企业中已经充当了一种生产原材料的角色,而既然是原材料就要被估值。

    从数据角度来说,估值就是通过不同的维度去思考数据的价值。只有基于对数据的分类和对数据价值的不同认识,才能去对数据做筛选。如果连有多少种数据都不知道的话,我们很难描述数据被收集后到底如何进行筛选,也不知道哪一个数据更有价值,更不知道哪一个数据需要更安全的处理,甚至不知道在它的生命周期中做备份的策略是什么。

    对于数据的认知,完全取决于我们是否拥有认知自己所拥有数据的能力,是否能够筛选出到底什么是我的核心数据,到底什么数据会被我们频繁地使用。

    数据分类为什么如此重要
    数据作为一种资产,不同的数据含金量必然不同,自然就会产生不同的价值。而且,就同一组数据而言,在不同的环境下甚至会呈现出不同的价值。

    在大数据时代,每做一件事情我们都要知道确切的目的是什么。从自我的角度考虑,当我们给数据分类之后,真的就能更容易理解大数据吗?

    “数据”本来就是一个既清晰又模糊的概念。之所以说“清晰”,是因为每个人对数据都有概念,而且每个人每天都会接触到各种各样的数据;而说“模糊”,则是指数据本身包含了各种不同的类型,能够产生完全不一样的价值。

    至于数据到底应该怎么进行分类,则需要视不同的场景而定。就好比“人类”一样,如果拿人类和动植物来做比较,人类整体必然有不同于其他物种的特性,这时,“人类”就是一个非常“清晰”的概念。但是,如果要对“人类”进行更深层次的分析,显然需要对不同类型的“人”进行比较和分析。在很多场合下,可能还要对不同种族和不同年龄层进行分类和分析。

    数据作为一种资产,不同的数据含金量必然不同,自然就会产生不同的价值。而且,就同一组数据而言,在不同的环境下甚至会呈现出不同的价值。就好比衡量黄金和铁这两种金属的经济价值,同样重量的黄金其价值必然远胜于铁;但是如果用来做刀剑,那柔软的黄金显然就不是一种合适的材料;而黄金和铁的合金可能又能够在另一个场合有一定的应用。

    对于数据而言,不同的场景也会产生不同的价值,有些数据可能会变成一个运营指标,能够让管理者更好地对业务进行决策;有些数据可以对未来进行很好的预测,而不同的数据进行有机结合之后又能够对用户做出更好的商品推荐。一个好的工匠必然对各种材料的性质及使用方法了如指掌,而一个好的数据从业者则必须要对各个数据的价值和稳定性洞若观火。

    遗憾的是,并不是每个数据从业者都能够很好地对数据进行分类和估值。很多时候,我们可能只看到了数据的一些应用场景,却不能够更加深入地进行数据的管理和应用。

    当我们将焦点放在一组数据“能产生什么价值”上时,往往会忽略其生产过程,因为我们的很多数据是经历了加工才产生这个价值的,而往往其中整个加工链条的中间数据并未被区分出来。就好像我们在吃一盘西红柿炒鸡蛋,好吃是结果,但如果你问西红柿给“好吃”贡献了什么,鸡蛋又贡献了什么,你可能就回答不出来了。

    古语有云:“治大国若烹小鲜。”其实做数据也要有这样的感觉,尤其是在大数据时代,更是要做到精细化。还是拿西红柿炒鸡蛋这个例子来解释。

    我们这次做的可能是这样的一盘,那么下次是不是还能保证做的口味完全一样呢?如果要做到口味完全一样,那我们应该怎么做呢?当然,你可以说这个过程已然成了一种习惯,是一种感觉,但是一旦需要做到标准化或者所有的人都要做到一样,与这样的“习惯”相比,就不如找出当中的规律了。
    这个过程是一个定量分类和管理的过程,也是一个标准化的过程——多少西红柿和多少鸡蛋。如果再精细一点就要看哪里种植的西红柿、哪一个养殖场的鸡蛋、西红柿的成熟程度怎么样、鸡蛋一个要多少克,等等,所有这些内容都要有精细化的规定。

    将之应用到数据上,特别是在运用数据上,这样一个精密的过程就更加必不可少了。比如说,这次可能运用了一个模型,效果不错,这次用的这组数据效果也不错,那下次是不是还能保证有类似的效果呢?或者说,场景变换了还能保证类似的效果吗?这些都是需要去认真思考的问题。

    数据分类的4大维度
    在观察与分析数据中,我们要从中间抽象出来,更好地将数据进行归类和整理,从而更加清晰地识别出数据的价值。

    今天,我们多数人把自己关注的焦点放在结果上,忽略了过程,而事实上这些过程其实也蕴含了数据管理的过程和数据分类的过程。有些关键数据必须做好保护,若这几个数据变了,或者被污染了,前面的价值也就无法保证了。有人肯定会问,管理数据是一个过程,能不能分解?能不能区分哪些元素是比较重要的?哪些是有代替品的?哪些是无可取代的?哪些是不可或缺的核心?其实,这些问题就包含数据战略。

    所以,我们不可以含糊地应对,要从中间抽象出来,更好地将数据进行归类和整理,从而更加清晰地识别出数据的价值。

    从数据分类的角度来看,可以将之分为以下4种。

    1.按照是否可以再生的标准来看,可以分为不可再生数据和可再生数据。不可再生数据通常就是最原始的数据,比如用户在访问网站时,浏览记录会追踪用户的行为,如果当时没有被记录下来,就没有其他数据来还原用户的行为了。这个有点像拿着相机拍闪电,抓拍很重要,一旦错过,闪电就不可能再重复刚才那一瞬间的光影了。因此,对于用户日志类等不可再生数据而言,必须要有很完善的保护措施和严格的权限设置。现在,很多系统都有备份多份数据的功能,理想情况应该是,因为磁盘损坏而造成数据丢失的案例应该越来越少。但是,因为系统升级失败和误操作等失误造成的数据丢失在各家公司都屡见不鲜,见怪不怪了。

    可再生数据就是通过其他数据可以生成的数据,原则上,指标类数据的衍生数据都是可再生的——只要原始的不可再生数据还在,就可以通过重新运算来获得。不过千万不能因为“可再生”这个词语的存在,就对可再生数据掉以轻心。有些可再生数据是通过很长时间的积累不断加工而成的,是长时间从海量数据中计算出来的,比如对某个用户在数个月内的连续购买行为产生的规律,如果未做保护,虽然仍然可再生,但是再生的时间却会给企业带来问题。因为即便对于有顶尖计算能力的公司来讲,都可能是数日,甚至是数周、数月,而这个时间过程可能就会对公司的某一项核心业务造成毁灭性的打击。

    对不可再生的数据而言,已有的数据要严格保护,想要但是还没有的数据就要及早收集。举个例子,很多电子商务网站是不关注客户在商品详情页面有没有做滚屏操作的。如果这一类型的数据没有被记录下来,企业就无从知道详情页的有效性。当商品页面进行改版,需要对此类数据进行参考时,就没有办法来获得相应的数据支持,最后能做的就只能是等待在页面上进行布点开发,等待数据收集到之后再进行决策,这就造成了决策的延误。

    对于可再生数据而言,要及早做好业务的预判和数据处理的规划,这样一来,数据在需要的时候就能够快速地获得应用,我们把这一数据叫作数据中间层。

    2.按照数据所处的存储层次来看,可以分为基础层、中间层和应用层。从数据的存储角度来说,数据有很多层次。基础层通常与原始数据基本一致,也就是仅仅存储最基本的数据,不做汇总,以尽量避免失真,从而用作其他数据研究的基础;中间层是基于基础层加工的数据,通常也被认为是数据仓库层,这些数据会根据不同的业务需求,按照不同的主体来进行存放;应用层则是针对具体数据问题的应用,比如作为解决具体问题的数据分析和数据挖掘的应用层的数据。

    在存储层这个层面上,最大的问题就是数据的冗余和管理的混乱。尤其是对于一些拥有海量数据的大公司而言,数据的冗余问题尤为严重,由此造成了大量的浪费。在大公司中,进行数据分析、开发、挖掘的人可能有数十甚至是数百人,这些人可能归属于不同的业务团队,为了满足不同的业务各自分析数据应用。这样一来,不同的人可能都从头开始建立起了一套包含基础层、中间层和应用层的数据,而彼此之间又没有合适的交流方式,也就造成了工作的浪费。那是不是应该把所有的数据进行更好的归纳或者管理呢?我认为这也不是绝对的。任何管理方法,无论是集中式管理,还是分散式管理,都各有利弊,而且人和业务多了之后,企业也很难进行集中式管理。我给出的建议是,基础层必须统一,因为这是最基本的数据,而且基本数据是原始数据。除了备份的需求外没有必要在各个场合保留多份数据。只要保证这个数据有良好的元数据管理方式,就能极大地降低成本。而对于中间层和应用层而言,则要视具体情况而定:如果公司的业务相对单一且成本压力比较大,则建议集中式管理;如果公司的业务量非常大,则可以由多个数据团队来进行分散式管理和应用,以保证基础层单位有最高的灵活性。

    3.按照数据业务归属来看,可以分为各个数据主体。按照业务归属分类的意思就是,将数据按照不同的业务主体分门别类地进行归纳。就好像仓库一样,将不同的物料进行分类存放,可以提高其使用和管理的效率。按照业务归属分类的数据在不同公司可能体现出不同的内容,在平台型电商可以分为交易类数据、会员类数据、日志类数据等。交易类数据是指平台型电商的订单流水,其中包含了买家、卖家在什么时间成交了什么商品;会员类数据记录了买家、卖家的身份信息,比如注册时间、身份证号码、信用等级等信息;日志类数据则更多的是指用户的行为,即哪个用户在什么时间段访问了平台的什么页面、点击了什么按钮等。

    对于数据的分类主体,则要根据业务特点进行归类,并没有一个特别的硬性规定。总体的原则就是让数据的存储空间更少,分析及挖掘的过程更简单、快捷。

    4.按照是否为隐私来区分,可以分为隐私数据和非隐私数据。顾名思义,隐私数据就是需要有严格的保密措施来保护的数据,否则会对用户的隐私造成威胁。用户的交易记录属于隐私类数据,对于一家有着良好数据管理机制的公司而言,通常的管理方法是对数据的隐私级别进行分层,数据从安全的角度可以进行两种类型、四个层次的数据分层。两种类型就是企业级别和用户级别。企业级别的数据,包括交易额、利润、某大型活动的成交额等;个人级别的数据就像是刚才提到的身份证号码、密码、用户名、手机号等。四个层次是对数据进行分类,分别有公开数据、内部数据、 保密数据、 机密数据。

    当然,也有隐私数据保护得不好的企业,之前很多隐私泄露的案例都对用户造成了很大的损害。比如,某些网站几十万的开房信息泄露、数百万的密码泄露等都是类似的事故。随着拥有大量数据的网站和公司越来越多,数据安全就越来越成为一个核心的点——需要投入专门的人和专门的团队来进行数据安全的管理。而数据安全工作的推动,初期往往会受到一线员工的反对,因为任何一个安全系统都意味着已有的权限被收回,也会因为改变工作方法而降低效率。所以,拥有大数据的企业高管必须要关注数据安全,否则数据越大,对“恶人”的吸引力就越大,最终用户和公司的损失也就越大。

    数据的5大价值
    能够辨别关系、身份的数据是最重要的。这些数据应该是有多少存多少,永远不要放弃。在大数据时代,越能够还原用户真实身份和真实行为的数据,就越能够让企业在大数据竞争中保持战略优势。

    如果说数据分类的目的是为了对其有更好的认知和管理的话,那么,对不同数据价值的认知就是让数据更好地被应用的前提。对于数据来说,如果仅是将数据收集起来不进行运用,那除了占用存储空间、加大存储成本之外没有任何价值。但在实际运用中,也需要认清数据到底能够产生什么价值:有时候,同一组数据可能会在不同场合产生完全不一样的价值;有时候,单一的数据没有什么特别的价值,需要组合起来才能产生价值。

    数据价值1:识别与串联价值

    顾名思义,识别的价值,肯定是唯一能够锁定你目标的数据。最有价值的比如身份证、信用卡,还有E–mail、手机号码等,这些都是识别和串联价值很高的数据。在前面我多次提到的搜索T恤的例子中,电商网站识别“你”的方法就是你的登录账号。千万不要小看这个账号,如果没有这个账号,网站就只能知道有一些商品被用户浏览了,但是却无法知道是被哪个用户浏览了,更不可能还原出用户的购买行为。

    当然,识别用户的方法不止登录账号一种,对用户进行识别的传统方法还包括cookie。所谓的cookie就是在你浏览器里面的一串字符,对于一个互联网公司来说,这就是识别用户身份的一个标记(当然也可以选择禁止被追踪),所以你就会发现你在搜索引擎上搜索过一个词语,在很多网站都看到相关的资讯或者商品的推荐,就是通过cookie来实现的。很多互联网公司都非常依赖cookie,所以会采用各种cookie来记录不同的用户类别,单一的cookie没有价值,将用户登录不同页面的行为串联起来才产生了核心价值——串联价值。

    然而,现代社会已经不再是一个单纯的“PC+浏览器”的时代了。2013年,被很多人认为是移动互联网元年——用户接触互联网的方式正在快速地向“PC+手机+pad”的形式转移,互联网已经进入了多屏时代。在这个信息多元化的时代,单纯运用cookie来识别用户行为的方式已经过时了。为了解决这一问题,企业开始使用一定的账号体系对用户进行设限,在各种场合提醒用户使用手机号注册或者用手机号来换取更多的权益,本质上就是希望能够在多屏时代把用户“认”出来。

    网络是一个自由开放的社会,很多用户可能会出于不同的目的去注册多个账号,如果简单从账户的角度去看的话,可能会被认为是多个用户;但是,从现实的角度来看的话,他实实在在又是同一个人。在一般的场景下,有多个账号可能不会是什么特别的问题,但是一旦涉及反欺诈等需要识别到“人”的场景时,则必须要将之识别出来。所以,在这种场景下,识别用户的时候要对串联数据做灵活处理,比如一些隐秘的识别和串联数据——密码。密码不能让企业完全认定两个用户是同一个人,但是,当企业怀疑这两个账号是同一个人的话——他们的密码往往很类似或一样,由此可以判定这两个账号肯定是同一个人,为了方便很少人会给自己不同的账号设置不同的密码。当然,作为用户的你大可以放心,因为在大公司中你的密码都是被加密过的,没有人知道你真正的秘密是什么,对比密码的方式也仅仅只能是对加密后的一串字符做比较。

    在美国,另一项非常重要的数据——车牌号,也对用户的识别具有重大意义。据说,美国FBI对人和车的跟踪是分开的,他们认为车牌号很重要,和人有着非常高的相关性,能串联起来用户的很多信息。

    如果你想知道日常生活中哪些是很有价值的识别和串联数据,那么可以回想一下你的银行卡丢失后,你打电话到银行卡中心时对方会问你的问题。一般来说,对方会问你“你哪天发工资”、“你家里的固定电话号码是什么”等类似问题,而这一系列问题就是在把你的个人数据做一个识别和串联。因为在银行怀疑某个人是不是你的时候,生日、固定电话号码是有权重的。有可能在有了2~3个这样的数据后,即使你没有密码,银行还是会相信你,为你重新办卡。

    我在运营数据的时候,经常观察这样的数据,有时候能够直接识别,有时候需要间接识别。电话号码、生日这些都是非常重要的数据,因此,我认为有些人把自己的生日放在SNS(社交网络)上,是非常不妥的做法。

    所以,千万不要小看识别数据的价值,我的经验告诉我,能够辨别关系和身份的数据是最重要的。这些数据应该是有多少存多少,永远不要放弃。在大数据时代,越能够还原用户真实身份和真实行为的数据,就越能够让企业在大数据竞争中保持战略优势。

    数据价值2:描述价值

    再用T恤的例子来分析。你搜索T恤,搜索的是什么品牌、材质、尺码等类似的数据,而这些都是描述数据,可以用来刻画研究对象。研究对象可以是商品,可以是企业,可以是用户,而反过来,描述数据也可以帮助我们更好地理解研究对象。

    在网络上,我们经常会听到很多关于“好男友”标准的段子,比如“身高170~180厘米、体重60~75公斤、月收入5 000~10 000元、不抽烟等”,这其实就是将“好男友”这样一个感性的指标数据化了,这里用到的数据就充当了描述研究对象的作用。

    在通常情况下,描述数据是以一种标签的形式存在的,它们是通过初步加工的一些数据,这也是数据从业者在日常生活中做的最为基础的工作。一家公司一年的营业收入、利润、净资产等数据都是描述性的数据。在电商平台类企业日常经营的状况下,描述业务的数据就包括成交额、成交用户数、网站的流量、网站详情页的流量、成交的卖家数等,我们就可以通过数据对业务的描述来观察交易活动是否正常。

    但是,对于企业来说,数据的描述价值与业务目标的实现并不呈正比关系,也就是说,描述数据不是越多越好,而是应该收集和业务紧密相关的数据。比如一家兼有PC平台和无线平台业务的电子商务公司,在PC上可能更多地是关注成交额,而在无线平台上更多关注的应该是活跃用户数。

    描述数据对具体的业务人员来说,能够使其更好地了解业务发展的状况,让他们对日常业务有更加清楚的认知;对于管理层来说,经常关注业务数据也能够让他对企业发展有更好的了解,以做出明智的决策。

    用来描述数据最好的一种方式就是分析数据的框架,在复杂的数据中抽象出核心的点,让使用者能够在极短的时间里看到经营状况,同样,又能够让使用者看到更多他想看的细节数据。分析数据的框架是对一个数据分析师的基本要求——基于对数据的理解,对数据进行分类和有逻辑的展示。通常,一般优秀的数据分析师都具备非常好的数据框架分析能力。

    数据价值3:时间价值

    如果你不是第一次在电商网站上买东西,你曾经的历史购买行为,就会呈现出时间价值。这些数据已经不仅仅是在描述T恤了,还展示出在这一时间轴上你曾经买过什么,以便让网站对你将要买什么做出最佳预测。

    在考虑了时间的维度之后,数据会产生更大的价值。对于时间的分析,在数据分析中是一个非常重要,但往往也比较有难度的部分。我们可以通过以下两个案例来做更好的分析。

    数据分析实例

    第一个案例是电商A首页的焦点图,是一个关于茶叶的广告,但这个广告并不是对每一个人都显示,对我显示的原因是我之前在电商A上买过茶叶。这个数据的价值就是广告系统通过对我历史数据的判断,将我识别成一个可能会买茶叶的人,并通过广告系统的内在竞价机制,将这一款茶叶推荐给了我。
    第二个案例是关于一个类目的演进路线,其中存在一些很有意思的现象。比如烘焙用品会有一个明显的演进路线,黄油、模具、芝士、包装盒等用品会随着烘焙产品周边产品的演进而不断呈现出新的需求。这就是在大数据的基础上,基于用户的时间来对产品的演进进行分析,以让消费者更加快捷地找到所需要的商品。

    大数据一个非常重要的作用就是,能够基于大量历史数据进行分析,而时间则是代表历史的一个必然维度。数据的时间价值是大数据运用最直接的体现,通过对时间的分析,能够很好地归纳出一个用户对于一种场景的偏好。而知道了用户的偏好,企业对用户做出的商品推荐也就能够更加精准。

    时间价值除了体现历史的数据之外,还有一个价值是“即时”——互联网广告领域的实时竞价(RTB,Real Time Bidding),它是基于即时的一种运用。实时竞价就是当用户进入某一个场景之后,各家需求方平台(DSP,Demand Site Platform)就会来进行竞价,对用户现实场景进行数据推送。比如,用户正在浏览一个和化妆品有关的页面或者正在商场逛街,在这个场景中就会出现和化妆品有关的信息。这个化妆品的广告不是预先设置好的,而是在这个具体的场景中通过实时竞价出现的。

    数据价值4:预测价值

    数据的预测价值分成两个部分。第一个部分是对于某一个单品进行预测,比如在电子商务中,凡是能够产生数据,能够用于推荐的,就都会产生预测价值。比如,推荐系统推荐了一款T恤,它有多大的可能性被点击,这就是预测价值。预测价值本身没有什么价值,它只是在估计这个商品是有价值的,所以预测数据可以让你对未来可能出现的情况做好准备。推荐系统估计今天会有10个用户来买这件T恤,这就是预测。再问一些追加问题:“你有多大的信心今天能卖出10件T恤?”你说有98%的可能性,那么这就是对未来的预判及准确度的预估。

    互联网的很多场景都会对单品的预测进行运用——在电商A中,哪些商品能主推,哪些商品不能主推,都是可以通过数据的预测价值来体现的。又比如电商A的团购活动,每天有大量的卖家和商品想要报名上团购,那到底该如何进行选择呢?在这个过程中就要通过这个卖家和商品的历史数据,来预测它的某个商品是否能够卖到一定的交易额,如果能卖就能上,如果无法卖到一定的交易额,就不能上。

    预测价值的第二部分就是数据对于经营状况的预测,即对公司的整体经营进行预测,并能够用预测的结论指导公司的经营策略。在今天的电商中,无线是一个重要的部门,对于新的无线业务来说,核心指标之一就是每天的活跃用户数,而且这个指标也是对无线团队进行考核的重要依据。作为无线团队的负责人,到底怎么判断现在的经营状况和目标之间存在着多大的差距呢?这就需要对数据进行预测。通过预测,将活跃用户分成新增和留存两个指标,进而分析对目标的贡献度分别是多少,并分别对两个指标制定出相应的产品策略,然后分解目标,进行日常监控。这种类型的数据能够对公司整体的经营策略产生非常大的影响。

    数据价值5:产出数据的价值

    从数据的价值来说,很多数据本身并没有特别的含义,但是在几个数据组合在一起或者对部分数据进行整合之后就产生了新的价值。

    在电商中,这样的场景很常见。比如,在电子商务开始初期,很多人都关注诚信问题,那么如何才能评价诚信呢?于是就产生了两个衍生指标,一个是好评率,一个是累积好评数。这两个指标,就是目前在电商平台的页面上经常看到的卖家的好评率和星钻级别,用户能够基于此了解这个卖家的历史经营状况和诚信状况。

    但是,仅以这两个指标来对卖家进行评价,会显得略微有些单薄,因为它们无法很精确地衡量出卖家的服务水平。于是,又衍生出更多的指标,比如与描述相符、物流速度等,这些指标最终变成了一个新的指标叫作店铺评分系统(DSR),可以用之来综合评价这个卖家的服务水平。

    当然,某个单一的商品在电商网站上可能会出现几千条评价,而评价中又是用户站在自己的立场描述的,但是推及到某个用户上,每次买一样东西都要阅读几千条评价显然是不太可能的,因此就需要把这些评价进行重新的定位,以产生出新的能够帮助用户做出明智购买决策的数据,这些数据就是关键概念的抽取。我们可以看看下面的图5—1,就知道怎样让评价的数据来产生新的数据了。

    05 数据分类与数据价值,什么才是你的核心数据 - 图2

    在认识了数据的分类和明确了数据的价值后,我们就能更好地识别出哪些是我们想要的核心数据,就能够更好地发挥数据的作用。精细的数据分类,严格的数据生产加工过程,将让我们在使用数据时受益匪浅。