04 无线数据,大数据的颠覆者

    04 无线数据,大数据的颠覆者 - 图1

    张 涛 大众点评网CEO

    作为一个企业经营者,说起大数据,最怕只见数据不见价值;作为一个互联网产品老兵,最焦虑于数据挖掘和分析脱离用户场景。本书好就好在实践了作者书中提出的观点,立足应用场景,聚焦如何让数据产生实际价值。因其实战性和创新的角度,值得所有关心大数据实战者认真一读。

    2013年被称为无线元年,智能手机的出货量超过了3亿部、4G牌照的发放、微信等应用的快速崛起、阿里巴巴移动平台“ALL IN”的发布,这些现象和事件无不意味着移动时代的到来。移动数据在不断改变着人们的生活,也在不断改变着数据信息的全貌。现今的大数据环境,与之前相比,变得更为复杂,也给数据的分析带来了诸多挑战。

    让我们再来回想一下第2章描述过的一个很多人都有可能碰到的场景:

    早上在路上你发现了一个路人身上穿的一件T恤很好看,于是,在进了办公室的第一件事情就是打开电脑,登录网站搜索这件衣服。在还没有挑选好的时候突然被老板叫去开会,开会的时候觉得有些无聊,就掏出手机继续搜索,后来被手机应用上的一个手机活动吸引了,最终买下了一部手机。

    这个看似简单的场景,从数据分析的角度来说却非常不简单。如果按照过去的做法,我们是用PC的视角去分析这一数据的话,那么就会发现这个用户搜索了T恤,浏览了T恤的几个页面,但是在几个小时后却买了一部手机。这不仅仅会让数据分析师变得困惑,更让整个基于浏览和购买的推荐系统产生疑问——此种行为会将T恤和手机这两个内容产生一种相关,但事实上这两类东西显然是不相关的。

    这时候,我们需要的是一种多屏思维——需要考虑到现在用户使用互联网的多场景问题。现在,多屏可能会包括多台电脑、手机和pad,而在可以预见的不远的将来,可能会有更多可穿戴式设备的出现,比如用智能眼镜来搜索一件衣服,用智能手表录下的一段语音来搜索某一种好吃的零食。当多屏变成一种常态时,不管是数据分析师的分析方法,还是推荐系统的推荐算法都必须多屏化。因为当多屏时代到来后,一切数据都在发生变化……

    无线数据正在将整个数据变成“噪音”
    无线时代到来之后,一切都发生了变化。原本可以收集用户完整行为数据的网站变得不再可靠,而数据还原用户行为的方式也发生了改变。

    在探讨无线数据让数据产生“噪音”的问题前,我觉得还是有必要稍微谈一下关于数据收集的方法。PC时代的互联网,数据收集是基于浏览器的。从20世纪90年代开始蓬勃发展,在这20年左右的时间里,整个互联网已经有了比较成熟的数据收集方案——基于cookie来进行用户身份的识别。如果是一个拥有用户体系的网站,那么就可以使用用户ID与cookie的关联性去识别用户的行为。在PC时代,用户在使用浏览器时,cookie通常都是长期存在的,而且对于大部分用户来说很少会在意它的存在,因为Cookie对用户的意义不大,对网站的意义才大,这是由于网站可以通过它长期地收集用户的行为数据。一个电子商务网站能够知道用户看了什么、什么时候看的、看了多长时间、结果买了什么……这一系列的场景它都能够了若指掌。这种收集数据的方法,可以让网站能够更好地去识别用户,而这也是研究用户行为的第一步。

    可是,无线时代到来之后,一切都发生了变化。原本可以收集用户完整行为数据的网站变得不再可靠,而数据还原用户行为的方式也发生了改变。那么,为什么无线的出现会让这样的情况发生呢?

    在这里,我们简单讲解一下无线数据收集的原理。无线基本上分为两种形式,一种是WAP,另一种是APP。对于WAP来说,整体的工作原理和PC差不多。在移动互联网早期,用户可以通过手机的浏览器来访问专门为手机设计的页面,当年最有名的WAP网站莫过于移动梦网了。

    而现在移动互联网的主流应该是APP,是基于手机端的应用来运作的。APP的发展速度非常快,尤其是在最近几年。随着iOS和安卓的高速发展,整体的APP用户也在快速地增长,但是,数据收集的技术却并没有像PC那样成熟。APP数据收集的方式包括两种:一是收集用户联网时请求服务器的记录;二是在将用户的行为数据记录下来之后,适时地传给网站。但不论是什么样的收集方式,无线数据最终的表现是在没有账户体系的情况下,和PC的用户行为完全没有办法进行关联,这也就意味着用户的数据出现了断层。

    如果只收集无线终端的用户数据是不是就不会出现“断层”的问题呢?答案也是否定的。在PC时代,虽然浏览器各有不同,但是基于cookie的整套数据收集体系很成熟,不同的浏览器不会对数据的收集造成很大的影响,但是无线APP时代就完全不一样了。APP对用户的识别是基于手机的机器码,但是这一识别标准在不同的操作系统上也存在差异。这种差异主要体现为以下两点:一是操作系统本身的差异;二是同一操作系统上的版本的分化。操作系统的差异比较好理解,现在主流的操作系统iOS、安卓、Windows Phone就很不一样,他们的安全策略也非常不一样,比如iOS的封闭式系统就会严格控制外部收集者的介入,限制其获取自身用户的信息。而版本的分化会对数据收集造成更大的挑战,比如iOS6的操作系统可以允许应用程序获取手机的MAC地址,而到了iOS7就无法获取了,应用程序就只能获取广告识别码,但用户又可以限制应用进行获取,这就导致基于MAC地址识别用户的方法在用户升级操作系统之后就完全失效了。安卓在这一方面的表现更加夸张。安卓是一个开放的系统,不同的厂商,甚至其他组织都可以修改它,这就使得在一部分手机上可以使用的方法在其他手机上就行不通。典型的例子就是通过手机扫描二维码打开应用,用小米手机扫描二维码就能打开应用,而三星手机也许就不行。

    对于APP来说,还有很多APP会内嵌网页,这个时候往往会收集到应用本身的数据和网站浏览的数据,这就使得数据变成了两份。如果没有将一个应用内的识别用户的标记很好地进行传递,那么即使在手机端,数据也会变得不完整。

    再退一步讲,即便上面说到的两点都没有对数据收集产生影响,APP的版本更新也会对数据收集造成障碍,比如一个APP开发的时间长了之后,总会更新多个版本,而现实中也总有不愿意更新版本的用户,这就使得数据收集的结果会存在多份的情况,而不像PC那样只产生一份数据。比如,对于手机淘宝来说,最新的版本可能是4.0,但是手机预装的版本可能还是3.4,在这种常见的情况下,就要求数据分析师可以从更广的视角去看待数据收集的问题了。

    PC数据与无线数据的关系
    保证PC和无线两份数据的完整,通过用户体系将两份数据关联起来,就可以在分析的时候用彼此的融合来还原用户的行为。

    在两份数据同时存在的情况下,就需要去衡量PC和无线的关系。我的看法是,保证PC和无线两份数据的完整,通过用户体系将两份数据关联起来,就可以在分析的时候用彼此的融合来还原用户的行为。

    首先,从数据本身来看,PC和无线两份数据由于存在技术上的差异,本身就是分离的,这就意味着数据仓库需要用额外的空间将无线数据保存起来,而不能单纯地将无线数据混入PC的数据里面。而且,无线数据中还存在APP性能的数据,比如后台启动、程序崩溃等,所以分开存储是十分有必要的。对于不需要还原用户行为的数据,比如页面整体的点击率、用户访问时长等基于应用本身的数据,则可以通过无线数据来分析,这样效率更高。

    其次,对于数据收集和管理的策略而言,必须要有一套账号体系能够使原本没有关系的数据发生关系。由于技术不同,PC和无线数据天生就不发生关系,要让关系发生的唯一办法就是人,或者说是基于用户的账号。这对于一些有账号系统的平台,比如腾讯和阿里巴巴,这不会是多大的问题,但是对于不依赖账号系统的平台来说,想让数据之间发生关系十分艰难。为了让用户的行为能够串联起来,现在很多应用都要求用户进行登录,这样即便是用户换了手机之后,用户的行为仍然能够得到延续,而企业也会清楚此用户是老用户。否则,在换手机如换衣服的今天,可能所有用户手机的生命周期都不到两年,那么企业就永远都不会知道谁是自己的老用户了。

    多屏思维下的电子商务
    探索到的无线数据场景为清晰的数据分析打下了基础,从而能够更好地还原用户的行为,以便分析在多屏环境下的电子商务。

    面对无线数据,要解决的主要问题有两个:一是做到高效准确的收集;二是培养数据分析师的多屏思维。

    所谓做到高效准确的收集,就是需要建立一套面向多操作系统、多版本、自动、可灵活配置的用户行为获取系统。通过这个系统,开发工程师不再需要采用人工写代码的方式来收集数据,从而也就保证了数据的纯净无噪音。但是,这套系统还需要应对一个问题,那就是可能出现的因操作系统的变化而使用户识别失效的情形。因此,企业需要能够建立自己的用户识别方式,能够建立独立于设备号之外的识别代码。同时,这套系统还需要做到多系统的适配,要保证同一个版本在安卓和iOS上面的数据具有一致性。

    数据分析师多屏思维的培养,则是一个长期的过程。我的方法是先派出精干的数据分析师小团队去探索无线数据的场景,因为即便像阿里这样的大公司,无线数据的分析也是一个全新的领域,所以需要有分析师去探索。经过探索之后,我们就能够发现无线的各种“坑”(问题),为清晰的数据分析打下基础,从而能够更好地还原用户的行为,以便分析在多屏环境下的电子商务。

    最后,在数据存储领域,也需要有更合适的模型框架来应对海量的无线数据。在无线出现之前,数据仓库都是基于PC的思路,按照主体来建立的,比如用户属性、浏览行为、订单中心等;在无线出现之后,很多数据仓库工程师则将无线也作为一个并列于用户属性或者浏览行为的主体进行保存。

    其实,这种做法的误区是没有真正理解无线的含义,无线应当是作为一种横向的基础模型穿插于各个垂直的主题模型之中的,如果将无线作为一个独立的模型,在进行用户行为还原和用户分析的时候则会变得很困难。

    古往今来,每当颠覆者出现的时候,机会也会随之出现。无线互联网是当今商业发展不能避开的鸿沟,此时,企业应该做的是在颠覆者行动之前,提早地做好准备和规划。在无线时代和多屏时代,企业需要设计更好的技术方案来让自身更好地识别用户,用更好的产品场景让用户享受到多屏的便利,及早地培养数据使用人员的多屏思维方式,及早地规划面向无线场景的数据底层设计方案。

    从数据化运营角度来看,云是计算,端是应用。“云+端”的模式使数据科技的价值得到了极大的发挥, 就像“INTEL inside”一样。从运营数据的角度来看,端是传感器,云是“储存+管理”,而“多屏+移动端口”就是未来数据创新的孵化器。

    在未来的商业大战中,积极备战无线领域的公司,将会在移动互联网的场景下独占超越其他公司的优势,并享受更为丰厚的收益。