消除“数据割据”与“数据孤岛”
如果我们把数据比喻成某种资产,在割据状态下,数据市场呈现出来的是这种形态:每个人都躲在自己的房子里闭门造车,收集和增加数据(资产),捂紧口袋,待价而沽。互相之间获得数据是非常困难和缓慢的,中间需要讨价还价、建立信任和足够多的时间成本,而每个数据商(独立的家)就像一座座孤立的小岛。
当我们尝试数据的治理进入到实质阶段时,就会发现有这三个问题在阻碍我们的工作:数据割据、数据孤岛和数据质量。它们既是统一的整体(危害通常一起爆发),又可以在某些阶段单独呈现。
数据割据——因为制度、部门保护主义或小团队利益等人为的因素造成的数据分散的现象;
数据孤岛——因为技术差距和遗留问题等形成的数据分散与无法集中共联的现象;
数据质量——主要包括数据的真实性、完整性和一致性。我们都知道数据质量的好坏直接影响着“数据资产”的价值,但解决却非一蹴而就,需要各方面的综合提升,比如技术、制度、文化等多领域的努力。
数据割据现象更多存在于国家各部门、各地方之间,大型企业也会造成数据割据现象。基于它必将产生的、对于效率的危害,数据割据是我们首先要消除的不良现象,它违背了大数据时代的精神,急需人们拿出解决办法和协作诚意。
具体来说,割据造成的数据孤岛有几个让现代人已经无法忍受的特征:
一、数据使用者(用户)的成本不断叠加,在一项服务中重复支付成本;
二、阻断技术的进步,难以实现产业联合;
三、 “跨岛”合作的环节烦琐缓慢,信息共享缺乏实时性。
因此,虽然国内的各行各业都对数据资产充满了向往,将手头的巨量数据转化成盈利,这是一个光明的前景,但人们更担心的则是“数据割据”的现实,它让这个前景蒙上了一层厚厚的阴影。
比如,淘宝网对八度网络公司的警告,认为它的“超级数据平台”侵犯了淘宝“数据魔方”的软件著作权。中国政府没有办法进行表态,因为我国目前还缺少数据资产归属权、使用权的立法,也没有界定网络上公开的商品价格的数据,它是应该只属于淘宝公司呢,还是应该打开大门,让其他公司也有权利分享。淘宝和腾讯微博先后屏蔽掉百度的蜘蛛爬虫也是一个明证。
现在国内的互联网巨头都掌握着大量的也是部分的消费者数据,像百度、腾讯、阿里巴巴集团三大互联网公司分别掌握搜索、社交和消费数据。这三方数据如果能汇总在一起,可以拼凑出一个完整的网上信息的数据关联图谱。但现实是它们之间没有合作的意图,相反却是高筑墙,阻止数据外流,至少不会让对方轻松地得到。
从大数据的本质来看,其开放与分享精神在中国碰上了数据割据的壁垒。人们知道只有分享才能充分发展大数据的巨大价值,实际做起来却不是这么回事,理想和现实之间还存在着几乎无法跨越的鸿沟。
一位供职于国内某知名IT公司的大数据专家梁先生说:“中国的互联网巨头本质上都还是封建割据的思维,没有认识到信息的流动才是互联网的精髓。”梁先生长期关注大数据,他认为,这些互联网公司都认识到了数据将是未来发展的战略性资产,所以它们不会轻易拱手让人。但正因如此,才造成了中国目前的大数据产业缺乏完整性和一致性,使得可利用价值大打折扣。
特别是对处于大数据产业中下游的中小型企业来说,相对于淘宝、百度等巨头,它们没有技术优势,如果再缺乏数据源头的支持,将真正地在运营和布局上处于尴尬的境地:虽然有锅,但是无米。
在业内进行调查时,很多经理人都反映说,即便巨头们口头上承诺会开放,会让其他公司分享数据,可实际上是“挂羊头卖狗肉”,没有真心诚意将数据源开放,或者它们只允许在其各自的平台上运行。
在政府部门中也存在这个问题,比如我们社会中的个体信息,封闭在工商部门、银行、保险、公安、医院、社保、运营商等不同的机构手中,融合起来非常困难。基于部门利益保护主义,它们对信息共享缺乏动力,这是中国必须尽快革除的障碍。只有打破孤岛,我们才能看到中国的大数据时代的曙光。
大数据并不是存在于某一个部门之中,它发挥作用也不是某一个单独的部门可以实现的。政府需要从横向和纵向同时比较一些数据,来得出最贴近于事实的结论。因此,解决数据的割据和信息孤岛问题、提升系统建设的能力和规划势在必行。从技术层面看,云计算的高度灵活性正好对应了中国政府的需求。
我的建议是,大数据产业的发展,应由各级政府带头实现等级制数据开放共享。从上到下制定一系列针对性的政策和法规,引导和推动各行各业来开放数据,进行数据合作,将所有的数据熔到一个炉子里。在把握巨大商机的同时,也要做好利益的分配,并注重保护特殊信息。