CHAPTER 3 中国如何搭上大数据快车？ - 消除“数据割据”与“数据孤岛” - 《大数据在中国》

消除“数据割据”与“数据孤岛”

如果我们把数据比喻成某种资产，在割据状态下，数据市场呈现出来的是这种形态：每个人都躲在自己的房子里闭门造车，收集和增加数据（资产），捂紧口袋，待价而沽。互相之间获得数据是非常困难和缓慢的，中间需要讨价还价、建立信任和足够多的时间成本，而每个数据商（独立的家）就像一座座孤立的小岛。

当我们尝试数据的治理进入到实质阶段时，就会发现有这三个问题在阻碍我们的工作：数据割据、数据孤岛和数据质量。它们既是统一的整体（危害通常一起爆发），又可以在某些阶段单独呈现。

数据割据——因为制度、部门保护主义或小团队利益等人为的因素造成的数据分散的现象；

数据孤岛——因为技术差距和遗留问题等形成的数据分散与无法集中共联的现象；

数据质量——主要包括数据的真实性、完整性和一致性。我们都知道数据质量的好坏直接影响着“数据资产”的价值，但解决却非一蹴而就，需要各方面的综合提升，比如技术、制度、文化等多领域的努力。

数据割据现象更多存在于国家各部门、各地方之间，大型企业也会造成数据割据现象。基于它必将产生的、对于效率的危害，数据割据是我们首先要消除的不良现象，它违背了大数据时代的精神，急需人们拿出解决办法和协作诚意。

具体来说，割据造成的数据孤岛有几个让现代人已经无法忍受的特征：

一、数据使用者（用户）的成本不断叠加，在一项服务中重复支付成本；

二、阻断技术的进步，难以实现产业联合；

三、 “跨岛”合作的环节烦琐缓慢，信息共享缺乏实时性。

因此，虽然国内的各行各业都对数据资产充满了向往，将手头的巨量数据转化成盈利，这是一个光明的前景，但人们更担心的则是“数据割据”的现实，它让这个前景蒙上了一层厚厚的阴影。

比如，淘宝网对八度网络公司的警告，认为它的“超级数据平台”侵犯了淘宝“数据魔方”的软件著作权。中国政府没有办法进行表态，因为我国目前还缺少数据资产归属权、使用权的立法，也没有界定网络上公开的商品价格的数据，它是应该只属于淘宝公司呢，还是应该打开大门，让其他公司也有权利分享。淘宝和腾讯微博先后屏蔽掉百度的蜘蛛爬虫也是一个明证。

现在国内的互联网巨头都掌握着大量的也是部分的消费者数据，像百度、腾讯、阿里巴巴集团三大互联网公司分别掌握搜索、社交和消费数据。这三方数据如果能汇总在一起，可以拼凑出一个完整的网上信息的数据关联图谱。但现实是它们之间没有合作的意图，相反却是高筑墙，阻止数据外流，至少不会让对方轻松地得到。

从大数据的本质来看，其开放与分享精神在中国碰上了数据割据的壁垒。人们知道只有分享才能充分发展大数据的巨大价值，实际做起来却不是这么回事，理想和现实之间还存在着几乎无法跨越的鸿沟。

一位供职于国内某知名IT公司的大数据专家梁先生说：“中国的互联网巨头本质上都还是封建割据的思维，没有认识到信息的流动才是互联网的精髓。”梁先生长期关注大数据，他认为，这些互联网公司都认识到了数据将是未来发展的战略性资产，所以它们不会轻易拱手让人。但正因如此，才造成了中国目前的大数据产业缺乏完整性和一致性，使得可利用价值大打折扣。

特别是对处于大数据产业中下游的中小型企业来说，相对于淘宝、百度等巨头，它们没有技术优势，如果再缺乏数据源头的支持，将真正地在运营和布局上处于尴尬的境地：虽然有锅，但是无米。

在业内进行调查时，很多经理人都反映说，即便巨头们口头上承诺会开放，会让其他公司分享数据，可实际上是“挂羊头卖狗肉”，没有真心诚意将数据源开放，或者它们只允许在其各自的平台上运行。

在政府部门中也存在这个问题，比如我们社会中的个体信息，封闭在工商部门、银行、保险、公安、医院、社保、运营商等不同的机构手中，融合起来非常困难。基于部门利益保护主义，它们对信息共享缺乏动力，这是中国必须尽快革除的障碍。只有打破孤岛，我们才能看到中国的大数据时代的曙光。

大数据并不是存在于某一个部门之中，它发挥作用也不是某一个单独的部门可以实现的。政府需要从横向和纵向同时比较一些数据，来得出最贴近于事实的结论。因此，解决数据的割据和信息孤岛问题、提升系统建设的能力和规划势在必行。从技术层面看，云计算的高度灵活性正好对应了中国政府的需求。

我的建议是，大数据产业的发展，应由各级政府带头实现等级制数据开放共享。从上到下制定一系列针对性的政策和法规，引导和推动各行各业来开放数据，进行数据合作，将所有的数据熔到一个炉子里。在把握巨大商机的同时，也要做好利益的分配，并注重保护特殊信息。