1.12 对大数据标准的需求

大数据会继续以狂野西部式的风格,以及无限制及缺乏定义的数据流格式存在吗?或许不会。随着时间推移,会有一些标准被制定出来。一些半格式化的数据源会逐渐变得更加格式化,而且一些独立的组织会微调它们的大数据流,使之对分析更加友好。然而更重要的是,发展行业标准是大势所趋。尽管诸如电子邮件和社交媒体评论之类的文本数据无法在其输入端施加很多控制,然而标准化解释这些数据并用于分析的方法却是可行的。事实上,这些变化已经开始发生了。

例如,哪些词是“好”的,哪些词是“坏”的?对于哪些状况默认的规则会失效?哪些电子邮件值得一字不漏地解析和分析,而哪些可以被很快地处理?产生大数据的方法,以及处理和分析大数据的过程,都会被制定标准。输入端和输出端都会被涉及。结果,征服大数据的任务将会变得更加容易。这个过程还需要一些时间,而且,这些被制定的标准更像是一些被从业人员普遍接受的实践法则,而不是由官方标准化组织正式声明的规则或政策。不管如何,标准会越来越多。


标准化所有可能的范围

尽管类似于电子邮件的文本数据无法在其输入端施加很多控制,然而解析这些数据并用于分析的方法是可以被标准化的。你并没有能力将大数据的一切都标准化,但是通过部分标准化,已经足以让任务变得更简单。应当把注意力集中在使用大数据和标准化大数据流输入上。


能够迅速切入大数据领域的企业具有制定标准和影响标准发展的能力,从而保证它们的特殊需求可以被满足。某些行业甚至可以遥遥领先。对于电力公司行业,在具备收集数据的能力之前,已经有相当多的工作用于定义智能电网数据的参数。当项目以一般定义和规则启动时,如果每家电力公司都以它们自己的方式创造数据,而没有事先与它们的同行共同商议,那么智能电网数据将更加难以管理。