技术支持与发展
大数据不是口号,而是技术,同时也是技术的整合。大数据的到来,已经成为现实生活中无法逃避的挑战。无论如何,大数据已经成为新一轮技术变革的最强音。关于模式的思考,关于安全的质疑,关于应用的探索,我们必须静下心来看大数据,实实在在了解大数据目前仍然需要解决的问题。
国计民生、商业创新无不与大数据相关,大数据渐渐向人们展现了它为学术、工业和政府带来的巨大机遇。每当我们要做出决策的时候,大数据就无处不在。无论如何,我们都必须直面大数据时代的到来。
大数据给中国带来的巨大挑战,首先是三个重要的技术问题。
☆如何利用信息技术等手段处理非结构化和半结构化数据
大数据的一个重要特点就是数据分散。大数据中,85%都是非结构化的数据,结构化数据只占15%左右。大数据的另一个特点就是不确定性,表现在高维、多变和强随机性等方面。有90%的数据来自开源数据,其余的被存储在数据库中。而大数据则大量存在于社交网络、互联网和电子商务等领域。
值得注意的是,大数据刺激了大量的研究问题。但是大数据每一种表示形式都仅呈现数据本身的侧面表现,并非全貌。比如图像,如何把它转化成多维数据表、面向对象的数据模型或者直接基于图像的数据模型?
如果把通过数据挖掘提取“粗糙知识”的过程称为“一次挖掘”过程,那么将粗糙知识与被量化后的主观知识相结合而产生“智能知识”的过程就叫作“二次挖掘”。这些结构化的粗糙知识可以被主观知识加工处理并转化,生成半结构化和非结构化的智能知识,这也正是基于大数据的数据挖掘所产生的结构化的粗糙知识的一些新特征。
由于大数据所具有的半结构化和非结构化的特点,寻求“智能知识”也就反映了大数据研究的核心价值。非结构化和半结构化数据的个体表现、一般性特征和基本原理尚不清晰,要想实现从“一次挖掘”到“二次挖掘”这样类似事物量到质的飞跃,还必须通过包括数学、经济学、社会学、计算机科学和管理科学在内的多学科交叉来研究和讨论。这些都需要给定一种半结构化或非结构化数据,包括具体的经验、常识、本能、情境知识和用户偏好。
☆如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模
大数据的复杂形式导致许多对“粗糙知识”的度量和评估显得尤为重要。这一问题的突破是实现大数据知识发现的前提和关键。这里,人机交互将起到至关重要的作用。管理科学,尤其是基于最优化的理论将在发展大数据知识发现的一般性方法和规律性中发挥重要的作用。
从短期而言,学术界鼓励发展半结构化、非结构化数据之间的转化原则,以支持大数据的交叉工业应用。从长远角度来看,可以将已知的最优化、数据包络分析、期望理论、管理科学中的效用理论应用到“二次挖掘”过程中,研究如何将主观知识融合到数据挖掘产生的粗糙知识中。大数据的个体复杂性和随机性所带来的挑战将促使大数据数学结构的形成,从而导致大数据统一理论的完备。
☆数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响
在大数据环境下,管理决策面临着两个“异构性”问题:“决策异构性”和“数据异构性”。大数据已经改变了传统的管理决策结构的模式。决策结构的变化要求人们去探讨如何为支持更高层次的决策而去做“二次挖掘”。探索大数据环境下决策结构的改变对管理决策结构的影响会成为一个公开的科研问题。寻找大数据的科学模式将带来对研究大数据之美的一般性方法的探究,已知的数据挖掘方法将成为大数据挖掘的工具。
无论大数据带来了哪种数据异构性,大数据中的“粗糙知识”仍可被看作“一次挖掘”的范畴。由于大数据本身的复杂性,这一问题无疑是一个重要的科研课题,传统的管理决策模式取决于对业务知识的学习和日益积累的实践经验,而管理决策又是以数据分析为基础的。大数据是一种具有隐藏法则的人造自然,如果我们找到了将非结构化、半结构化数据转化成结构化数据的方法,通过寻找“二次挖掘”产生的“智能知识”来作为数据异构性和决策异构性之间的桥梁,那么我们将能够很好地应对传统的数据挖掘理论和技术提出的新挑战。尽管这样的探索十分困难,但是研究大数据,是十分必要的。
除此之外,还有一些数据科学的问题,以上也仅仅是研究大数据挑战的一个起点。在未来,相关的问题都可以得到很好地解决。
自从人类进入到信息化时代以来,我们不断产生大量的数据,加之物联网、移动互联网应用的大规模爆发,大量新数据以每年50%的速度在增长,或者说每两年就要翻一番多。数据已经渗透到每一个行业和服务职能领域,随着互联网技术的不断发展,数据本身就是资产,这一点在业界已经形成共识。
人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。在云计算时代,人类通过对海量大数据的高效分析获得商业以及社会价值。云时代的到来、移动终端普及使得数据创造的主体由企业逐渐转向个体,而个体所产生的绝大部分数据为图片、文档、视频等非结构化数据。随着云计算技术的快速普及,人类社会正在步入一个被互联网和通讯技术引爆的大数据时代。大数据技术在中国的发展前景是光明的,前提是我们能够提升和扩充自己的技术王国,建设美好的蓝图。
全球技术研究和咨询公司Gartner将大数据技术列入2012年对众多公司和组织机构具有战略意义的十大技术与趋势之一。Gartner在其新兴技术成熟度曲线中将大数据技术视为转型技术,这意味着大数据技术将在未来3〜5年内进入主流。中国也不会落后,“云基地”作为国内最早根植在云计算技术及商业模式的领先者,也一直积极关注大数据带来的发展机遇。
从战略到战术层面,从理念到技术层面,中国都已开始自我的进化,更加适应这个新的时代。中国经过了几十年的积累,让不断产生的海量数据正在成为虚拟世界取之不尽的能源,而它们还远未被开发。
信息化技术的普及使得中国企业更多的办公流程通过网络得以实现,由此产生的数据也以非结构化数据为主。而其他领域的研究,如云计算、下一代分析、内存计算等也都与大数据的研究相辅相成。
我们尚无法确定万物是否皆有数据,但是至少已经推开了这样一扇大门:以理性的态度思考大数据,共同保持着持续变革的动力,主动地拥抱这种变化。早在2012年时,非结构化数据就已达到了互联网整个数据量的75%以上,用于提取智慧的大数据,往往是这些非结构化数据。而现在,这个比例已变得更大,我们也拥有了足够的技术支持。换句话说,中国的大数据技术的积累已到达了突破阶段。