再造互联网:从网页相连到数据相“联”
语义网就是数据网,从某种程度上来说,就像一个全球性的数据库。……语义网不仅仅是把数据放上网,它还要在数据之间创建联接,数据一旦联接,计算机和人都可以对数据进行探索:通过一个数据发现另外一些相关的数据。13
——蒂姆·伯纳斯-李,1998年、2006年
大数据时代正在催生的最大技术变革,是重新构造互联网。
对下一代互联网的研究,伯纳斯-李领导的麻省理工学院万维网联盟(W3C)是全世界的领跑者。1998年,该组织就开始提出下一代互联网的定义和构建方法。
伯纳斯-李将下一代互联网称为“语义网”(Semantic Web),他继而解释说,语义网就是“数据网”(Web of Data)。
所谓“语义”,是指遵循一个统一的标准,给每一片信息赋予一个计算机都能理解的“意义”,这个标准的“意义”,用术语说,则是“元数据”,也可以形象地理解为给信息贴上各种标准化的“标签”。
如前文所述,现在互联网上的资源组织形式,是万维网(World Wide Web)。在万维网上,网页是信息资源的基本组织单位,各个网页都有一个地址,即“统一资源标识”(URI),它们通过开发者定义的链接连接起来,用户可以从一个网页跳跃切换到另一个网页,即网上冲浪。
在语义网上,数据将像网页一样,成为组织资源的单位。一个数据,可以像万维网上的网页一样获得一个地址(即统一资源标识),同时,还有统一的语义对它进行描述。
这样,语义网上的数据,就不再是一个死的数字,而是一个活的“细胞”,它可以被定位,还拥有和其他数据语义一致的标签,这意味着它可以和其他数据相联。之所以称为相“联”,而不是相“连”,是因为,它们并不是像网页一样通过一个链接简单连在一起,而是通过数据之间内在的关系挂起钩来、“联”在一起。这种关系,不是随便定义的,而是基于数据的含义和属性产生的。
元数据(Metadata)
元数据是大数据时代的一个重要概念,它是指描述、解释数据属性的数据(data about data),是为支持一致性的数据描述所定义的统一准则。
这种相联,就像两个数据库通过“主键”(Primary Key)相联起来一样,不同的是,这里的“主键”,是一个数据的元数据。
对用户而言,这意味着可以从一片数据自由地跳转到其他数据——数据冲浪。这个跳转,依靠的不是人为的链接,而是本质关系上的联结。
这将是一次划时代的革命。
1990年代,互联网进入大众的生活之后,人们开始在网上大建网站,网站的目的,是信息的传播和分享,这个时代,很多人称之为“Web 1.0”。随着技术的进步,21世纪初,出现了推特、脸谱14等社交网站,社交网站把基于互联网的交流、协同和互动演绎得淋漓尽致,被称为“Web 2.0”。
但在大数据时代,信息共享、交流互动已经不再是最迫切的需求,数据的分析和整合,才是最大的挑战,而这恰恰是万维网的短板。
可以说,万维网是一个网页的集合体。这些网页,即使内容相似、主题相同,但由于分属不同的网站、存储在不同的服务器上,他们之间就没有链接和联系,这意味着如果用户想找到它们、分析它们,就必须借助搜索引擎等工具。
这也是谷歌之类的搜索公司为什么能成为商业巨头的根本原因:在现在的互联网上,各种信息之间是孤立的,我们要对它们进行整合、分析,就必须依靠人工的外力,目前最好的工具就是搜索引擎。
但搜索引擎并不完美。通过特定的计算机算法,搜索引擎按“关键字”的相关度对网页进行过滤排序,然后给用户返回一大批相关的网页,这些信息,良莠不齐,还需要进一步的人工分辨。
未来的语义网,却不是一个众多网页的链接体,而是一个全球性数据库。在这个数据库中,各种相关数据通过“元数据”互相联结,计算机将根据元数据,自动为我们搜寻、检索和集成网上的信息,不再需要搜索引擎。
例如,在万维网上,如果你想阅读韩寒的作品,你可能要借助搜索引擎,输入“韩寒的作品”,但搜索引擎返回的,是一板一眼包含“韩寒的作品”这5个字的所有网页,其中,有韩寒创作的作品,也有别人对韩寒作品的评论等等相关的信息。但在语义网上,韩寒创作的作品会有一个语义标签,别人的评论会有另外一个标签,通过标签,韩寒所有的作品将自动相联,你找到了一个,就能发现一片。
又比如,在语义网上,你可以跨网站整合数据:你收到银行寄来的消费记录,但却记不清其中一笔10元钱是不是自己花的,你可以立即将你的银行记录和你的Outlook日程表联结起来,通过逐条查对你的行程、活动和消费明细,这样你很快就能想起,那天花钱的时候,你正在和家人开车去公园的路上,你买了几瓶水。跨网站整合数据,还意味着你可以将微博上的一条信息群发给你开心网上定义的朋友圈。
不难想象,在新一代的“语义网”里,谷歌的搜索服务,将不再有立足之地,各种社交网站的功能和格局也将改写,语义网的智能平台将触发、呼唤一些崭新的服务。由于这些变化,也有人将语义网称为“Web 3.0”。
从Web 1.0到Web 3.0的演变
说明:Web 1.0到Web 3.0的提法在业界有人支持、有人反对,并不统一。
但语义网的建设却非一日之功、一人之力。
首要原因是有大量关于元数据的标准需要制定、统一。
语义网的建设,元数据是关键。只有通过这些计算机能理解的语义标记,每一个片断的信息才可以和其他的信息自动发生联系,揉捏整合,形成联结的关系。作为一种“标记语言”,元数据必须是标准的、一致的,又是灵活的、可扩展的,适用于万事万物。
为了保持“标记语言”的一致性,计算机科学家正在对全世界万事万物的基本特点及其关系进行规范和定义,这个过程,叫做创建本体(Ontology)。所谓本体,就是世界上所有的常见事物。创建本体,也可以理解成对人类社会每一个实体进行概念化、标准化的定义过程。
可以想象,这是一个如何浩大的工程。
简单的本体示例:关于动物的概念及其相互关系所构成的语义网络
说明:通过以上这几个本体定义,计算机一碰到“熊”,就知道它是一种哺乳动物、身上有毛,还能推断出它有脊椎、不在水中生活。(图片来源:维基百科)
在各种各样本体的基础之上,为数据加上语义一致的元数据标签,这是语义网最基础也是最繁琐的工作之一。以Data.Gov为例,昆德拉在创立之初,就鼓励政府各个机构按照语义网的标准发布数据,目前,该网站上有400多组按语义网的标准发布的数据,但仅仅这几百组数据,其定义的元数据就达到64亿之多。
语义网蓄势未发,除了基础工作庞大繁杂之外,还有一个经济学上的原因,可以用网络的外部性来解释。
何为网络外部性?
网络外部性
(Network Externality)
网络外部性是理解现代经济的一个重要概念。它是指某件产品对单个消费者的使用价值,取决于这件产品总用户的多少。用户的人数越多、形成一个越大的网络,每个用户从产品中得到的效用就越高。
电话、即时通讯软件、社交网站等等都是网络外部性的典型例子。
让我们穿越到1876年,电话刚刚被美国人贝尔发明的时候。
假设安装一部电话非常昂贵。当你计划安装时,你会审视你周围的朋友,如果他们都不买、也不装,那你的电话就无人可打、毫无作用,只有用的人越多、你能联系的人也就越多,电话对你的价值才越大。语义网也一样,你投入资源、人力,把你的网页、数据重新定义了,但还不够,你的数据必须和其他数据相联,你的工作才能产生价值。也就是说,你投资的效果,不是立竿见影的,而是最终取决于其他人是否投资、和你相联。只有全球性的数数相联,语义网才能最终形成、发挥最大的效用。正因如此,目前,商业领域对语义网的投资很有限,语义网的建设主要靠政府和公益组织在推动。
在2009年的TED大会上,伯纳斯-李的演讲题目是《下一代网络》,他在向观众描述了未来语义网的强大之后,向听众呼吁:
“现在,我们正处在这样一个阶段:如果你认为这是一个伟大的想法,那你就要去做。这件事,每个人的回报将取决于其他人是否行动。我想,今天我们在座的很多人,他们做事,并不是因为这件事很快就有投资回报,他们去做,是因为他们明白:每个人都去做了,就能成就一件好事。”15
换句话说,语义网的建设,也存在着“集体行动的困境”。
今天,当我们面对互联网时,好像感觉不到任何的变化。放眼望去,大地似乎平坦依旧、江河仍然向东奔流,但地表之下,正在平静地发生剧烈的变化。每一天,世界各地都在定义新的本体、增加新的互联数据。这些变化,也像地基,地基打得越深越牢,楼才能盖得越高越大。
但这些本体,主要还是英文本体,中文世界对本体的研究和贡献极为有限。
终有一天,全球将数数相联。
就像浏览网页已经成为我们的生活方式一样,数据在网上的自动整合和跳转,将会成为我们新的生活方式。通过这种新的方式,互联网将向我们“推送信息”,而不再是我们在网上“搜索”信息。
那将是一个更加辉煌的大数据时代。大数据之“大”,将不仅仅意味着数据之多,还意味着,每一个数据都能在互联网上获得生命、产生智能、散发活力和光彩。
注释
01 英语原文为:“Raw Data Now!”—On the next Web, TED 2009 Conference, Tim Berners-Lee, Feb 3rd, 2009
02 英语原文为:“The most exciting is a new right to data, which will let people request streams of government information and use it for social or commercial purposes? Take all this together and we really can make this one of the most open, accountable and transparent governments there is. Let me end by saying this. You are going to have so much information about what we do, how much of your money we spend doing it, and what the outcome is.So use it, exploit it, hold us to account. Together we can set a great example of what a modern democracy ought to look like.”—David Cameron, November 19th 2010
03 Give us back our crown jewels, The Guardian, Charles Arthur and Michael Cross, March 8, 2006
04 TED是Technology、Entertainment、Design(技术、娱乐、设计)3 个英文单词的缩写。TED大会是全世界著名的思想领袖会议,该大会以美国加州为基地,每年将众多的技术、设计、文学、音乐等领域的杰出人物集聚在一起,对科技和文化发展中的重大话题进行交流、思考和探索。
05 英语原文为:“Each country will pursue a path rooted in the culture of its own people.Yet experience shows us that history is on the side of liberty; that the strongest foundation for human progress lies in open economies, open societies, and open governments.”—Remarks to the United Nations General Assembly, Obama, September 23, 2010
06 美国总统奥巴马在联合国大会上的演讲,2010年9月23日。
07 Open Government Data Camp: 2010
08 Open Government Declaration, September 2011
09 英语原文为:“Computing may someday be organized as a public utility just as the telephone system is a public utility.…The computer utility could become the basis of a new and important industry.”—John McCarthy, speaking at the MIT Centennial in 1961
10 互联网上流行的“翻墙”技术,用的其实就是虚拟专用网络的技术。
11 英语原文为:“The network is the computer.”—John Gage, Vice President of Sun Microsystems, 1983
12 Federal Cloud Computing Strategy, Vivek Kundra, U.S. Chief Information Officer, February 8, 2011
13 英语原文为:“The Semantic Web is a web of data, in some ways like a global database. …The Semantic Web isn't just about putting data on the web. It is about making links, so that a person or machine can explore the web of data. With linked data, when you have some of it, you can find other related data.”—Tim Berners-Lee, 1998 & 2006
14 推特即Twitter,相当于中国的微博;脸谱即Facebook,是美国最流行的社交网站,相当于中国的开心网和人人网。
15 On the next Web, TED 2009 Conference, Tim Berners-Lee, Feb 3rd, 2009