第二部分 复杂网络的本质
第5链 枢纽节点和连接者——复杂网络的关键要素
如果万维网是一个随机网络,我们被看到和听到的机会应该是相等的。但不管你处于万维网中的什么位置,总是会发现一些枢纽节点。和这些枢纽节点相比,万维网的其他部分是不可见的。枢纽节点的存在,颠覆了“平等网络空间”的乌托邦幻想,也颠覆了我们对网络的所有认识。就网络而言,多少不是关键。网络的真正中心位置属于那些在多个大圈子里都有位置的节点。
枢纽节点
枢纽节点是指网络中少数连接度非常高的节点。例如,在人类社会中,枢纽节点是指少数认识的人非常多的连接者。在存在枢纽节点的网络中,网络的结构由枢纽节点支配,从而使网络呈现出小世界特性。实际上,枢纽节点和非常多的节点有链接,从而在系统中的任意两个节点之间建立了捷径。
连接者,拥有大量链接的节点
《纽约客》特约撰稿人马尔科姆·格拉德威尔(Malcolm Gladwell)在他的著作《引爆点》(The Tipping Point)中,介绍了一种测试人们社交程度的简单方法。
他给出了一个包含248个姓氏的列表——这些姓氏选自曼哈顿电话黄页,然后请被试对照该姓氏列表给自己打分,每认识一个姓氏出现在该列表中的人得一分,可以重复计分。假如列表中有一个姓氏是琼斯,而被试认识三个姓琼斯的人,就可以得三分。格拉德威尔对曼哈顿城市学院的大学生们进行了测试。这些学生大多20岁出头,都是近几年才搬到曼哈顿的,他们的平均得分为21分。换句话说,他们一般认识21个姓氏出现在格拉德威尔姓氏列表中的人。格拉德威尔在以白种人为主且受过高等教育的人群中随机选出一组人,又进行了一次测试,他们的平均得分为39分,几乎是大学生得分的两倍。这个结果并不令人意外,反倒是被试得分的分布范围之广引起了格拉德威尔的注意。在大学生测试中,得分分布在2到95之间,而在另一个测试中,最低分是9分,而最高分为118分。即使是有着相似年龄、相似教育程度、相似收入的高度同质化人群,得分的变化也很大:最低分为16分,最高分则达到108分。格拉德威尔共计测试了大约400人,在每个测试组中都观测到了少数高得分者。最终,他得出了这样一个结论:“在各行各业中都有一小群特别善于交际的人,他们是社会中的连接者。”
连接者是社会网络中极其重要的元素,他们引领潮流趋势、促成重要交易、传播流行时尚并帮助推广餐馆。他们是社会的连线,于轻描淡写间把不同种族、不同教育水平、不同社会背景的人联系在一起。当格拉德威尔发现连接者时,他认为自己找到了一种人类独有的特质。但事实上,他在无意间发现了一个重要现象。在《引爆点》一书出版之前,这一现象就一直困扰着我的研究小组。
连接者是拥有大量链接的节点,他们广泛存在于包括经济系统、细胞等在内的多种复杂系统中,是大多数网络的根本特质之一。连接者激发了许多领域的科学家的兴趣,包括生物学、计算机科学和生态学。连接者现象的发现颠覆了我们对网络的所有认识,让我们重新回到了起点。聚团现象暴露了埃尔德什-莱利随机世界观的第一个裂隙。前一章探讨的瓦茨-斯托加茨模型挽救了随机世界观,使朋友圈现象和六度分隔现象在网络中和谐共处。现在,连接者现象发起了对这两个模型的最后一击。要解释这些高度连接的节点,我们必须彻底抛弃随机世界观。
枢纽节点,颠覆“平等网络空间”
在网络空间,人们享有极大的言论自由。有些人受其困扰,有些人热衷于它,而网页内容确实难以审查。网页内容一旦发布,便有数以亿计的人可以看到。这种无与伦比的言论发表方式,配合低廉的发布成本,使万维网成为了民主论坛的终极形式。在这里,每个人的声音被听到的机会都是均等的,至少政客律师和商业杂志是这样认为的。如果万维网是随机网络,那这些观点都是对的,可惜它不是。我们的万维网项目得出了一个有趣的发现:万维网并非民主、公平和平等的,万维网的拓扑使我们仅能看到十亿计文档中很少的一部分。
在万维网上,你的观点是否可以发布不再是关键问题。实际上,所有观点都可以发布,而且一旦发布,就立刻能被全世界任何一个有条件上网的人看到。现在的问题是,当你把信息发布在万维网上后,它能否在数十亿文档中引起别人的关注。
要想被读到,先得被看到。无论是对小说作者还是科学家而言,这都是至理名言。在万维网上,网页的可见度可以用导入链接数刻画。拥有的导入链接越多,你的网页越有可能被看到。如果万维网中的每一个网页都有链接指向你的网页,那么,所有人都能在很短的时间内知道你在万维网上说了什么。但是,一个网页平均只拥有大约5到7个链接,每个链接指向数十亿网页中的一个。因此,一个网页将链接指向你的网页的可能性接近于零。
上述结论完全适用于我的主页:www.nd.edu/~alb。根据远景公司(AltaVista)的调查结果,全世界大约有40个网页有链接指向我的主页。坦率地讲,鉴于我主页涉及领域极其狭窄,40个链接已经很多了。但是,全世界有大约十亿个网页可供选择,因此,你能发现我的网页的可能性仅有十亿分之四十。这也就是说,如果你在万维网上随机浏览,浏览每个页面只花费短短10秒钟,你也需要不分昼夜地浏览八年,才能碰到一个指向我主页的链接。
每个人都有着不同的兴趣、价值观、信仰和品味,这种多样性反映在我们网页的链接上。这些链接可以指向非洲部落艺术,也可以指向电子商务门户。因为有十亿多个节点可供选择,所以网络链接模式看上去相当随机。链接的随机性意味着,埃尔德什-莱利模型主宰着网络的链接模式。由于埃尔德什-莱利理论保证了所有节点彼此相似,每一个节点拥有的导入链接数目大致相同,所以随机万维网将是平等主义的最终载体。
然而,我们的发现推翻了随机万维网这一预言。我们的网页采集机器人发回的网络地图证实了万维网拓扑中的高度不均匀。我们研究了圣母大学的325000个网页,仅拥有3个导入链接的网页有270000个,占总网页数的82%。但是,有大约42个网页被超过1000个其他网页指向,它们拥有的导入链接数超过了1000!随后,我们对由2.03亿个网页组成的样本进行观察,发现了更严重的不均匀:多达90%的网页只有不到10个导入链接,同时,有3个网页被近100万个其他网页引用!
万维网上的上述现象和人类社会类似。人类社会中,少数连接者的朋友之多超乎寻常;万维网中,少数连接数非常高的节点主导着万维网的结构,它们被称为枢纽节点。雅虎或亚马逊这样的枢纽节点的可见度非常之高,无论在哪里,我们都能看到指向这些节点的链接。但在万维网中,还有很多不受欢迎或者很少被注意到的节点,它们通过少数枢纽节点连在一起。
链接洞察
枢纽节点的存在,颠覆了“平等网络空间”的乌托邦幻想。我们确实有权利把任何东西放到万维网上,但是会有人注意到吗?如果万维网是一个随机网络,我们被看到和听到的机会应该是相等的。从群体的角度来看,我们以某种方式创建枢纽节点,每个人都与其建立链接。不管你处于万维网中的什么位置,都能很容易地找到这些枢纽节点。和枢纽节点相比,万维网的其他部分是不可见的。出于实用目的,只被一个或两个网络链接的网页是不存在的,它们几乎不可能被找到。在搜索整个万维网寻找热门站点时,搜索引擎对这些链接数非常少的节点同样视而不见。
贝肯数与埃尔德什数
一天晚上,电视上正在播放凯文·贝肯(Kevin Bacon)的电影《灌篮高手》(The Air Up There)。宾夕法尼亚州雷丁市奥尔布赖特学院的学生克雷格·法斯(Craig Fass)、布莱恩·特托尔(Brian Turtle)和迈克·金利(Mike Ginelly)在观看电影时突然悟到了一件事。他们意识到,贝肯出演过的电影如此之多,以至于他可以和好莱坞任意一个演员联系起来。1994年1月,三个学生满怀兴奋地给《斯图尔特秀》(Jon Stewart Show)写了一封信,这是一个在大学生中非常流行的名人脱口秀节目。他们在信中写道:“我们三个人肩负使命,我们的使命是向观众甚至全世界证明,贝肯是上帝。”他们没想到自己竟然幸运地得到了15分钟的亮相机会。他们和凯文·贝肯一起应邀参加《斯图尔特秀》。在节目现场,他们能将观众随意给出的演员名字和贝肯联系起来,观众被他们这个能力深深吸引。然而,他们完全搞错了,贝肯远不是好莱坞的中心,贝肯与好莱坞中心的距离比他与宇宙中心的距离近不了多少。
这三位学生的天才发现来自于他们的观察:任何一个好莱坞演员都可以经过两三个链接与贝肯联系起来。例如,汤姆·克鲁斯(Tom Cruise)和贝肯共同出演过《义海雄风》(A Few Good Men),因此他们两人之间的距离仅一步之遥。与埃尔德什数类似,汤姆·克鲁斯的贝肯数是1。迈克·迈尔斯(Mike Myers)的贝肯数是2,因为他通过电影《王牌大贱谍》(The Spy Who Shagged Me)和罗伯特·瓦格纳(Robert Wagner)相连,而后者因出演《玩尽杀绝》(Wild Things)而具有贝肯数1。甚至像查理·卓别林这样的影坛前辈都有一条路径通往贝肯:查理在《凡尔杜先生》(Monsieur Verdoux)中和巴里·诺顿(Barry Norton)合作,而后者和罗伯特·瓦格纳合作演出了《光荣何价》(What Price Glory),至于罗伯特·瓦格纳,我们已经知道他的贝肯数是1。因此,查理·卓别林的贝肯数是3。进一步演绎该故事,可以算出保罗·埃尔德什的贝肯数是4。保罗·埃尔德什在一部关于他自己的纪录片《N是一个数》(N Is a Number)中扮演他自己。同样在该记录片中扮演自己的基恩·帕特森(Gene Patterson)后来在电影《盒光之夜》(Box of Moonlight)中出演了一个小角色,因此拥有贝肯数3。进一步,由于《N是一个数》是图论的经典,所以许多数学家不仅拥有很小的埃尔德什数,同时也有一个较小的贝肯数。
若非两名计算机专业的学生收看了《斯图尔特秀》,凯文·贝肯游戏恐怕只是电影界的一个节目花絮。但当来自弗吉尼亚大学的格伦·沃森(Glen Wasson)和布雷特·加登(Brett Tjaden)看到贝肯游戏时,他们立即意识到,只要有一个记录所有电影及其演员的完整数据库,就可以利用计算机确定任意两个演员间的距离。而影迷的天堂——互联网电影数据库(Internet Movie Database,IMDb.com)正好记录了他们需要的所有信息。沃森和加登用了几周时间编程创建了“贝肯之神谕”(Oracle of Bacon)网站,该网站成为人们参与贝肯游戏的主要途径。在这个网站,你只需输入任意两个演员的名字,就能在几个毫秒后得到他们之间的最短路径,以及这条路径上的演员和连接这些演员的电影。很快,这个网站的日访问量就超过20000次,它因此入选1997年《时代周刊》十大最佳网站。2001年8月26日,我最近一次访问该网站时,它的日访问量已达到13000次。
平均没有意义,多少不是关键
凯文·贝肯游戏之所以能够进行,是因为好莱坞的演员之间形成了一个链接稠密的网络。网络中的节点是演员,节点间的链接对应着演员们出演的电影。任意一部影片中任意一个演员和影片中其他所有演员之间都有链接。因此,出演过多部电影的演员能迅速获得很多链接。在这个演员网络中,一名演员平均拥有27个链接,远远高于保持网络连通所需要的1个链接,如此一来,六度分隔现象不可避免地出现了。实际上,一名演员平均只需要3个链接便能和其他所有演员连接起来。然而,正如我的研究小组在分析演员网络时注意到的,“平均”在这里没有意义。多达41%的演员拥有的链接少于10个,当这些不太出名的演员的名字出现在电影屏幕上时,你可能已经走出了电影院。但是,很少一部分演员拥有的链接却远多于10个。约翰·卡拉丁(John Carradine)在他多产的职业生涯中共形成了4000个链接,罗伯特·米彻姆(Robert Mitchum)在其数十年影视生涯中共与2905个演员合作过。这些连接程度异常高的演员是好莱坞的枢纽节点。如果去掉他们中的少数几个,其他演员与贝肯相连的路径将会明显延长。
我们可以推测,出演电影数最多的演员是连接度最高的,和好莱坞所有其他人之间的距离也是最短的。这个推测在平均意义上是正确的:一个演员出演的电影越多,他和其他人的平均距离就越短。但实际上,出演电影数最多的演员们并不是连接度最高的,这多少有些令人意外。郑浩雄(Hawoong Jeong)列出了出演电影数最多的10个演员和他们出演的电影数,他们是:
梅尔·布兰科(Mel Blanc)(759),汤姆·拜伦(Tom Byron)(679),马克·华莱士(Marc Wallice)(535),罗恩·杰里米(Ron Jeremy)(500),彼得·诺斯(Peter North)(491),T.T.Boy(449),汤姆·伦敦(Tom London)(436),兰迪·韦斯特(Randy West)(425),迈克·霍纳(Mike Horner)(418)和乔伊·席尔维拉(Joey Silvera)(410)。
我敢打赌,诸位对这些名字大多不熟悉,就像我们第一次看到这些名字时一样,对他们感到很陌生。好吧,你可能知道梅尔·布兰科,他是很多著名动漫卡通人物的配音演员,像兔八哥(Bugs Bunny)、伍迪啄木鸟(Woody Woodpecker)、达菲鸭(Daffy Duck)、波奇猪(Porky Pig)、翠迪(Tweety Pie)和傻大猫(Sylvester)。年过五十的读者可能知道汤姆·拜伦,当年他是最高产的西部片演员,饰演过州长、农场主等多个角色。但是,对这个高产表单上的其他演员,我们一点都不熟悉。最终,经过一番研究之后,我们弄清楚了他们的底细,他们都是三级片影星。
这个演员列表非常生动地说明了:就网络而言,“多少”并不总是最关键的。尽管那些三级片影星出演的电影数很多,但他们却不是好莱坞的中心。由于网络存在聚团现象,那些只和自己所属圈子中其他节点相连的节点,可能会在那个小圈子中处于中心。但是,由于和外界没有连接,他们和其他圈子里的节点之间的距离相当远。因此,对于那些仅出演过三级片,仅与三级片影星有连接的影星而言,很难将他们与马丁·斯科塞斯(Martin Scorsese)和安德烈·塔尔科夫斯基(AndreyTarkovsky)的影片联系起来。他们处于完全不同的世界。网络的真正中心位置属于那些在多个大圈子里都有位置的节点。
对于演员网络而言,枢纽节点是那些在职业生涯中出演过多种类型影片的演员。对于万维网而言,枢纽节点是那些不仅链接到现代艺术,而且链接到人们关心的几乎所有领域的网页。对于人类社会而言,枢纽节点是那些与多个领域和社会阶层的人都有交往的人。对于数学界而言,枢纽节点是那些“埃尔德什”,他们不局限于某一个特定的领域,而是涉及科学的很多子领域。这些枢纽节点是网络中的列奥纳·达·芬奇——既是艺术家又是科学家。
当然,贝肯是好莱坞的著名演员,他出演过46部电影,与1800多个演员合作过。他和好莱坞其他人的平均分隔数是2.79,也就是说,大多数演员与贝肯的距离不超过三个链接。这就是为什么有些人能将贝肯游戏玩得很好,能够轻易将其他演员和贝肯联系起来。但是,贝肯是连接度最好的演员吗?在郑浩雄准备连接度最好的1000个演员的列表时,在这些好莱坞真正的枢纽节点中,我们花了一段时间才找到贝肯。
我们看到,罗德·斯泰格尔(Rod Steigerin)处于第一位,他和所有其他演员的平均分隔数是2.53。排在第二名的唐纳德·普莱森斯(Donald Pleasence)的平均分隔数是2.54。紧随其后的四个演员马丁·希恩(Martin Sheen)、克里斯托弗·李(Christopher Lee)、罗伯特·米彻姆和查尔顿·赫斯顿(Charlton Heston)的平均分隔数都小于2.57。在翻过几十页、看过数百个名字之后,我们终于在表单的底部找到了贝肯,他仅排在第876名。
那为什么我们玩的这个游戏要围绕“凯文·贝肯”进行呢?实际上,贝肯的出名只是一个历史偶然,源于《斯图尔特秀》在观众中的流行。实际上,每个演员都能和大多数其他演员通过三个链接相连,贝肯绝不是特例,也绝不是好莱坞的中心。实际上,他不仅距离宇宙中心很远,距离好莱坞的中心也很远。
枢纽节点,复杂互联世界的普适组件
随机宇宙中没有连接者。在格拉德威尔的400人社会抽样中,每个人的平均链接数为39,如果社会是随机的,那么,最擅长交际者认识的人数也应该远小于观测到的118。如果万维网是随机网络,万维网中存在一个有500个导入链接的网页的可能性是10-99,实际上就是零。这意味着,随机连接的万维网中是不可能出现枢纽节点的。然而,最近对覆盖整个万维网五分之一的万维网进行的调查中,导入链接超过500的网页有400个,其中一个网页甚至拥有超过200万个导入链接。在随机网络中找到这样节点的概率,比在宇宙中找到某个特定原子的概率还要小。如果好莱坞演员网络是随机网络,罗德·斯泰格尔这样的节点根本不会存在,因为拥有如此高连接度演员的概率约为10-120,为这样小的概率找一个合适的比喻都非常困难。正是这些小得令人难以置信的数字,让我们在研究真实网络的结构时感到非常惊讶:万维网或好莱坞演员网络中居然能够看到枢纽节点。这样的节点在埃尔德什-莱利模型和瓦茨-斯托加茨模型中是不可能出现的。我们对此毫无准备,只能说,枢纽节点的存在太不可思议了。
万维网中存在少数枢纽节点,它们拥有万维网中的绝大多数链接,这一发现激发了人们在许多其他领域中寻找枢纽节点的探索。结果令人十分惊讶,我们发现好莱坞、万维网和人类社会绝不是特例,枢纽节点在很多真实网络中都出现了。例如,细胞中的枢纽节点浮现在由化学反应连接起来的分子网络中,水、氨基酸这样的分子就是细胞中的罗德·斯泰格尔,它们参与非常多的化学反应。在连接全世界计算机的互联网中,少数枢纽节点在保证互联网可靠性方面扮演着重要作用。埃尔德什是数学界的枢纽,有507个数学家的埃尔德什数是1。根据美国电话电报公司的研究,有一些电话号码拨出或接听的电话非常之多,它们是电信公司或客户服务的号码。科学家能够研究的大多数复杂网络中都存在枢纽节点。枢纽节点无处不在,是复杂互联世界中的普适组件。
重新思考网络
最近,枢纽节点受到了非常多的关注。伊曼纽尔·罗森(Emanuel Rosen)在他的著作《营销全凭一张嘴》(The Anatomy of Buzz)中对连接者的作用大加渲染,他用了好几个章节对社会中的枢纽节点进行分类,并研究它们在消息传播和宣传中的作用。每四年,联邦政府会造就一个新的社会枢纽节点——美国总统。事实上,富兰克林·德拉诺·罗斯福的预约簿中有大约22000个名字,这使他成为他那个时代最大的枢纽节点。最近,三个杰出的生物学家在权威学术期刊《自然》中指出,蛋白质p53在分子中扮演着类似枢纽节点的角色,是人们认识许多分子级癌症病理的关键。生态学家认为,食物链网络中的枢纽节点是生态系统中的里程碑物种,这些物种在维系生态系统稳定性方面发挥着重要作用。
链接洞察
枢纽节点确实值得广泛关注。在存在枢纽节点的网络中,网络的结构由枢纽节点支配,从而使网络呈现出小世界特性。实际上,枢纽节点和非常多的节点有链接,从而在系统中的任意两个节点之间建立了捷径。因此,尽管地球上随机选择的两个人之间的平均分隔数是6,但某个人和连接者之间的距离却常常只有1或2。类似地,尽管万维网上任意两个网页的平均距离是19,但从大多数网页出发到达雅虎这样的枢纽节点却只需两三次点击。从枢纽节点的角度来看,世界确实非常小。
数十年来,受埃尔德什和莱利的影响,人们一直认为网络是随机的。最近,随机网络受到多方质疑。瓦茨和斯托加茨的模型为聚团现象提供了一个简单解释,使得随机网络和聚团现象在同一个屋檐下得以共存。但是,枢纽节点再一次向现状提出挑战。到目前为止,我们提到的两个模型都不能解释枢纽节点的出现。因此,枢纽节点迫使我们重新思考我们关于网络的知识,迫使我们提出下面三个根本问题:枢纽节点是如何出现的?网络中有多少枢纽节点?为什么以前的模型都不能解释枢纽节点的存在?
在过去的两年里,我们已经回答了这些问题中的大部分。实际上,我们已经发现枢纽节点不是我们这个相互联系的宇宙中的偶然现象。相反,枢纽节点服从严格的数学规律,枢纽节点的无处不在促使我们对网络进行全新的思考。揭示和解释这些规律就像坐过山车一样令人着迷,我们从中学到了很多关于复杂互联世界的知识,比我们过去数百年积累的还要多。