以牙还牙
以牙还牙
20世纪80年代初,密歇根大学政治科学家罗伯特•阿克谢罗德(Robert Axelrod)邀请了世界各地的博弈论学者以电脑程序形式提交他们的囚徒困境博弈策略。这些程序两两结对,反复进行150次囚徒困境博弈。参赛者按照最后总得分排定名次。
冠军是多伦多大学的数学教授阿纳托•拉普波特(Anatol Rapoport)。他的取胜策略就是以牙还牙。阿克谢罗德对此感到很惊奇。他又举办了一次比赛,这次有更多的学者参赛。拉普波特再次提交了以牙还牙策略,并再次赢得了比赛。
以牙还牙是“以眼还眼”行为法则的一种变形:人家怎么对你,你也怎么对他。说得更准确点,这个策略在开局时选择合作,以后则模仿对手在上一期的行动。
在《旧约•出埃及记》(Exodus,21:22)中,我们看见,“人若彼此争斗,伤害有孕的妇人,甚至坠胎,随后却无别害,那伤害她的,总要按妇人的丈夫所要的,照审判官所断的,受罚。若有别害,就要以命偿命,以眼还眼,以牙还牙,以手还手,以脚还脚,以烙还烙,以伤还伤,以打还打。”《新约》则提倡更具合作精神的行为。在《新约•马太福音》(Matthew,5:38)中,我们读到,“你们听见有话说:‘以眼还眼,以牙还牙。’只是我告诉你们,不要与恶人作对。有人打你的右脸,连左脸也转过来由他打”。我们从“以其人之道,还治其人之身”转到“你们愿意人怎样待你们,你们也要怎样待人”(《新约•路加福音》,Luke,6:31)的金科玉律。假如人们当真遵守这一金科玉律,也就不会存在什么囚徒困境了。此外,只要我们看得更深远一些,不难发现,虽然合作可能在某一特定博弈中降低你的赢利,但是以后可能带来的回报却足以使一个自私的人相信,合作应该算是一个理性策略。你认为不存在以后吗?帕斯卡尔的赌博说明了,在此假设基础上行动的后果可能相当惨烈,所以这就是冒险的原因。
因为每个失败者都必须和一个胜利者组对,所以结果一定是某个参赛者的胜利的次数大于失败的次数,不然就是失败的次数大于胜利的次数。(唯一的例外就是每个单场比赛都打成平局。)阿克谢罗德认为,以牙还牙法则体现了任何一个有效策略应该符合的四个原则:清晰、善意、报复性和宽容性。再也没有什么字眼会比“以牙还牙”更加清晰、简单。这一法则不会引发欺骗,所以是善意的。它也是报复性的——也就是说,它永远不会让欺骗者逍遥法外。它还是宽容的,因为它不会长期怀恨在心,而愿意恢复合作。
以牙还牙一个非常引人注目的特征在于,它在整个比赛中取得了突出的成绩,虽然它实际上并没有(也不能)在一场正面较量中击败任何一个对手。其最好的结果是跟对手打成平手。因此,假如当初阿克谢罗德是按照“赢者通吃”的原则打分,以牙还牙的策略只可能失败或是打成平手,而不可能取得最后的胜利。
不过,阿克谢罗德并没有按照“赢者通吃”的原则给结对比赛的选手打分,只有比赛结束才算数。以牙还牙策略的一大优点在于它总是可以将比赛引向结束。以牙还牙最坏的结果是,以遭到一次背叛重击而告终,也就是说,它让对手占了一次便宜,此后双方打成平局。
以牙还牙策略之所以能赢得这次锦标赛,是因为它通常都会竭尽全力促成合作,同时避免互相背叛。其他参赛者则要么太轻信别人,一点也不会防范背叛,要么太咄咄逼人,一心要把对方踢出局。
不过,尽管如此,我们仍然认为以牙还牙策略是一个有缺陷的策略。只要存在一丁点儿出现错误或误解的可能性,以牙还牙策略的胜利就会土崩瓦解。这个缺陷在人工设计的电脑锦标赛中并不可能,因为此种情况下根本不会出现错误和误解。但是,一旦将以牙还牙策略用于解决现实世界的问题,错误和误解就难以避免,结局就可能是灾难性的。
以牙还牙策略的问题在于,任何一个错误都会犹如“回声”一般反复出现。一方对另一方的背叛行为进行惩罚,从而引发连锁反应。对手受到惩罚之后,不甘示弱,进行反击。这一反击又招致第二次惩罚。无论什么时候,这一策略都不会只接受惩罚而不做任何反击。
举个例子:假设弗勒德和德雷希尔都采取以牙还牙策略。没有人先发起背叛,一段时间内,一切都顺利进行。然后,到了第11轮,假设弗勒德错误选择了背叛,或者选择了合作但德雷希尔却误以为他选择了背叛,不论是哪种情况,德雷希尔在第12轮都会选择背叛,而弗勒德却会选择合作,因为德雷希尔在第11轮中选择了合作。到了第13轮,角色就会转换过来。这种一方合作而另一方背叛的模式会继续反复进行下去,直到又一个错误或误解的出现恢复了合作或导致双双背叛。
在西弗吉尼亚与肯塔基的交界处,哈特菲尔德家族(Hatfields)与麦科伊家族(McCoys)家族的长期争斗可谓令人难忘。而在虚构世界中,马克•吐温笔下的格兰杰福特家族与谢泼德森家族的世代仇恨,为我们提供了另外一个生动的例子,说明以牙还牙的行动是怎样导致循环报复的。当赫克•芬恩试图了解格兰杰福特家族与谢泼德森家族世仇的源头究竟是什么时,他却遇到了“鸡生蛋还是蛋生鸡”的难题:“这究竟是为了什么,巴克?——为了土地吗?”
“我估计是——我不知道。”
“那么,究竟是谁开的枪呢?是格兰杰福特家的人还是谢泼德森家的人?”
“天哪,我怎么会知道?那是多久以前的事啊。”
“有没有人知道呢?”
“噢,有的,老爸知道,我估计,还有其他一些老头子,不过现在他们也不晓得当初究竟发生了什么事。”以牙还牙策略缺少的是一个宣布“到此为止”的方法。它实在太容易被激发起来了,而且不会轻易地宽恕。确实,后来的阿克谢罗德比赛的版本考虑了错误和误解的可能性,结果表明,其他那些更宽宏大量的策略优于以牙还牙策略。
2004年,诺丁汉大学的格雷厄姆•肯德尔(Graham Kendall)为了庆祝阿克谢罗德首届比赛的20周年,举行了一次比赛。“胜出”者是来自英格兰南安普敦大学的小组。南安普敦小组总共推荐了60个参赛者,包括59只“雄蜂”、1只“蜂后”。他们所有的参赛者都以独特的模式开始,这样他们就可以辨认出彼此。接着,雄蜂们牺牲了自己,以便让蜂后得到好的结果。蜂后也拒绝了与任何对手合作,以降低对手们的得分。虽然让一群雄蜂为了你的利益而牺牲自己是增加你的赢利的一种方法,但它并没有教给我们许多关于如何进行一个囚徒困境博弈的知识。在这里,我们甚至可以从猴子那里学到一些东西。棉头狷猴被置于一个博弈中,每只猴子都有机会拉动一个杠杆,给另一只猴子喂食。但是拉动杠杆需要力气。对每只猴子而言,最理想的策略就是自己偷懒,而它的搭档拉杠杆。但是为了避免遭到报复,猴子们学会了合作。只要一个参与者不连续背叛两次以上,棉头狷猴的合作就会一直持续下去,这种策略类似于以牙还牙策略。9