第三章
    棒球比赛预测:球探和数据怪才,谁更胜一筹?

    刚从纽约回来的红袜队士气非常低落,连输 3 场对阵劲敌洋基队的周末赛,使得红袜队与 2009 年美国棒球联盟东区冠军彻底无缘了。常规赛只剩 7 场了,红袜队似乎就要成为美国棒球大联盟季后赛的外卡队,而这样的季后赛绝不是主办方所期待的。有统计研究表明,球队常规赛的表现并不影响其季后赛的发挥,但 2009 年红袜队似乎已经放弃希望了。

    在芬威球场,我准备采访红袜队的明星二垒手达斯汀·佩德罗亚。佩德罗亚是 2006 年以来我最喜爱的球员之一,2006 年我为年刊《棒球规程》创建的预测系统 PECOTA 也预测他将成为最佳棒球运动员之一。但这一预测结果却与球探的观点截然相反,他们认为佩德罗亚天资不足,身高欠缺,挥棒姿势怪异,只能当个替补球员。然而,在 2006 年最具发展前景的棒球运动员名单中,PECOTA 预测系统却将佩德罗亚排在第 4 位,而向来注重球探观点的出版物《美国棒球》则将他排在第 77 位。其实,关于佩德罗亚的报道中,这种褒少贬多的说法屡见不鲜。娱乐与体育节目电视网的基斯·劳早在佩德罗亚的新秀赛时就说过他没什么发展前途了。

    “达斯汀·佩德罗亚毫无实力可言,击球欠缺速度和力量,在顶级联赛中,也不能连续击投球。如果他的击球率能达到 0.260,还是有些价值的。但他总是连滚带爬地跑到三垒或游击手那里,如果能改掉这个缺点,成为一名内场替补球员还是有希望的。”

    2007 年 5 月 12 日,基斯·劳发表了上述评论。那天,佩德罗亚的击球率只有 0.247,只完成了一次本垒打。说真的,当时我对他也开始失去信心了,我看了他大部分“安打”的比赛,佩德罗亚表现出一脸败相。

    但是,佩德罗亚仿佛想证明那些怀疑他的人是错的,他开始发狠地击球,期盼迎来逆转。接下来的 15 场比赛中,他的击球率达到惊人的 0.472,使他的平均击球率从 4 月低谷时的 0.158 一路升至 0.336。

    2007 年 7 月,也就是基斯·劳做出那番评论的两个月之后,佩德罗亚入选美国联盟全明星队。10 月,他帮助红袜队赢得有史以来第二个世界职业棒球大赛冠军(上一次是在 1918 年)。11 月,他被评为“年度最佳新秀”。在随后的一个赛季,24 岁的佩德罗亚获选“最有价值球员”,一举成为美国棒球联盟中表现最全面的球员。佩德罗亚告别内场替补,成为今日巨星,而那些球探当日却严重地低估了这位棒球天才。

    之所以到芬威球场来,是因为我想了解究竟是什么让佩德罗亚实现了逆转。我准备了一堆问题,也获得了红袜队的采访许可,可以进行场地采访。但我知道这并非易事,因为联盟球场是球员心中的圣地,在此地采访并不适合,且红袜队又刚输了周末赛,队内气氛乖戾紧张。

    我在那里看着佩德罗亚进行场内练习,他接住大块头三垒手凯文·尤基里斯的投球,转投给新的一垒手凯西·柯奇曼。他显得与众不同,动作认真到位,而尤基里斯则略显笨拙,柯奇曼似乎还在走神。佩德罗亚与队友的主要不同之处在于态度,队友走神时,佩德罗亚会愤怒地将球摔出场地,恼怒地看着他们。

    15 分钟训练过后,红袜队出发到当晚的对手多伦多蓝鸟队的主场。我站在离红袜队的休息棚一两米远的一垒位置旁边,佩德罗亚从我身边走过,正如那些球探所说,他的确不算高,按照官方公布的数据,他身高为 1.75 米(5 英尺 9 英寸),相当于把我的身高四舍五入之后的高度,但我好歹还比他高出两英寸。球探们说他不像一个运动员也没错,刚刚 25 岁就秃顶,头顶的头发和下巴上的胡须一样多,腰间赘肉堆积,还有小肚腩。如果你在街上遇见他,很可能会把他当作音像店的店员。

    佩德罗亚转身走进休息棚,独自坐在那儿。这似乎是一个采访的好时机,我鼓起勇气走上前去。

    “嘿,佩德罗亚,有空吗?”

    他狐疑地盯着我看了几秒钟,然后用一种极尽优越的口吻,一字一句强调道:“不,我没空。我正在努力备战棒–球–大–联–盟–比–赛!”

    于是,尴尬的我只能在球场边转悠,努力在前往记者席看比赛之前重拾自己的尊严。

    第二天,采访许可到期之后,我回到纽约,委派从前的同事(《棒球规程》的资深记者)戴维·劳里拉前去打探,希望他能获得一些有价值的信息。但是,这次佩德罗亚的话仍不多,回答也是尽可能地平淡无奇。他告诉劳里拉:“你知道吗,我根本不在乎数字和统计数据,我只在乎输赢,其他的东西对我来说都无所谓。”

    佩德罗亚曾经偏离政党路线,因此惹了一身麻烦,之后他就学会了用这种说话方式来应对各种提问。比如那次,他称自己的家乡加利福尼亚伍德兰是一个垃圾场,还告诉《波士顿杂志》,“你可以说这句话出自我,事实上也是如此,我从不撒谎。”

    佩德罗亚确实从不说谎。我想,也许正是因为持有这种态度,他才能够承受得起“球探”的质疑,最终成为大联盟中的一员。

    构建棒球比赛的预测系统

    从记事起,我就是一个棒球迷,也是一个棒球数据迷。6 岁时,我家乡底特律的老虎队赢得了 1984 年的世界棒球联赛,作为一个数学小神童,当时我对比赛的各种数字特别着迷。7 岁时我第一次买棒球卡片,10 岁时第一次读《埃利亚斯棒球分析师》,12 岁时有了自己的统计数据。(令人难以置信的是,那个数据竟然预测到默默无闻的红袜队场内球员提姆·尼尔林将成为最佳球员之一。)

    直到 2002 年,我对棒球和棒球数据的兴趣才达到最高点。迈克尔·刘易斯当时正忙着写《点球成金》,书中记录了奥克兰竞技队及其总经理、统计奇才比利·比恩崛起的故事,该书很快畅销全美。25 年前,比尔·詹姆斯出版了《比尔·詹姆斯棒球摘要》(下文简称为《摘要》),开创了棒球数据统计分析时代,随后他被聘为红袜队的顾问。所有这些都让我发现,沉迷棒球数据似乎不再只是一个小小的爱好,它为我寻觅新工作提供了一个新思路。

    大学毕业之后两年,我一直在芝加哥的毕马威会计师事务所担任转让定价顾问。工作不错,薪水不薄,老板和同事做事专业、待人友善,生活还算安逸。

    平时,我要么指导某公司的马来西亚移动电话分部如何定价,以便降低税金,要么赶早上 6 点的飞机到圣路易斯为一家煤矿公司的合同估价,但这份工作并不是我想要的充满刺激的工作。当时我 24 岁,不愿意安于现状,对我而言,这份工作平淡无奇、按部就班、了无生趣,让我觉得生活乏味至极。但这份工作有一个好处,那就是我有很多空闲的时间可用。于是,闲来无事,我就开始创建各式各样的电子表格以记录庞大的棒球统计数据,这后来便成了 PECOTA 预测系统的雏形。

    读大学时,我就开始看年刊《棒球规程》。这本刊物是加里·赫卡贝于 1996 年创办的。一头红发的赫卡贝热情奔放,嘴不饶人。他先是从早期互联网新闻组中招募了一批写手,后来成了体育运动数据分析行业的领军人物。加里·赫卡贝很早就嗅出了商机:1988 年比尔·詹姆斯停止了《摘要》的出版,而那些试图取代《摘要》的出版物不是品质不好,就是在 1994~1995 年棒球罢赛期间停刊了。于是,他在 1996 年创办了《棒球规程》刊物。第一本刊物问世时,是由激光打印机一次一本印出来的,还意外漏掉了圣路易斯红雀队的内容,最终《棒球规程》只售出了 75 本。但之后这本刊物销量逐年倍增,成了热门刊物。

    《棒球规程》是统计怪才的快乐源泉。数据海洋里不仅有大联盟球员的数据,还有小联盟中表现出顶级水平的球员的数据。刊物虽然有时只适合圈内人士传看,但文风犀利,常引用《辛普森一家》或是 20 世纪 80 年代情色电影里的隐晦笑话,还常对不受欢迎的联盟经理冷嘲热讽,读来颇为有趣。

    当然,刊物中最重要的内容还是对每位球员下个赛季表现的预测,预测依据的是赫卡贝创建的“弗拉迪米尔”预测系统。这一系统似乎是继詹姆斯开创的棒球预测革命之后的又一个里程碑。

    一个好的棒球预测系统必须可以完成 3 项基本任务:

    1. 考虑影响球员表现的外在因素。
    2. 区别看待技术和运气因素。
    3. 熟知老化曲线,了解球员的表现是如何随着年龄增长而发生变化的。

    任务 1 相对简单。在美国主要的运动项目中,棒球很独特,比赛场地没有标准尺寸。道奇体育场如血管般错综复杂,外围是壕沟般的停车场,相比之下,芬威球场则如缩略版的新英格兰网格街道,整齐、舒适,球员在此更容易获得较高的击球率。通过观察球员在主客场的表现,我们就可以用“球场因素”来解释球员所面临的困难的程度。(比如说,在弗莱德·林恩——20 世纪 70 年代红袜队的“最有价值球员”——的职业生涯中,他在芬威球场时击球率达 0.374,但在其他体育场击球率只有 0.264。)同样的,通过观察从国家联盟转会到美国联盟的那些球员的表现,就能分辨出哪个联盟更好,也能看出一个球员的竞争实力。

    全世界最丰富的统计数据库

    任务 2——区别看待技术和运气因素——就不是那么轻松了。在短期内,运气常会主导棒球比赛:即使最好的球队也会输掉 1/3 的比赛,即使最好的击球手安全上垒的概率也只有 2/5。有时候,运气因素甚至会掩盖一个队员的真实技术水平长达一年之久。某一个赛季中,一个击球手的真实击球率为 0.275,受运气因素影响,这个球手的击球率有 10%的概率出现浮动,时而升至 0.300,时而降到 0.250。

    设计完善的预测系统能够辨识出那些容易受运气影响的数据,比如,平均击球数就比本垒打数善变。投手的表现也是出了名的不稳定,所以数据整理对预测投手的表现至关重要。若想预测一位投手的输赢,参考他取得的三振出局数以及保送数目,要比翻阅他前一赛季的输赢纪录更有价值,因为从每年的情况来看,前一类数据要更稳定些。

    像所有预测一样,对棒球比赛进行预测是为找出决定输赢的根本原因:将击球手三振出局就能阻止对手安全上垒,从而阻止对手得分,进而阻止他们赢得比赛,所以三振出局数更为关键。然而,预测这回事,越往下探究,就会遇到越多的噪声干扰:投手的输赢纪录受自己发挥的影响,也受制于对手得分的多少,而后者是他无法左右的。西雅图水手队的明星投手菲利克斯·埃尔南德斯在 2009 年和 2010 年的投球表现都很不错,但输赢纪录却有很大差距,分别是 19∶5 和 13∶12,因为 2010 年水手队的击球手水平极差,给了对手很多机会。

    此类事例的出现绝非偶然,只要用心整理数据,就会发现端倪。棒球比赛为我们提供的数据也许是全世界最丰富的:过去的 140 年里,在大联盟球场上发生的每一件事都被忠实、准确地记录下来,而且每年还有数百位棒球手在很多较大的联盟中打球。另外,尽管棒球是团队运动,却是以高度有序的方式进行的:投球手轮流投球,击球手按序击球,这样每人都有各自的统计数据。复杂的、非线性的统计问题很少出现,因果关系很容易理顺。

    这使得棒球预测者的工作变得十分轻松。(在这项运动中,)一个假设通常可以根据经验进行检验,利用精确度比较高的统计数据来证实或者证伪。而对于经济预测或政治预测来说,可用的数据就少很多——美国总统大选每 4 年才举行一次,不是每年都能产生几百个数据点——缺少数据,预测往往更易误入歧途。

    老化曲线与相似分数

    前述观点都是建立在一项假设的基础上的,即球员的技术水平一直保持稳定,年复一年,不会改变。其实不然。只要能将信号与噪声区分开来,我们就能获得所需的任何信息。事实上,每位棒球队员的技术水平都处于一种不断变化的状态,预测的挑战也正在于此。

    研究过数千名球员的统计数据之后,詹姆斯发现,在二十八九岁之前,大多数球员的技术水平都会持续提高,但之后通常会开始走下坡路,三十五六岁时尤其严重。詹姆斯由此得出他最重大的发现:老化曲线。

    奥运会体操运动员的运动巅峰期是十几岁,诗人的黄金时代是二十几岁,国际象棋选手的最佳比赛年龄是三十几岁,应用经济学家在四十几岁时成就辉煌,财富 500 强首席执行官的平均年龄为 55 岁。詹姆斯发现,一个棒球运动员状态最好的年龄是 27 岁。1985~2009 年间,获得“最有价值球员”称号的运动员共有 50 位,其中 30 人获此殊荣的年龄是在 25~29 岁,更有 10 人的年龄刚好是 27 岁。这个年龄是体能和脑力完美结合的最佳阶段,可以让棒球运动员发挥出最高水平。

    第三章 棒球比赛预测:球探和数据怪才,谁更胜一筹? - 图1

    图 3–1 击球手的老化曲线

    读过詹姆斯的著作的球队都能从“老化曲线”中受益良多。棒球合同规定,球员必须打满 6 个大联盟赛季方可成为自由球员,到那时已处于其职业生涯的后期了。(在此之前,所在俱乐部享有对他们的绝对支配权,而且他们的要价要低于市场价格。)通常,一个新晋球员会在二十三四岁时加入大联盟,直到 30 岁时他才可能成为自由球员——那时他的巅峰表现期已过,运动生涯开始黯然失色。球队为这些自由球员支付大量的保险费用,指望他们可以在 30 岁时复制二十几岁时的辉煌,而事实上球员的技术水平已不复当年,但大棒球联盟合约规定必须支付这笔费用,球队也没有办法。

    詹姆斯的“老化曲线”并非没有缺陷,表现为其走势过于平缓。诚然,一般球员会在 27 岁达到巅峰状态。但只要是付过会费的人盯着棒球卡背面研究一会儿都会发现,不同球员的老化速度是不一样的。比如,20 世纪 80 年代亚特兰大勇士队的三垒手鲍勃·霍纳获得年度最佳新秀奖时只有 20 岁,24 岁时就入选全明星队了。如果根据当时通用的假设预测,鲍勃进入名人堂就是板上钉钉的事。但 30 岁时他却因伤停赛了,之后又草率地加入日本大联盟的“养乐多燕子棒球队”,彻底结束了他的顶级职业棒球生涯。再如,来自西雅图水手队的伟大球员埃德加·马丁内斯直到 27 岁才在大联盟中有了一份稳定的工作,大器晚成的他在 30 多岁时才迎来了职业生涯的巅峰时期,40 岁时击球数还排在联盟的领先位置。

    尽管鲍勃和马丁内斯的例子有些不合常规,但确实很少有球员如那条老化曲线般平缓发展,高峰低谷间断交错的形式反而更为常见。也就是说,真实的老化曲线充满噪声,而且噪声非常大(见图 3–2),不会那样平缓。平均值就像“每个家庭拥有 1.7 个孩子”这样的说法,不过是一个统计学的抽象概念。按加里·赫卡贝的推论来看,也许詹姆斯的老化曲线没能传递出噪声中的某些信号。也许像游击手这样处于对体能要求比较高的位置的球员,其技术水平的衰退速度要比打右外场的球员快。也许那些颇具运动天赋的全能型球员的职业生涯会比那些只有一两个强项的球员要长。

    赫卡贝的系统则假定存在 26 条明显的老化曲线,每一条都适用于不同类型的球员。如果他的假设是正确的,你就能评判出哪条曲线适合哪个球员,并以此预测出该球员职业生涯的走势。如果一个球员符合鲍勃·霍纳的老化曲线,那就预示着他会少年得志,但衰退期也会早早到来;如果一个球员符合马丁内斯的老化曲线,那就预示着他将大器晚成。

    第三章 棒球比赛预测:球探和数据怪才,谁更胜一筹? - 图2

    图 3–2 不同击球手的带有噪声的老化曲线

    在赫卡贝的“弗拉迪米尔”预测系统中,每个球员对应着不同的曲线;而在詹姆斯创建的平缓的预测系统中,所有球员都对应着同一条曲线。尽管如此,从赫卡贝发布的一些预测结果看,“弗拉迪米尔”系统的预测准确度比詹姆斯的老化曲线高不了多少。预测准确率不高,在一定程度上是因为赫卡贝设定的 26 条曲线没有科学依据,只是随意选定了这个数目。这样一来,为球员匹配曲线就成了一个科学和艺术并重的技术活。

    然而,要将棒球队员的技术水平发挥到较高的程度,一个人一定要对自己的身体技巧和精神技能进行多种多样的排列组合才行:肌肉记忆、体能耐力、手眼协调性、击球速度、投球识别力以及失利时强大的意志力,这些因素都要科学合理地运用。如此看来,“弗拉迪米尔”预测系统关于不同老化曲线的概念貌似更符合人类行为固有的复杂性。在创立 PECOTA 预测系统时,我尽量从詹姆斯和赫卡贝的系统中借鉴了一些元素来完善自己的预测系统。

    在 1986 年的《摘要》中,詹姆斯介绍了“相似分数”的概念。顾名思义,设计者设计了这些分数,用来对任意两名大联盟球员的职业数据的相似性进行评定。这个概念比较简单。评定人员首先将两名球员分为一组,每组赋值 1 000 分,每发现两人之间的一次不同则扣若干分。结果,高相似度的组可得到 950 分甚至 975 分,但低相似度组的组员间的差异会迅速增大。

    略懂棒球历史的人都会发现相似分数的方法很得人心,评定人员并没有一门心思地只顾研究球员的统计数据,而是提供了一定的历史背景。例如,佩德罗亚在 25 岁时的数据与历史上的很多球员相似,比如 20 世纪 70 年代统帅明尼苏达双城队的队长、一个伟大的巴拿马人罗德·卡鲁,以及大萧条时期老虎队的明星查利·格林格。

    詹姆斯主要是想用相似分数进行反向检测,比如分析一个球员是否有资格入选名人堂。如果想论证你最喜爱的球员是否够资格入选库佰斯顿球员名册,就可以借用相似分数。若通过观察你会发现已经入选的球员中有 9/10 的人的数据和他的相似,你就得到了一个非常有力的论据。

    相似分数也可以用于预测吗?假设我们能够确定有 100 名球员某一个年龄段的数据与佩德罗亚相同年龄段的数据极为相似,那么根据这 100 名球员的职业生涯的整体表现难道不能预示佩德罗亚的职业生涯走势吗?

    为了验证这个想法,2002 年我还在毕马威工作时就开始利用闲暇时间慢慢地推进自己的计划——创立 PECOTA 预测系统的雏形。这一系统是由五花八门、内容丰富的 Excel 电子数据表格构成,而表格正好也是我在毕马威工作时使用的主要工具(所以每次那些老板经过我的座位时,都以为我正在努力为客户建立细致的表格呢)。

    就这样,上班时忙里偷闲每天抽出一两个小时,晚上到家再奋斗几个小时,我最终建成了一个数据库,其中包含 10 000 多个赛季(包含了自第二次世界大战开始后的所有大联盟赛季)以及所有球员的对比演算数据。这一方法充分利用了棒球比赛无与伦比的丰富数据,从某种程度上讲,它比詹姆斯的方法更细致。在对比一组球员时,此法采用最近邻体分析法,另外,考虑的因素外延更广,甚至包括球探经常关心的球员的身高、体重等因素。

    PECOTA 预测系统为不同类型的球员提供了不同的老化曲线,这一点与赫卡贝的系统相似,但 PECOTA 并不局限于 26 种曲线,相反的,它从棒球庞大的数据库中识别出一组数据相似的球员,综合分析后自然生成了这组老化曲线。如果与佩德罗亚数据相似的球员最后都成了大联盟中的优秀队员,这就预示着他成功的概率也比较高。

    但通常,那些拥有相似数据的球员各自又是一个复杂的混合体,其老化曲线也会在某个时间点开始相互偏离。之前提到,依据詹姆斯的相似分数方法,佩德罗亚的数据先是与格林格和卡鲁相似,后两位球员在其漫长的职业生涯中战绩显赫,入选了名人堂。但此后佩德罗亚的数据又与蒙特利尔博览会队实力平平的二垒手乔斯·维德罗极为相似了。

    对小联盟中的球员而言,这种差异更为明显。2009 年,PECOTA 预测系统为亚特兰大勇士队 19 岁的“明日之星”杰森·海沃德识别出的最相似球员,竟包括从名人堂球星到谋杀犯球员。奇珀·琼斯与海沃德的相似度排名第一,这位名人堂球星、前亚特兰大最伟大的球员之一为俱乐部效力 17 个赛季,职业生涯里的平局击球率为 0.304,外加 450 次本垒打。而达奈尔·斯坦森是第二个与海沃德相似的球员,他的结局并不好,本来颇具潜力,却在 2003 年结束了在发展联盟亚利桑那队的球员生涯后,因屡次犯罪而被追捕,后来开着一辆运动型多用途汽车逃亡。

    所有与海沃德相似的球员都是高大的运动全才,在小联盟比赛中展现出高超的技术水平,在选秀中脱颖而出,但是他们的命运却截然不同。而 PECOTA 预测系统的创新点就在于此,它能够告知球员他们可能遇到的各种命运结局,这些结局参考了数据相似的前辈球员,尤其是那些结局最好与最坏的球员,或结局最有可能再次上演的球员。由此可见,若预测对象是人类行为,那结局更是不胜枚举了。

    看到现在,海沃德的命运真可谓跌宕起伏啊。而真实情况是,2009 年海沃德荣获年度小联盟“最佳球员”称号,2010 年他在自己前 30 场大联盟比赛中贡献了 8 个本垒打,完成了自己在勇士队的首秀,还入选了全明星队,这一切都超过了人们的预期。但是,2011 年海沃德在大联盟的第二个赛季却不是那么顺利,击球率只有 0.227。面对海沃德在 2011 年赛季的糟糕表现,完善的预测系统仍会找出一个保持乐观的理由:他还是有潜力的,除了平均击球率之外,主要数据仍然保持了先前的水平,而平均击球率本身就比其他数据更容易受到运气因素的影响。

    但是,你想要了解的关于一个球员的一切,这些数据都能够告诉你吗?10 年前,这个问题可是棒球界最热的话题。

    球探与数据怪才的矛盾冲突

    只要对《点球成金》稍有了解你就会知道,书中讲述了“统计专员”与“球探”这两个敌对阵营之间的冲突与斗争,他们注重不同的范例,采取不同的方法评估球员的表现。(“统计专员”当然是用数据说话,而球探也有自己的“工具”。)

    2003 年,《点球成金》一书出版后,迈克尔·刘易斯的读者们一定不会忽略书中对两个阵营敌对状态的描绘(而这本书本身很可能也加重了两者间的敌意)。同年,我参加了在新奥尔良万豪酒店举行的棒球冬季会议,当时的情形一下把我带回了高中时代。一方是老牌球探,他们就像草地上的老水牛一样悠闲自在,偶尔会坐在酒店吧台旁一边喝着威士忌,一边聊着老掉牙的战时故事,更多的时候是把自己关在宾馆的房间里谈生意。这些人从前都是专业从事棒球运动的,而今多半都已届不惑之年甚至是知天命之年了。他们中很多人以前都是运动员,在球场上为棒球运动奋力打拼,后来逐渐进入领导层负责幕后工作,一路平步青云。另一方则是一群数据怪才:二三十岁的模样,背着电脑包,拿着彩色打印的建议书,不停地在大厅的人群中穿梭,希望可以说服某个投资者为自己提供一个工作岗位。平时这两个阵营的交流并不多,他们都觉得对方自大无知且闭目塞听。

    两方矛盾的根源也许就在于,球探觉得数据怪才威胁到了他们的饭碗。他们认为球探预算正在缩减,不管这是客观事实还是主观感受,他们通常都会以此为依据,说自己的饭碗难保。在一次围绕《点球成金》展开的激烈讨论的圆桌会议上,洛杉矶安那罕天使棒球队的球探总监埃迪·贝克告诉《美国棒球》杂志的记者:“此刻真是剑拔弩张啊。我们的一些老伙计本不该丢掉工作,现在却失业了。也许有财政或是其他因素的影响,但我们都认为其实是一些懂电脑的人抢走了他们的饭碗,对此我感到十分愤怒。”

    我们并不清楚具体有多少支球队削减了球探预算。多伦多蓝鸟队就是其中一支,他们也为此付出了代价,球队在 2002~2005 年球员选秀的结果都不尽如人意。但缩减预算绝不是当时的球队总经理、比恩的弟子 J·P·里恰尔迪一时兴起的冲动做法,而是由于多伦多蓝鸟队的母公司罗杰斯通信公司正受加元贬值的困扰,不得已而为之。

    《点球成金》已经出版 10 年了,球探和数据怪才之间的争斗使他们耗尽了力气。2004 年,红袜队在时隔 86 年之后再次捧得世界联赛冠军,成功的原因在于球队既充分尊重了球探的意见,也对已有数据进行了细致分析,两相结合成为两个阵营和平共处的关键所在。2003 年时还被界定为“球探”阵营的许多球队,如圣路易斯红雀队,此后也越来越多地运用数据分析的方法,这些球队现已成为最具创新精神的棒球队伍。而那些原本就偏好数据的“怪才”队,如奥克兰竞技队,非但没有削减球探预算,反而增加了相关投入。

    2007~2009 年的经济衰退促使球队更频繁地采用数据分析的方法。尽管棒球界算是平稳地度过了经济危机,但仿佛每支球队都突然间变成了“点球成金”的球队,都需要将有限预算的价值发挥到极致。廉价的数据怪才一直都供大于求:从哈佛大学和耶鲁大学毕业的经济与计算机专业的高材生,本可以在投资银行谋一份年薪达 40 万美元的工作,但他们却更愿意搬到坦帕或克利夫兰,日夜不停地工作,拿到的薪水却只有银行薪酬的 1/10。对于球队而言,花 4 万美元聘用一个数据怪才远比投入 4 000 万美元引进一个自由球员更值得,毕竟这位自由球员的技术水平注定会下滑,很快就会表现平平。

    但这并不意味着数据怪才已经大获全胜了,如果说他们已经证明了自己的价值,那么球探同样做到了这一点。

    系统与球探的对决:球探赢了

    PECOTA 是“投手经验比对与优化测试算法”(Pitcher Empirical Comparison and Optimization Test Algorithm)英语单词首字母的缩写,这个冗长名称的缩略词正好是 20 世纪 80 年代堪萨斯城皇家队的内野手比尔·裴克达(Bill Pecota)的名字,那时的他对我钟爱的底特律老虎队而言一直是一个威胁。

    PECOTA 预测系统最初是为预测投手——而非击球手——的表现而设计的。投手的表现极难预测,因此在用 WFG 系统进行过数年实验之后——你肯定能猜出来这个缩略词代表的含义[1]——《棒球规程》最终还是放弃使用它,于是年刊中的预测栏曾一度空白。意识到这是一个商机后,我向赫卡贝推荐了 PECOTA 系统。让我感到有些意外的是,他和《棒球规程》的同事们对这一系统一致认可,他们愿意以股权交换的方式购买 PECOTA 系统,条件是我得再开发一个相似的系统,用于预测击球手的表现。我欣然地接受了这笔交易。于是,第一组 PECOTA 预测结果便发表在 2003 年冬季的《棒球规程》上。

    2003 年赛季结束时我们发现,PECOTA 系统确实比其他商业预测系统的效果要好一些。事实上,2003~2008 年这几年,无论在我们自己还是别人的测试中,PECOTA 系统的预测准确度总是与其他系统相当或高于其他系统,同时还推翻了拉斯韦加斯赌场惯用的台词。一些意外的成功使 PECOTA 名声大振,比如,芝加哥白袜队在 2005 年加冕世界联赛冠军,但 2007 年赛季 PECOTA 却预测该队只能获得 72 场胜利,惨淡结束赛程。这一预测必然招致芝加哥媒体和白袜队决策人员的一片骂声。但是,这个预测结果却惊人地准确:白袜队最终以 72 场胜利、90 场失利的成绩结束该赛季。

    然而,在 2009 年前后,PECOTA 预测系统却被其他系统追上甚至赶超了。正如当年我借鉴詹姆斯和赫卡贝系统的优点一样,其他系统的研发人员也汲取了 PECOTA 系统的长处,并创建出自己的预测系统,而且有些系统非常棒。各个系统都会对大联盟球员的表现进行预测,如果每年都对这些系统的最佳预测结果做个排序,你会发现,那些最棒的预测系统彼此之间的差距不过一两个百分点。

    但我当时之所以创立 PECOTA,还有另外一个目的:对那些像佩德罗亚一样的小联盟球员的表现进行预测,这项任务可能要困难许多。因为当时鲜有预测系统对小联盟进行预测,直到最近才出现类似的系统,所以当时 PECOTA 系统唯一的竞争对手就是球探。

    2006 年,我首次公布了 PECOTA 系统预测出的 100 名最具前景的球员名单,和同时期《美国棒球》刊登的球探所列的名单形成对比。PECOTA 系统依据这些球员入选大联盟后的前 6 个赛季中为球队做出的贡献对他们进行排名。

    2011 年赛季,也是预测结果发布的第 6 个年头,此时的我终于可以打开“时间胶囊”,看看这些预测是否准确。虽然名单中的球员如今都还相当年轻,但他们中谁是明星球员,谁是替补球员,谁已江郎才尽,已经一目了然。

    在最具发展前景的棒球球员名单中,佩德罗亚排在第 4 位,这是 PECOTA 系统的成功案例之一。当然,PECOTA 的成功案例可不止这一桩,该系统当年对伊恩·金德尔的职业前景也很看好,而《美国棒球》并没有把他列入名单。事实上,金德尔自 2006 年以来两次入选全明星队,还成了得克萨斯流浪者队的主攻手之一。PECOTA 系统还看准了麦特·坎普,道奇队的超级明星,2011 年麦特·坎普曾十分遗憾地与棒球“三冠王”失之交臂。PECOTA 系统当年的这个判断也比《美国棒球》高明。

    上面几位也许你还有所耳闻,但你听说过乔尔·古兹曼、唐纳德·莫菲,还有约塞米蒂·佩蒂特这些人吗?若非资深棒球迷,很可能根本不知道这些人。但 PECOTA 系统也将他们列入了那份名单。

    《美国棒球》难免会看走眼:球探们对布兰登·伍德、拉斯汀·米利奇以及马克·罗杰斯的职业前景十分看好,但他们此后的表现不尽如人意。球探们还认定红袜队的明星投手乔恩·李斯特、洛杉矶道奇队的游击手特洛伊·图洛维茨基以及巴尔的摩金莺队的外野手尼克·马卡提斯会有不俗表现,但他们在小联盟时一直表现平平,PECOTA 系统并未将其列入名单。

    现在,我们有充足的数据可以对两个预测系统进行统计学分析。具体来说,我们可以查看每份名单上的球员为自己所在的大联盟球队带来的胜场数,这些胜场数以 WARP(超过替补球员的胜场数)的数据形式呈现,这就意味着要收集每一位球员为整场棒球比赛贡献的价值,包括击球、投球及防守。

    PECOTA 系统所列名单里的球员在 2011 年大联盟赛季贡献的胜场数总计为 546 场(见图 3–3),而《美国棒球》所选球员的贡献更大,胜场数总计为 630 场。尽管球探们的判断有时会出现失误,但他们的工作还是具有非常大的价值的:他们预测的准确度比单纯靠数据分析进行的预测高出 15%。这个差距听起来也许不算大,但带来的收益可不小。每赢得一场胜利,棒球队都愿意向球探支付 400 万美元。这样算来,在过去的 6 个赛季中,那些球探预测名单上多出来的 84 次正确预测,会为他们带来总计达 3.36 亿美元的收益。

    第三章 棒球比赛预测:球探和数据怪才,谁更胜一筹? - 图3

    图 3 系统和《美国棒球》列出位最具前景球员年赛季贡献的胜场数

    球探和数据怪才的偏见

    如果 PECOTA 系统的预测结果能比球探们的预测结果更准确,那自然很好,可我并不期待出现这样的结果。就像我在 PECOTA 预测名单公布后不久所写的那样 :

    这次球探对战数据怪才的戏码引发诸多趣闻,但我并不期待 PECOTA 系统给出的排名能与《美国棒球》的排名同样准确。
    预测系统的工作原料是信息。能够同时将球探的推断和统计信息收入囊中,就意味着你拥有更多原料。单纯依靠数据的预测想要打败依靠综合分析的预测,只有一个途径,那就是综合分析的过程中掺杂了过多偏见,若偏见太强,就会削减掉这种分析手段的优势。

    换句话说,那些球探用的是综合分析的方法,他们得到的信息并不局限于统计数据。球探和 PECOTA 系统都会观察球员的平均击球率和防御率,PECOTA 系统毫无主观偏好,也善于从数据中排除部分噪声,并将这些数据排列好。而球探则可以了解到很多信息,这是 PECOTA 系统做不到的。比如说,球探并非只能依据投手三振出局数推断球员的表现,他们还能够拿出雷达测速仪测定投手投出的快速球的速度,或者用秒表测定他的跑垒时间。

    这一类型的信息更接近我们进行棒球比赛结果预测的根本目标。在美国棒球小联盟中,投手即使投出一个无力快速球也可得分,只要投到好球区,或几种投球混合使用,都可以让不少击球手三振出局,因为大多数击球手实力平平,很容易被战胜。但是在美国棒球大联盟中,击球手甚至能将时速将近 158 公里(98 英里)的快速球击出场外,此时投手只能依靠软抛球谋得胜算。结果是,PECOTA 系统很容易被这些伪正数欺骗,但是球探却能够辨别哪些球员具有大联盟水平,哪些球员还需要修炼。

    当然,任何的人为判断都有可能掺杂个人偏见。就像本书前文中提到的那样,对预测持错误态度的人,常以信息过多为借口提出一个不公正的理论,用来描绘世界应该是什么样的,而不是体现客观事实,故而他们获得的信息越多,情况就越糟。

    也许在前“点球成金”时代,球探们带有更多偏见。他们倾向于从美学的角度评判球员,比如球员的球衣合不合身,而不是看这个球员是否具有天赋。若说近些年来位列《美国棒球》预测名单中的那些球员都有不俗表现,那么 20 世纪 90 年代,该刊力荐的那些球员的表现就平平了,像托德·范·波佩尔、鲁本·里维拉和奥布莱恩·泰勒等球员的职业前景明显被夸大了。

    数据怪才们也有自己的偏见,其中最致命的一个偏见:若某项因素很难量化,那它就被视为无关紧要。例如,在棒球运动中,很长时期内防守质量要比击球率或投球质量更难测量。20 世纪 90 年代中期,比恩率领的奥克兰竞技队忽视防守,常让马特·斯特尔这类庞大笨拙的球员防守外野,而马特·斯特尔是一个天生的击球好手,却总被安排去防守外野。随着防守技术研究的不断推进,奥克兰竞技队无可避免地为其薄弱的防线付出了巨大代价,每个赛季奥克兰竞技队得多输 8~10 场比赛。在这种情况下,不管球队的安打表现多好,都不可能跻身热门球队之列了。比恩从中吸取了教训,最近由他带领的球队防守得都不错。

    在预测美国棒球小联盟球员的表现时,这些盲点带来的失误会造成更大的损失。对于一个颇有成就的美国棒球大联盟球员来说,关键是预测他能否续写辉煌。一个聪明的系统可能会预测,球员的发展走势会上下浮动几个百分点。但如果只是简单地假设这个球员下个赛季的表现与前几个赛季相仿,你也不会错得太离谱。通常情况下,球员日后的实力与现在的表现不会有天壤之别。

    然而,在主要的职业运动中,棒球属于比较特殊的,因为这项运动中包含着极其复杂的小联盟系统。美国橄榄球联盟很少批准小联盟赛事,美国第一大职业篮球赛事的小联盟数量也不多,但在棒球界,每个大联盟下附有 8 个小联盟,共有 240 个小联盟。另外,足球和篮球队员可以从大学甚至高中直接进入职业联赛,变身为球星,这种情况在棒球界却很少见,即使是最有天赋的新秀,也必须在比利斯特、贝克斯菲尔德或宾厄姆顿苦苦地等待进入美国棒球大联盟的机会。

    对这些棒球手的表现进行预测是非常具有挑战性的,因为我们一直在期待这些球员最终能做到他们现在无法做到的事情:参与高水平的赛事,成为大联盟球星。美国棒球大联盟选秀赛非常残酷,就连全美高中时期表现最棒的击球手布莱斯·哈珀,在面对大联盟(选秀)投球时都可能惨遭淘汰。要知道大联盟是勤奋和运气结合的地方,新秀们必须变得更强、更壮、更聪明、更守纪律,才能在大联盟打比赛。假设你来到一所普通高中的课堂上,你应该对那些学生留心地观察几天,然后预测他们当中谁将来会是医生、谁会是律师、谁会是企业家、谁又只能勉强度日。我猜你一定会参考这些学生的成绩和学术能力评估测试分数,再看看谁的人缘更好,但你还必须进行一些大胆的猜测才行。

    很多业余球探(以及所有模仿球探的做法设计出来的数据预测系统)都是这么预测的。尽管一些棒球球员是从大学中选出的,还有很多球员是直接从高中选出的,但球探的“侦察”活动在这些球员十几岁时就开始了。和同龄人一样,这些球员荷尔蒙爆发,经历着青春期的焦虑,身体正在发育,并且需要与酒色的诱惑抗争。如果你把你企业的未来交给这样一群 19 岁的年轻人,你能放心吗?

    生理指标与心理指标

    正如刘易斯在《点球成金》中提到的那样,有些球员拥有惊人的天赋却不自知,比利·比恩就属于这样的球员。1980 年第一轮选秀后,比恩在大联盟只打了 148 场比赛,职业生涯的平均击球率仅为 0.219。但与约翰·桑德斯相比,比恩的球员生涯还算辉煌,至少他还入选过一次名人堂。

    桑德斯现为洛杉矶道奇队的球探,也曾参加过大联盟比赛,确切地说,他只打过一场比赛,就像《梦幻成真》里的“月光先生”葛兰曼博士一样。1965 年 4 月 13 日,在堪萨斯城竞技队对阵底特律老虎队的比赛中,19 岁的桑德斯作为替补跑垒员,在第七局时上场。但桑德斯当时毫无上垒准备:两个击球手突袭成功,他在下一局开始前就被换下场。从那之后,他再也没有参加过美国棒球大联盟比赛。

    桑德斯并非缺乏天赋,他在内布拉斯加州格兰德岛高中读书时一直是位全能体育明星:1963 年在州足球队踢四分卫,1964 年效力于州篮球队,还曾经得过州田径运动会铁饼金牌。棒球可能并不是桑德斯最擅长的运动项目,但是他真的极具天赋,1964 年夏天高中毕业时,他就拿到了奥克兰运动家队职业球员的合约。

    但新秀津贴规则阻碍了桑德斯的发展,断送了他的大好前程。1965 年,当时还没有采用大联盟合约,所有业余选手都是自由球员,球队可以根据球员意愿支付薪酬。为防止经济条件较好的球队笼络天资好的球员,新秀津贴规则提出了一项惩罚措施:每个得到大笔签约津贴的球员必须在大联盟球队打满两个职业赛季。但事实上,他们的实力根本就打不了这样的高水平比赛。

    这项规则实际上是让像桑德斯这样前途光明的球员吃了“杀威棒”。大多数得到大笔新秀津贴的球员只能坐冷板凳,几乎没有机会去打任何大联盟的比赛。在最需要每天都打比赛积累经验的时候,这些年轻的球员却和比赛无缘。球队的支持者和队友也在纳闷,球队为什么花重金雇这些乳臭未干的 19 岁“娃娃”来当球童?所以,这些人也不可能理解和同情那些新的年轻球员的困境。在这种情况下,除了桑迪·考法克斯和哈蒙·吉尔布鲁这样的得到签约津贴的球员能咬牙挺下去并最终入选名人堂,当时很多具有潜力的优秀球员在这样困境中都撑不下去。

    从内布拉斯加州最佳运动员到《棒球百科全书》的一个小脚注,这样高低起伏的人生经历让桑德斯对年轻运动员的心智有着独到见解。一天上午,我通过电话联系到桑德斯,当时他正从北卡罗来纳州开车前往芝加哥观看勇士队的最佳附属队的比赛。

    早在 2003 年新奥尔良冬季会议之际,我就觉得桑德斯会孜孜不倦地为棒球付出一生。(短暂的)运动生涯结束之后,桑德斯还在为棒球运动贡献力量。但桑德斯从未从“球探对战数据怪才”的角度看待棒球运动。

    桑德斯告诉我说:“我喜欢估算,喜欢统计学证据,就连从前使用计算器或其他计算仪器处理数据时都觉得很享受。”他接着还说了一件逸事:“一个球探曾说过,‘伙计们,面对现实吧,每天我们到球场后做的第一件事是什么?是到记者席拿最新的数据’。我们拿的是数据啊!那样做有什么不对吗?可你们就是那样做的。”

    的确,自棒球运动诞生之日起,统计数据就一直是其中的一部分。第一份新闻技术统计数据——其中包括得分、安打数、出局数、助杀数及失误次数——是由亨利·查德威克于 1859 年发表的,而第一个职业联盟直到 12 年后的 1871 年才成立。到了“点球成金”时代,许多争论的焦点不是该不该使用数据,而是该使用哪些数据。比如詹姆斯等分析家多年前就提出,和安打率相比,上垒率和得分的关联更大,但这一观点一直不被业界的传统主义者所认可。

    这样的争论通常涉及那些数据怪才的专业领域,可谓投其所好了。上垒率比平均击球率更有用,投手防御率比他的输赢纪录更能客观体现其水平,这些都是科学事实,就像“地球围绕太阳旋转”一样不容反驳,数据怪才的这些看法自然没有错。对此类争论,数据怪才们只赢不输,这也使得他们有些自鸣得意,忘了自己在别的问题上其实很含糊。

    离美国棒球大联盟越远,统计数据的用处就越小,因为此时你需要做得更多的是对球员的表现进行预测,而不是测量。对于那些级别比较高的小联盟,比如 2A 等级或 3A 等级小联盟,统计数据的预测作用和大联盟的几乎无异。但是级别较低的小联盟数据就没有那么可靠,大学或高中球员的数据的预测力则更弱。

    球探们(预测时)经常会用另外“五大指标”来替代统计数据:击球效力、击球平均数、速度、手臂力量以及防守范围。但这些指标饱受诟病,也确有缺陷。这 5 项指标并未包括送出保送球和避免三振出局这样的垒上规则。虽然这 5 项指标会让人觉得它们同等重要,但实际上,除了游击手和捕手之外,对其余所有位置上的球员而言,击球效力要比手臂力量重要得多。

    “五大指标”之所以饱受批评,还有另外一个原因,那就是仅凭这几个指标获得的信息并不全面。随着一名小联盟球员的球技日渐成熟,他的统计数据应当越来越多地体现出这几项指标——当然,很可能这位球员的水平并没有多少提高。实际上,其中有些指标就是统计数据:“击球平均数”表现为平均击球率,“击球效力”表现为二垒安打数和本垒打数。如果球探告诉你某位球员击球效力得了 70 分(满分 80 分),但这位球员在阿尔图纳弧线棒球队效力时,每年却只贡献 10 个本垒打,那么你觉得球探给出的这份报告可信度高吗?

    作为业界资深人士,桑德斯对过分强调“五大指标”的做法持怀疑态度。他告诉我说:“这些指标也没有多么玄妙,无非是快速奔跑、用力投球之类的技术,其实人人都懂,只是球探可以在第一时间看到这些数据。问题是,这些技术真的可以有效地塑造得分球员吗?那些指标真能转变为可用的技术吗?以击球速度为例,若一个球员击球的速度很快,但他却不相信自己,总是想去做投手,那他的击球速度就成了不可用的技术,也就是说他的击球效力没有转变为可用的技术。”

    桑德斯不太注重这些生理指标,而是更加看重可用的、适用于比赛的技术。桑德斯认为球员的心理指标可以决定其生理转变的程度。心理指标通常比生理指标显露得晚些。桑德斯的妻子是一位特殊教育工作者,在她的指点下,桑德斯作了一项研究。这项研究表明,大多数人在 24 岁之前都处于心理未成年期。对于那些年龄小于 24 岁的球员,如果桑德斯发现其各项心理指标正在发育的话,就会暂缓将其从名单中除名;对于那些年龄大于 24 岁的球员,就要看其球场表现了。有趣的是,24 岁正好是球员在 2A 级小联盟中效力的年龄,此时刚好可以开始根据其统计数据来预测其球场表现。

    桑德斯并没有明确地指出一个球员的心理指标应当包含哪些内容,但是通过我们之间的交流,对于他认为有助于预测大联盟胜率的五大智力和心理能力,我进行了总结。

    赛前准备和职业道德。与其他职业运动不同,棒球队员一周有六七场比赛。足球或篮球队员只要比赛当天进入状态即可,但是棒球队员不行,他们每天都要保持参加职业赛事的状态。这就意味着他们必须进行一定量的科目训练。桑德斯喜欢提前到达球场,因为他总觉得赛前预热(相比比赛过程)更能体现出队员的科目训练效果。例如,前文中提到的那个 9 月的晚上,在芬威球场进行场内练习时,佩德罗亚显然比队友更专注。他在进行常规训练,无法忍受任何干扰,这干扰当然也包括某个不知名的记者试图对他进行采访。

    全神贯注和集中精神。尽管和赛前准备有关,但这一项特指球员在比赛过程中自我控制的习惯。棒球是条件反射型运动,击球手只有 3/10 秒的时间决定是否挥棒击球,内野手在地滚球离垒的瞬间就要做出反应。桑德斯说:“球员若精神不集中,我们也拿他们没辙,但我希望游击手和中场内野手能集中精神应对每次投球。”

    竞争力和自信心。所有职业运动员天生就具有竞争力,这种说法似乎成了公认的道理,所以棒球手在职业生涯早期必须克服自我怀疑和其他心理障碍。前一秒还是高中的风云人物,下一刻却在安纳波利斯到格林斯博罗的大巴车上读着网上有关自己比赛失利的报道,心情立刻跌到谷底,这些都得学着自己调节。每当桑德斯看到一个颇有天赋的球员难以打出成绩时,他总在想:有没有一种成功的欲望能与失败的机制抗衡?对成功的渴望能否足以战胜对失败的恐惧?

    压力管理和自谦。棒球比赛中,即使技术最棒的击球手多数时间也得不到分,每个球员在赛季的某些时段都会进入低谷状态。应对这样的挫败需要差记性和幽默感。桑德斯最喜欢的一个侦察策略,就是观察球员在碰到一场硬战或运气不好的比赛时的反应。“击球手大力挥棒,动作夸张却没打中球,球迷会觉得很滑稽,这时,我喜欢俯身看到他的微笑。这就意味着,接下来一击——嘣!——球飞出 0.12 公里之外。”一旦球员进入美国棒球大联盟,就必须接受球迷和媒体的品头论足,此时这项心理技能就显得更加关键了。

    灵活应变和学习能力。比赛过程中,球员处理突发情况的能力如何?是否听从教练指挥?生活境遇发生改变时如何调节?转会或是被安排到新的位置时该怎么办?要知道,即使是天赋极高的球员,从业余队员到专业队员的转变也绝非一帆风顺,因此,一个出色球员处理问题的手段不能太过僵化。桑德斯评论说:“沿着一条走廊走到拐角,有些人会从容地绕过去,而不是猛烈地拐过去。能玩转比赛的人就是这样的聪明人,他们知道如何克制自己的紧张感。”

    当然,上述几种能力在很多人类活动中都颇为重要。其中一些已经为预测者所用,尤其是桑德斯所说的灵活应变能力:遇到新信息时,你会怎么处理?情况发生改变,证据指向其他方向,此时反应过激或无动于衷都会导致预测失败。

    然而,就竞争的激烈程度而言,几乎没有哪种职业运动能与棒球匹敌。数十万名业余球员,数千名职业球员,只有 750 人能在指定时间加入美国棒球大联盟,而这 750 人中能入选全明星队的则更是少之又少,只有几十人。桑德斯的工作就是寻找那些不轻易言败的明星球员,他自己也像那类球员一样恪尽职守、努力工作,虽已年近古稀,几乎每天都坚持出门工作。

    桑德斯确实为道奇队提供了最具价值的信息,别人提供不了这类信息。

    信息是决定预测成败的关键

    《点球成金》的主人公比利·比恩认为不断地收集信息是成为好球探的秘诀。

    “如何定义好球探?球探可以找到别人找不到的信息。要了解一个人,还要了解这个人的孩子的信息,了解他的家庭信息等。很多信息都得你亲自去找。”他如是说。

    比恩应该清楚,奥克兰竞技队的大多数胜利有赖于该队出色的数据统计能力,但球探对业余选手的甄选工作也为球队的优异成绩做出了重要贡献。21 世纪初载入《点球成金》的该队球星中,米格尔·特哈达、杰森·吉昂比、巴里·奇托、提姆·哈德森、艾瑞克·查韦斯等多数都是由俱乐部签约并培养的。

    比恩告诉我,奥克兰竞技队十分着迷于数据型综合分析,因此该队如今的球探预算比以往都高。如前文所说,棒球球员打满 6 个赛季之后才是自由球员,那时他们至少有 30 岁了,按照比尔·詹姆斯的老化曲线来看,那些俱乐部花在自由球员身上的钱通常无法得到应得的回报,毕竟球员的最佳状态已经基本过去了。但从另一方面看,球员在 30 岁之前还可以为球队做出巨大贡献。而且,在棒球经济学中,比较年轻的球员通常都是低价“买入”的。

    如果和其他行业一样,从盈亏角度看待棒球,这个行业中几乎所有的价值都是由球探甄选和培养球员的过程创造的。如果一支球队的预测系统特别完善,也许该支球队只需支付 1 000 万美元的年薪就能获得一位价值 1 200 万美元的球员。但如果这支球队的球探团队足够出色,也许只需花 40 万美元就能签到那位价值 1 200 万美元的球员。在奥克兰这样的小市场中只能智取。

    所以,奥克兰竞技队从来不会对球探表示不敬,而是非常尊重这些人。比恩还明确表示,球队纳新时一定会考量球员的心理素质。球队仍十分信任缜密的分析,球队在处理收集的信息时,秉持着严谨的作风和纪律,但并不随意排斥某种信息。

    “每个球队赋予客观分析和主观分析的权重都不同。”比恩解释道:“以我们奥克兰队的立场来看,从某种意义上讲,我们只能做出客观判断,不能依靠直觉。若某次直觉判断碰巧是正确的,我猜这只是歪打正着而已。我们的工作职责决定了我们不能乱下决定,然后企盼好运。如果我们在玩 21 点,庄家底牌有一张 4,我们手里有一张 6,遇到 16 点,我们就爆牌了。”

    如前文所述,预测成功的关键是,不应该局限于定量信息,而应该用心权衡信息的适用性。比恩的工作宗旨是尽可能地收集信息,尽可能严谨、专业地分析信息。

    信息越多,你的预测就越准确,如果是这样,那你就是一个十分出色的预测者。若态度不端、习惯不良,那你就会像菲利普·特罗克的政治学者一样,预测得十分糟糕。候选球员 A 的平均击球率为 0.300 外加 20 个本垒打,轮休日出现在“救济厨房”帮忙,球员 B 也有相同的击球率和本垒打个数,但平日里他逛夜店、吸毒品,两位球员的区别尽管很难用数字量化,但是你进行预测时一定会考虑这个区别。

    事实上,很多时候定性信息有可能转变为定量信息。球探实际上是用严格的数据范围来测评球员,每类数据的范围都是 20~80 之间,当然你可以将这种方式归入数据模式中,和球员平均击球率放在一起,看看其价值何在。有些球队,如圣路易斯红雀队,已经开始尝试这一模式了。

    确实,在棒球界,球探模式和统计数据之间、定性信息和定量信息之间的差别已经非常模糊了。例如,投手球路分析系统(Pitch f/x)是一套三维相机系统,如今在大联盟中的每个球场都已经安装了。投球数据折线图不仅可以测量球速——很多年前雷达测速仪就能做到这一点——它还可以测量出球落垒前在垂直方向和水平方向的移动距离。比如,我们现在可以用统计学方法来分析扎克·葛兰基,他是 2009 年大联盟最佳投手,是赛扬奖获得者,是密尔瓦基酿酒人队的队员,他还投出过最漂亮的弧线球。我们还可以用另一种方法来分析,马里亚诺·里维拉的卡特投球果然名不虚传。从传统角度来讲,这些信息都属于球探的考察范围,现在成了预测系统中的变量之一。

    不久的将来,我们也许就能用一套完整的三维成像系统记录球场上发生的一切了。雅各比·艾尔斯布里一跃而起接住头顶飞来的球时,我们可以立刻测量出他这一跃有多高;也可知道铃木一郎完成一圈跑垒的确切时间;或是当雅迪尔·莫力纳想将对方盗垒手赶下垒时,在二垒奋力接球时的速度究竟有多快。

    正如当年《点球成金》中公布的预测结果一样,这项新技术并不会减少球探的数量,但它有可能会被重点用来测量更难量化、更加隐秘的信息,例如球员的心理指标。像桑德斯这样聪明的球探在这一方面已先行一步了。

    并不是信息越多,预测就越成功

    为什么球探们对达斯汀·佩德罗亚的预测错得那么离谱?

    所有的球探对佩德罗亚的基本信息都没有疑义,他们都知道佩德罗亚是一个非常出色的击球手,垒上技术灵活,心理素质超群。球探们也都知道佩德罗亚挥棒姿势怪异,防守技术稳定但不突出,移动速度平平,且个子不高,体格一般。

    然而,作为年轻球员,佩德罗亚的个人履历很特殊,很多球探不知对此该如何看待。桑德斯告诉我:“招募新球员时,球探都是带着主观想法进行选拔的,他们心中早就有了典型标准。佩德罗亚在很多方面都不符合这些标准,他需要新的标尺。”

    当我们无法把一个方形物体塞进圆洞时,通常会责怪这个方形的物体。有时,就是思维定势使我们没有及时做出调整去适应新情况。我们总是本能地将信息归为不同类别,通常类别的数量相对较少,这样便于跟踪。(美国人口调查局将数百个种族团体分成六大种族类别,数千名艺术家按照音乐类型归为几类,这些都是归类的做法。)

    在大多数情况下,归类的方法还是非常奏效的。可是,一旦遇到不易分类的信息,我们通常就会无视它或对其进行错误分类。这也是比恩不愿“凭直觉”作决定的原因之一。如果过分依赖第一印象,很可能会错过潜力无穷的球员,而奥克兰竞技队的经济条件可负担不起这样的过失。

    像 PECOTA 这样的预测系统是在数千名球员中搜索信息相似的球员,对球员进行分类时更需要谨慎细致。PECOTA 系统能够将佩德罗亚的各项技术归入更适合的类别之下,也确实搜索到了一些与他的信息相似的前辈。

    若将佩德罗亚的其他技能考虑在内,他矮小的身材反倒可能是他的优势。棒球的好球区是指从球员肩膀到膝盖的范围,个头越矮,投手的目标区就越窄,而佩德罗亚对来球的捕捉能力又强,这样他就能更好地利用自己个子矮、好球区小的优势。

    另外,二垒手身材矮小,防守起来更有优势。二垒手要求灵活敏捷,能像猫一样灵活地捕捉地滚球。史上最佳的二垒手大部分都是矮个子。入选名人堂的 17 名二垒手中,只有内普·拉如瓦和瑞纳·桑德伯格身高超过 1.82 米。最伟大的二垒手乔伊·摩根的身高只有 1.70 米。

    那些球探非常擅长本职工作,也善于分类,但是这一次他们预测得过于仓促,偏见也过大。佩德罗亚的矮小身材从某些方面来看其实是优点。

    但是,一切都没有定数:PECOTA 系统并没有认为佩德罗亚一定会成功,只是觉得可能性较大,而球探并不这样认为。不过,红袜队信任佩德罗亚,这才是最重要的,而佩德罗亚的自信也给球队带来了好运。

    第一次遇见比尔·詹姆斯是在 2009 年 10 月“纽约客艺术节”的一个专家小组。在随后的一个奇特的派对,比尔·詹姆斯穿了一件色彩夸张的运动衫,脚踩一双又大又旧的木屐,在一群打扮时髦的人中,显得尤为特别。派对上其他人都在追随明星苏珊·萨兰登,我和詹姆斯却在吧台边聊天。

    詹姆斯在红袜队的职责范围很广,也很秘密(很多细节他不方便透露)。过去的 25 年里,作为一名在场外摇旗呐喊的人,詹姆斯写了很多关于棒球的文章,人到暮年他变得平和很多。现在,作为一名熟悉行情的内行人,这项运动对詹姆斯有了不同的意义。詹姆斯是最早从心理角度审视棒球的人。

    詹姆斯对我说:“年轻时我写的东西,很多观点都不对。自从有了孩子,我的态度发生了很大的转变。这句话是有些老生常谈,但确实,有了孩子才开始懂得每个人都是父母的宝。这就是内行人和外行人的区别。小时候觉得这些人是电视里、游戏中或是棒球卡上的人物,并没有意识到他们也是普通人,正在尽全力比赛。”

    令我惊讶的是,尽管詹姆斯、比恩和桑德斯这三位看待棒球这项运动的角度存在极大差异,但他们对很多问题的评论却非常相似。事实上,如果把我和他们 3 位的交谈记录放在一起,你很难指出哪一段话是谁说的。(詹姆斯的话相对容易分辨,因为他更风趣)。詹姆斯逐渐注意到球探为红袜队带来的价值,他认为这也是他的使命。在棒球运动中,衡量预测是否准确的方式很严苛,只看比赛的输赢,所以,所有的预测者都明白预测不能离谱。如果信息越多,你的预测却越离谱,那你注定会失业,也没有资格得到麦克劳林媒体集团的终生聘用合约。

    “从某个角度看,我和其他球探看待棒球的方式是非常相似的。”詹姆斯接着说,“在政治领域,从最‘右翼’到最‘左翼’,人们说的其实完全是一回事。也许球探行业也是这样,别的球探努力探寻的问题和我努力探寻的问题完全是一回事儿。”

    2004 年,詹姆斯协助红袜队进行职业棒球选秀,佩德罗亚是第 65 个被选中的。詹姆斯写了一份报告,其中对佩德罗亚赞许有加,但还是建议球队选择另外一个人。虽然詹姆斯对这个选择很满意,却也很开心地看到佩德罗亚后来用行动证明詹姆斯当时的评判很愚蠢。

    然而,在佩德罗亚职业生涯的早期,连他的一些头号粉丝有些时候都会怀疑他。2006 年 8 月,佩德罗亚开始了自己的第一个大联盟赛季,打了 31 场比赛,平均击球率仅为 0.198,只有 6 个二垒以上的长打。没人特别关注他的表现;更令人感到意外的是,在那一季的最后几周里,红袜队无缘季后赛已成定局。于是,新英格兰地区的焦点完全转移到卡尔特人和爱国者这两支球队上。第二年,佩德罗亚担任球队的专职二垒手,但他进入状态还是很慢,赛季已经开始一个月了,佩德罗亚的平均击球率只有 0.172。

    如果当时他是在芝加哥小熊队这样的球队,佩德罗亚很可能会被开除。小熊队的决策机制从前是出了名的随意,直到近几年才有所改观。对很多球队来说,每个行动都会遇到同样的过激反应,但是红袜队不会,这支球队是经过系统方法训练出来的。詹姆斯透露,从佩德罗亚在那个赛季的表现中,红袜队看到了令人欣喜的地方。佩德罗亚一直在积极应对比赛,制造了很多接球机会,只是球没有落在球棒上而已。照这种情形看,比赛的各项数据极有可能会向他倾斜。

    詹姆斯对我说道:“我们都有对数据失去信心的时候,或许你也清楚这一点。回看过去一年的情况,当时佩德罗亚的击球率仅为 0.180,再看看他的挥杆失误率,可能高达 8%~9%。在那个春季赛季中,佩德罗亚一直在努力,但他同样也对自己的数据失去了信心。按理说,那么卖力地挥杆,接球机会不可能那么少,击球率不可能只有 0.180。”

    红袜队当初选择佩德罗亚并非轻率之举。他们当时一直都在留意观察佩德罗亚的比赛表现,是“雪藏”佩德罗亚还是派其首发,球队都要慎重思考。球队会在更大的背景下考虑这个问题,不会让数据左右他们的决定。

    詹姆斯告诉我,红袜队唯一担忧的是佩德罗亚是否开始怀疑自己的实力。遇到类似情况,其他球员也许会对自己产生怀疑,但佩德罗亚不会这样,骗子和批评家都奈何不了他。

    “幸好佩德罗亚是一个骄傲的家伙。如果他胆小怯懦,容易受到批评的影响,他就完蛋了。佩德罗亚并不理会旁人,依然我行我素,保持怪异的挥杆姿势,最终实现了逆转。”

    佩德罗亚拥有桑德斯所说的“大联盟记忆力”——忘得快。佩德罗亚不会为糟糕的表现所困,因为他完全相信自己的打法没有问题,从长远来看,这一点真的很重要。但对所有让他分心的事情,佩德罗亚则采取零容忍的态度,这种态度无法将他塑造成最宽容的人,但这却是红袜队二垒手最需要的品质,也是他唯一在乎的事。

    “缺点和优点是一对亲密伙伴。佩德罗亚善于化腐朽为神奇。”詹姆斯点评道。

    《点球成金》的真正意义

    在与比利·比恩讨论《点球成金》时,比恩说:“正如迈克尔·刘易斯所说,争论已经结束了。”《点球成金》这本书有段时间曾对球探形成威胁,貌似球探的工作和生活也因此出现了危机。但这只是臆想,电脑从来没有取代球探。实际上,无论是由球探报告指导,还是靠数据系统分析,了解棒球市场未来所需的不同类型球员一直是供不应求的工作。球队挑选谁、与谁交易、付给自由球员多少钱,这些都决定着世界联赛的结果和数百万美元的走向。现在,当球队做决定时,会使用越来越多可支配的工具。在别的领域,信息革命并没有任何益处,但在棒球行业,信息革命带来的价值配得上那张数百万美元的高额支票。因为体育是高科技、激烈竞争、均衡的激励制度和大量数据的独特结合体。

    但科技并未使比恩的生活轻松多少,其他球队已经复制了奥克兰竞技队的成功诀窍,为此他表示出自己的担忧。比方说,现在几乎所有球队都懂得上垒率的重要性,也都十分重视防守的作用,而没有发生改变的是,那些球队仍然(像从前一样)比竞技队富有。

    在像体育运动这样竞争最为激烈的行业中,最出色的预测者必须不断地创新才行。树立“挖掘市场盲点”的目标容易,但这个目标并不能真正地为你谋划如何找到市场盲点,也无法确定这些盲点是代表希望的曙光还是错误的导向。拥有别人想不到的想法很难,拥有好的想法更难——即便有了好的想法,也很快会被人复制。

    正因为如此,本书避免推崇速效方案,这些方案通常会让你以为,只要稍稍改变经营方式即可提高竞争力。优秀的创新者通常既从大局出发,又考虑细节。有时你可以从一个问题的最微小的细节中发现新的想法,但别人却不愿意这样做。当你进行最抽象的哲理思考时,会琢磨世界为什么是这个样子,想知道是否还会有另外一种主流范例可供选择,此时也可能有新的想法迸发出来。但大多数时候,我们都生活在宏观与细节中间的“舒服地带”,这种状态下很少能萌发出新的想法。在常态生活中,我们所作的分类和估值通常能行得通,但有时还是会漏掉那些有助于提高竞争力的信息。

    要在正确的地方寻找信息和想法,关键在于要开发一些手段、培养一些习惯,这样才能在准确的地方发现更多的想法和信息。一旦发现了一些必需的技能,就要把它们变成能分输赢的技能。

    这并非易事。但是,棒球会为创新者提供一个特殊的验证平台。10 年前 PECOTA 系统首次亮相后,就几乎再也没有突破性的预测系统问世了,但一定会有人巧妙地利用 Pitch f/x 的图像数据,或是想出将球员表现的定性数据和定量数据相结合的方法。很快这些假设都会实现,或许本书付印时就会实现。

    “如今,进入棒球领域、创造领域及智力领域的人都十分优秀,10 年后如果我再去应聘球探这份工作,也许连面试的机会都没有。”比恩自嘲道。

    《点球成金》已经落幕。

    《点球成金》的影响极为深远。

    [1]服务请求转发软件的发布将为你解决这一切烦恼。利用此软件你只需进行简单的设置就可以很好地将实际的服务器保护起来,并且不影响你的服务器的访问情况进行各种统计