第二章 棋盘下半场的人性与技术
任何足够先进的技术都和魔术差不多。
——阿瑟·克拉克(Arthur C. Clarke),1962年
过去,我们曾颇有信心地认为,自己明白计算机和人类的相对优势和弱势。但计算机逐渐开始在一些出人意料的领域取得了进展。这点事实,有助于我们更好地理解过去动荡的这几年,以及数字技术对就业的真正影响。
为说明近年来的技术进步有多快,这里有一个很好的例子:我们用2010年实现的一项成就,对比了2004年出版的一本书,这本书的内容,是以作者谨慎的研究为基础的。比较结果叫我们颇为吃惊。该书名叫《劳动新分工》(The New Division of Labor),作者是经济学家弗兰克·利维(Frank Levy)和里查德·默南(Richard Murnane)。一如书名暗示,这本书描述的是计算机和人类工人的相对能力。
在该书第二章“为什么人依然重要”,两位作者将信息处理任务按照难易程度做了排列。列表的一端,是应用既定规则的简单任务。这些任务,如执行算法,可以轻松地实现自动化。毕竟,计算机是很擅长照着规则做事的。
在列表的另一端,则是复杂的、无法推断规则的模式识别任务。《劳动新分工》以在车流中驾驶汽车作为此类任务的一个例子,并断言它无法实现自动化:
……卡车司机处理着环境中接连不断涌入的(视觉、听觉和触觉)信息流……对这种行为编程,我们可以先从摄像机和其他捕捉感官输入的传感器着手。但当着迎面而来的车流左转弯,涉及到太多的因素,很难想象能找出一套规则可以复制司机的行为……
除了高度结构化的情况,要阐明(人类)知识,将之植入软件,在当前还是一桩极其困难的任务……在(驾驶卡车等)任务中,计算机还无法轻易替代人类。
正好,2004年举办了第一届达帕无人驾驶挑战赛(DARPA Grand Challenge)。比赛的结果肯定了利维和默南的结论。挑战赛的内容是制造一辆无人驾驶的汽车,在荒无人烟的莫哈维沙漠里,穿越一条长达150英里的路线。就连“胜出”的那辆车也只不过是磕磕碰碰地行驶了不到8英里,而且,还用了好几个小时。
在一个又一个领域里,计算机跑在了前头
但区区6年之后,在真实环境下开车,就从一个无法自动化的例子,变成了一个业已实现自动化的例子。2010年10月,谷歌在官方博客上宣布,被他们改装后的丰田普锐斯车队,基本上完全实现了自动化驾驶:其中,在美国公路上行驶了1000多英里,全程无人干预;又行驶了14万多公里,驾驶员只在方向盘后做了极少量的人工输入。(为遵守相关的驾驶法律,谷歌认为,方向盘后面必须随时有人坐着。)
利维和默南说,在川流不息的道路上自动驾驶,是一项极为困难的任务;在这一领域,开发一台能替代人感知、进行模式匹配的计算机不容易。完全正确。的确是不容易,但并非不可能——谷歌基本上完成了这一挑战。
面对利维和默南提出的挑战,谷歌的技术人员之所以取得突破靠的不是抄捷径,而是迎面而上。他们使用了服务于谷歌地图和谷歌街景服务的庞大的数据,为车队行驶的路线提供尽量多的信息。他们的车辆还通过安装好的摄像、雷达、光达(light detection and ranging,简称LIDAR,光探测和侧距)设备收集海量的实时数据;这些数据输入软件后,跟道路规则、仪表、行驶轨道,以及邻近区域的所有物体、驾驶条件等等相匹配。该软件不光能控制汽车,说不定还比人类驾驶员更敏锐、更警醒,反应时间更快。谷歌的无人驾驶汽车只出过一次意外事故,但那是因为它停在交通灯前面,被后面一辆由人类司机操纵的汽车给追了尾。
这一切来得完全不容易。但凭借丰富而准确的数据、强大的传感器、庞大的存储容量和处理能力,它也是有可能做到的。我们现在生活的世界恰恰具备了这些条件。计算机进步的速度如此之快,其性能从科幻领域进入日常生活历时还不到人的一生,甚至也不到专业人士的整个职业生涯,而仅仅是短短几年罢了。
利维和默南所举机器难以模仿人类能力的另一个例子,是复杂沟通(complex communication)。复杂沟通涉及到和人类进行交谈,尤其是在复杂、情绪化或表达不明确的环境之下。
进化给人类内置的“程序”,让人们能够毫不费力地做到这一点,但同样是靠编程运作的计算机,却很难做到。比如说,将一种人类语言翻译为另一种,长久以来这一直是计算机科学努力想要实现的目标,但其进展非常缓慢,因为人类语言的语法和词汇都十分的复杂且多具歧义。
然而,2011年1月,翻译服务公司莱昂布里奇(Lionbridge)公布了GeoFluent技术的试点企业客户。GeoFluent是和IBM公司合作开发的一种技术,只要向它输入一种语言写成的文字(如顾客为寻求某问题的帮助,在线输入聊天信息),它就能准确又快速地将之翻译成另一种语言(如另一国家客户服务代表所说的语言)。
GeoFluent以IBM托马斯·J.沃森研究中心开发的统计式机器翻译软件为基础。靠着莱昂布里奇公司过往的翻译数据库,该软件得到了改善。这种“翻译记忆库”让GeoFluent变得更加准确,并尤其擅长翻译大型高科技公司与顾客或其他客户之间有可能展开的对话。有一家这样的公司测试了GeoFluent在线聊天信息自动翻译的质量。这些信息(内容涉及到该公司的产品和服务)是通过中国和西班牙客户发给说英语的员工的。GeoFluent对信息进行了即时翻译,将之转化成了接收方的母语。聊天进程结束后,该公司请客户和员工报告自动翻译的信息是否有用——也即,这些自动翻译信息是否足够明确,让人能据以采取有意义的行动。大约有90%的使用者报告说,有用。在此种情况下,自动翻译已经足以应付商业用途了。
谷歌的无人驾驶汽车表明,数字模式识别能力近年来进步得有多么快,多么远。莱昂布里奇的GeoFluent技术表明,计算机进行复杂沟通的能力已经取得了多么大的进步。IBM沃森实验室的另一项技术(名字也叫“沃森”)则表明,将两种能力合二为一后计算机可以变得多么强大,多么深入地闯入原以为专属于人类的领域。
“沃森”是一台超级计算机,设计目的是参加一个流行的游戏节目《危险边缘》(Jeopardy!)。节目会向参赛者们提出覆盖范围极广的各类问题,参赛者们事前并不知道题目。①很多时候,题目都涉及到了双关语,以及其他类型的文字游戏。光是弄清题目要问什么、怎样构建答案就很难了。简单地说,要想玩好《危险边缘》,需要具备进行复杂沟通的能力。
“沃森”玩这个游戏的方式,也需要海量的模式匹配。这台超级计算机预先加载了上亿毫无关联的数字文档,内容包括百科全书和其他参考类书籍,新闻报道,还有《圣经》。接收到问题之后,“沃森”会立刻运转起来,弄清楚问题问的是什么(使用专攻复杂沟通的算法),然后就开始查询所有的这些文档,寻找并进行模式匹配,以得出答案。沃森的运转极为彻底且速度惊人,IBM的研究经理埃里克·布朗(Eric Brown)在接受采访时解释说:
我们从单一的线索入手。我们分析这一线索,接着展开一个候选生成阶段,这个阶段会同时运行若干不同的主搜索,每一主搜索都产生50个搜索结果。接下来,每个搜索结果都可能产生若干候选答案,所以,等我们生成所有候选答案的时候,兴许对该线索已经有了300到500个候选答案。
现在,所有的这些答案都可以独立、并行处理,所以,我们就将它们分散展开进行答案-得分分析,为答案计算得分。我们又为答案运行更多的搜索,收集更多的证据,接着就每一证据进行深入分析,这样,每个答案大概又会生成20条支持该答案的证据。
这时候,每一条证据又都可以进行独立、并行分析,所以再次逐条分散展开。这下你有了可以深入分析的证据了……所有的这些分析生成了最终要合并起来的得分,也就是说,通过一种机器学习框架来权衡得分,对候选答案进行最终排序,并得出对每一候选答案的最终把握。“沃森”最后给出的回答就是这么来的。
“沃森”最后给出的回答又快又准确,就连最优秀的人类玩家都望尘莫及。2011年2月,沃森在电视转播的比赛中对阵《危险边缘》节目史上两位最出色的人类参赛者。比赛进行了3天,一共比了两轮,计算机最后所得的奖金,是排名第二的,有着血肉之躯的对手的3倍。对手之一肯·詹宁斯(Ken Jennings)承认,数字技术完全把《危险边缘》这款游戏给接管了!詹宁斯在比赛最后一道题的书面回答后补充写了一句话,“我,欢迎我们的新霸主,电脑。”
摩尔定律和棋盘下半场
这些霸主是从哪儿冒出来的呢?科幻小说是怎样如此迅速变成商业现实的呢?要理解这一显著的进步,有两个概念必不可少。第一条,也是较出名的一条,是摩尔定律,它来自对戈登·摩尔(Gordon Moore)所观察到现象的延伸。摩尔是微处理器制造商英特尔公司的联合创始人。1965年,摩尔在《电子杂志》(Electronics Magazine)上发表文章指出,造价最低的集成处理电路上的晶体管数量,每12个月会翻一倍,他预测,这一发展速度未来将会持续下去。等事实证明他所言不虚时,摩尔定律就诞生了。
后来,人们修正了集成晶体管翻倍所需的时间;目前最多人接受的时间期限是18个月。摩尔定律的其余版本,也适用于磁盘驱动器容量、显示分辨率和网络带宽的发展。在上述和其他众多的数字进步案例中,翻倍是定数,而且速度极快。
软件似乎也跟硬件进步得同样快,至少,在某些领域是如此。计算机学家马丁·格罗谢尔(Martin Grötschel)分析了1988年到2003年计算机处理标准优化问题的速度。他发现这期间计算机的处理速度提高了4300万倍。进步主要来自两个因素:处理器更快,软件内置的算法更好。处理器速度提高了1000倍,但这跟算法上的改进比起来不免相形见绌:算法在同一时期改善了43000倍。
理解近年来与计算发展相关的第二个概念,跟摩尔定律有很深的联系。它来自一个古老的数学故事,创新家兼未来学家雷·库兹韦尔(Ray Kurzweil)在现代意义上对其做了引申。有一个版本的故事是这样的:
国际象棋的发明者将自己的发明呈给了本国的君主。皇帝很喜欢这种游戏,就问发明家想要什么样的奖励。睿智的发明家要求以如下规则得到大米:棋盘的第一格放一粒大米,第二格放两粒,第三格放4粒,依此类推,每一格放的大米粒数都是前一格的两倍。
皇帝答应了,以为这样的奖励微不足道。然而,他最终明白,持续翻倍会带来一个庞大的天文数字。到头来,发明家卷走了264粒大米,这些大米堆起来比珠穆朗玛峰还要高。在故事的另一些版本中,发明家因为聪明过了头,惹得皇帝动了怒,砍掉了他的脑袋。
库兹韦尔在2000年出版的《智能机器的时代》(The Age of Spiritual Machines: When Computers Exceed Human Intelligence)中指出,在棋盘的上半场,大米堆并不显得特别离谱:
在经过32次平方之后,皇帝需给发明家40亿粒大米。这是一个合理的数目——差不多相当于一大片耕田的价值——而皇帝也开始有点上心了。
但这时候,皇帝仍然还是皇帝。发明家仍然可以保住他的脑袋。直到大米堆进棋盘的下半场之后,他们中才有一个家伙真正陷入了麻烦。
在这里,库兹韦尔的要旨是,反映指数增长的持续翻倍很有迷惑性,因为它最初不值一提。指数增长一开始看起来像是标准的线性增长,其实不然。随着时间的推移,我们进入棋盘的下半场,指数增长就完全搞糊涂了我们的直觉,彻底颠覆了我们的期待。它的加速远超线性增长,带来了有如珠穆朗玛峰一般宏伟的大米堆,以及能完成从前不可能完成任务的计算机。
那么,在计算机的商用历史上,我们来到了什么地方呢?我们进入了棋盘的下半场了吗?当然,这是一个无法准确回答的问题,但通过合理的估计,却能得出有趣的结论。1958年,美国经济分析局将“信息技术”列入了商业投资类别,我们就把这一年当成起始年好了。接着,让我们设定摩尔定律的标准倍增期是18个月。翻倍32次之后,我们来到了2006年,也就进入了棋盘的下半场。那么,诸如谷歌无人驾驶汽车、拿下《危险边缘》大奖赛冠军的超级计算机“沃森”、高质量的瞬时机器翻译,就都可以视为数字化创新进入下半场之后的第一批例子了——在这个全新的阶段,指数增长带来了令人瞠目结舌的结果。
计算经济:通用技术的经济实力
这些结果将波及几乎每一项任务、每一种工作,以及每一个行业。多功能性是所谓“通用技术”(general purpose technologies,GPTs)的一个关键特性。在经济学家口中,“通用技术”指的是极其强大的一小组技术创新,它们打断并加速了经济进步的正常步伐。“通用技术”的前几代例子,分别是蒸汽动力、电力和内燃机。
通用技术的重要性,再怎么强调也不算夸张。经济学家蒂莫西·布雷斯纳汉(Timothy Bresnahan)和曼纽尔·切腾贝格(Manuel Trajtenberg)指出:
整个时代的技术进步和经济发展似乎都……受通用技术的推动。(通用技术)以普及程度(有众多下游领域以之作为输入),技术进步的内在潜力,和“创新互补性”(意思是,下游领域的研发生产力随着通用技术创新的发展而增长提高)为特点。故此,随着通用技术的进步,它们扩散到整个经济当中,带来了整体生产力的提高。
那么,随着时间的推移,不光通用技术本身得到改进(一如摩尔定律所示,计算机显然是这样),生产通用技术的流程、企业以及行业也都随之出现互补性的创新。简而言之,通用技术在深度和广度上都带来了无数的好处。
计算机就是我们时代的通用技术,尤其是再结合以网络,并冠名为“信息及通信技术”(information and communications technology,ICT)之后。经济学家苏桑托·巴苏(Susanto Basu)和约翰·弗纳尔德(John Fernald)着重指出通用技术如何令得企业脱离传统轨道:
廉价的信息和通信技术触手可及,令得企业以完全不同且能大幅提高生产力的方式配置其他输入。在此过程中,采用信息和通信技术的行业,又在廉价的计算机及通信设备的促动下,设计出更多的互补性发明。
需要指出的是,通用技术不光造福了它们的“母体”产业。例如,计算机不光提高了高科技领域的生产力,也提高了所有购入并使用数字设备的行业的生产力。时至今日,这就意味着几乎所有的行业;就连美国信息技术最不密集的行业,如农业和采矿业,每年也会花费数十亿美元为自己进行数字化武装。
还请注意巴苏和弗纳尔德选用的字眼:计算机和网络为企业带来了越来越多、不断扩展的机会。换句话说,数字化并不是只能提供一次性好处的项目。相反,它是一个持续的过程:创造性破坏;创新者利用成熟的新技术在任务、工作、流程甚至整个组织层面上实现深刻的变革。这些变革以彼此为基础,又为彼此提供养料,所以,数字化提供的机遇,确确实实是不断扩展的。
只要企业使用电脑,情况就一直是这样,哪怕我们还在棋盘的前半场。举例来说,20世纪80年代初,计算机的民主化将处理能力交到越来越多的知识工人手里。20世纪90年代中期出现了两大创新:万维网和大型商业企业软件,如企业资源规划(ERP)和客户关系管理(CRM)系统。前者给了公司挖掘新市场和销售渠道的能力,还让世界的知识前所未有地便于获取;后者让企业重新设计了业务流程,监视、控制远程运作,收集并分析海量的数据。
这些进步不会过期,也不会随着时间而逐渐消失。相反,它们会跟之前或之后的技术整合起来,令得收益继续累积。例如,谷歌便利了搜索之后,万维网更好用了,之后便兴起了新一轮的社交浪潮、本地化浪潮和移动应用浪潮。客户关系管理系统已经扩展到智能手机上,销售人员能在路上随时保持连线状态,现在的平板电脑则提供了个人电脑的大部分功能。
我们开始在棋盘下半场看到的创新,同样会纳入这一持续进行的产业发明过程。实际情况其实已经是这样了。莱昂布里奇公司提供的GeoFluent技术,为客户服务互动带去了瞬时机器翻译。IBM正与哥伦比亚大学医疗中心和马里兰大学医学院合作,把“沃森”应用到医学诊断中去,同时又宣布了一项与语音识别软件厂商Nuance公司的合作计划。内华达州议会指示机动车辆管理部门对本州路面上行驶的无人驾驶汽车拿出一套管理规范来。当然,这些只是信息技术带来的无数创新中的极小一部分,它们正改变着制造、分销、零售、传媒、金融、法律、医药、科研、管理、市场营销和几乎所有其他经济部门及企业的功能。
人(至少目前)还能占上风的地方
尽管计算机正蚕食着高级模式识别和复杂沟通等过去人类独占的领土,但目前,人类仍然在这些领域掌握着制高点。比如,经验丰富的医生做出诊断,靠的是将自己积累的医学知识跟患者的化验结果和症状描述进行比较,同时采用一种我们称为“直觉”的先进潜意识模式识别能力。(“这名患者似乎是有什么难言之隐吗?他们看起来健康吗?还是肤色、能量水平里欠缺了点东西?”)同样的,最优秀的治疗师、管理人员、销售人员都擅长与他人互动和沟通,他们收集信息、影响他人行为的策略也极其复杂。
但正如本章所介绍的例子,随着我们更深地进入棋盘下半场,计算机也正迅速地改进着自己的这两项技能。我们开始看到这一数字化进程影响整个商业世界的证据。2011年3月,约翰·马科夫(John Markoff)在《纽约时报》上发表了一篇报道,着重强调了法律行业如何大举利用计算机的模式识别能力,据估计,在案卷调查过程中,从人力劳动转为数字劳动后,一名律师能完成过去需要500人才能做完的工作。
例如,1月份,加利福尼亚州帕罗奥图的“黑石探索”(Blackstone Discovery)科技公司,就以不到10万美元的价格,帮忙分析了150万份文件……
“从法律从业人员的角度看,这意味着,许多过去分派去审核文件的人,再也无法领到酬劳了。”比尔·赫尔(Bill Herr)说。比尔是一家大型化学公司的律师,从前经常召集成群的律师连着几个星期阅读文件。“人会生厌,会头疼。计算机不会。”
计算机似乎很擅长这份新工作……赫尔用e-discovery软件重新分析了20世纪80年代和90年代公司律师们所做的工作。他发现,人类同事们的准确率只有60%。
“想想看,花了那么多的钱,结果却只比投硬币定输赢稍微好上那么一丁点儿。”他说。
同月,《洛杉矶时报》阿伦娜·塞缪尔(Alena Semuels)发表文章介绍说,尽管完成交易需要展开复杂的沟通,零售行业仍然迅速走向自动化。
零售行业一直稳定可靠地提供着就业岗位,每10个美国人里就有一个在该行业就业。可现在,这个行业里的公司,却越来越希望利用更少的员工卖掉更多的产品……虚拟助手正在取代客户服务代表的位置。自动售货亭和自助服务机,则减少了对收银员的需求。
如今,自动售货机出售iPod、泳衣、金币、太阳眼镜和剃须刀;有些甚至还能向愿意扫描指纹的消费者提供处方药品和医用大麻。消费者在售货亭里使用触摸屏寻找信息,不再跟服务员对话……
(机器的)成本只占实体商店的极小一部分。它们还反映了消费者不断变化的购买习惯。网上购物让美国人感觉很舒服:无需销售员或店员的帮助,就能买到各种各样的产品。
在大衰退期间,美国销售业有近1/12的员工丢了饭碗,加速了这股早已开始的趋势。例如,1995年创造的实际国内生产总值中,每100万美元就需要聘用2.08人从事“销售及相关”职业。到2002年(有持续数据可用的最后一年),这一数字已跌到1.79人,下降了近14%。
如果,一如这些例子所示,模式识别和复杂沟通如今都容易自动化了,那么,还有什么人类技能能免遭此劫吗?随着我们越来越深地挺进棋盘下半场,人类还有任何可持续的相对优势吗?在肢体领域,我们似乎还做得不错。人型仿生机器人仍然相当原始,精细运动技能差,下楼梯总会跌倒。所以,园丁、餐馆跑堂暂时还无需担心被机器取代。
还有许多肢体工作需要高级的心理能力;水管工和护士整天要进行大量的模式识别和问题处理,护士还需跟同事及患者展开许多复杂沟通。将这些工作自动化的困难不禁让我们想起了一句话,这句话来自1965年美国航空航天局一份支持载人航天飞机飞行的报告,报告曾说:“人是成本最低的非线性全功能计算机系统,重量只有150磅,而且可由非熟练劳动力大规模生产。”
即便在纯知识工作的领域——不含肢体运动元素的工作——也有很多计算机尚未触及的疆土。2005年,雷·库兹韦尔在《奇点临近》(The Singularity Is Near: When Humans Transcend Biology)中预言,未来的计算机将“包括……模式识别能力、问题解决技能,以及人类大脑本身的情绪道德智商。”但到目前为止,只有第一项能力在计算机身上得到了证明。眼下,计算机已经具备了强大的模式识别能力,但并不擅长整体性地解决问题;例如,如果不经过人类创造者的重新设计、重新编程、输入不同的数据,IBM的超级计算机并不能把从国际象棋里学到的知识应用到《危险边缘》游戏,或者其他任何挑战上。
如今的数码机器尽管力量强、速度快,但尚未表现出太多的创新能力。它们不能写出非常好听的歌曲和了不起的小说,或是为新业务提出优秀的设想。倒是也有几个明显例外的情况,但它们反倒证明了上述规律。有个爱恶作剧的人利用一种在线计算机科学论文摘要生成器,创作了一篇文章,竟然获得了某技术大会的接受(事实上,该大会的组织者甚至邀请“作者”主持评审团)。但这份摘要其实只是一连串似是而非的技术术语,用若干标准口语连词串在一起罢了。
同样道理,为棒球比赛赛况自动生成概要的软件运作得很不错,那是因为大部分体育赛事文章都是高度程式化的写作,适合进行模式匹配和较简单的沟通。以下是一套名为“StatsMonkey”的程序生成的文章示例:
大学园(UNIVERSITY PARK)——本周六在梅德拉(Medlar Field),威利·阿格(Willie Argo)率伊利诺斯棒球队以11-5大败美洲狮队。
阿格为伊利诺斯队轰出了两记本垒打。他在比分为3-4时上场,拿到了5分打点和两次跑垒得分。
伊利诺斯的先发球员威尔·斯特拉克(Will Strack)干劲十足,6局里5次跑垒,但候补队员阿格不得跑垒,靠着进攻时击球17次接手了剩下的比赛,为伊利诺斯队锁定了胜利。
自动生成公式化文章和真正的洞见之间仍有着明显的区别,一项已有60年历史的测试为我们揭示了这一点。数学家和计算机科学的先驱阿兰·图灵(Alan Turing)认为,机器是否能够思考这个问题“毫无意义,不值得讨论”,但1950年,他提出用一项测试来检验机器能变得有多像人。“图灵测试”指的是,让人类测试组同时跟人和计算机在线聊天。如果测试组的成员基本无法判断哪一方是机器,那么机器就通过了测试。
图灵自己预测,到2000年,计算机在这一测试中和人无法区别的概率是70%。然而,在洛伯纳大奖赛(自1990年开始举办的图灵测试竞赛)上,聊天程序只要能说服一半的评审相信自己是人,就能拿到25000美元的奖金了。总之,不管计算机现在达到了多么高的境界,始终还不够像“人”。
不过,正如本章的例子所示,如今,计算机展现出了过去只属于人类工人的技术和能力。随着我们深入挺进棋盘下半场,这种趋势只会加速。这种现象对经济有什么样的影响呢?我们在下一章集中讨论这一主题。
注 释
①作者注:准确地说,主办方也会给《危险边缘》的参赛者们出示答案,但此时参赛者必须将与这些答案相对应的问题逆推出来。