令人愉快的双赢设计

    路易斯·冯·安(Luis Von Ahn)的外表与行为和大家身边典型的美国大学生没什么两样。他喜欢打电子游戏,喜欢飞快地驾驶他的蓝色跑车,他就像现代的汤姆·索亚(Tom Sawyer),热衷于差遣别人替他做事。但是人不可貌相,实际上,冯·安是世界上最杰出的计算机科学教授之一,而帮他做过事的,足足有10亿人。

    10年前,22岁的研究生冯·安参与创造了一项名为CAPTCHAs的技术,要求人们在注册电子邮件等网络应用时输入弯弯曲曲的文字,以证明进行此操作的是人类而非恶意灌水的程序。冯·安把CAPTCHAs的升级版(reCAPTCHA)卖给了谷歌,这个版本要求人们输入扭曲文字的目的不仅是作验证,更主要的目的,是为了破解“谷歌图书扫描计划”中那些计算机难以识别的文字。这是个聪明的做法,发挥了一项数据的两种作用:在线注册的同时识别文字。

    在那之后,成为卡内基梅隆大学(Carnegie Mellon University)教授的冯·安开始寻觅更多的“一石二鸟之计”——使人们提供的零散数据为两种目的服务。于是,在2012年,他启动了新的设计——多邻国(Duolingo),通过网站和智能手机APP帮助人们学习外语。作为一个幼年在危地马拉学习英语的人,冯·安对学习外语抱有共鸣,而更重要的是,多邻国的教学方式非常巧妙。

    它要求人们在同一时间翻译一些较短的词组,或者评价和修正其他人的翻译。不同于一般翻译软件呈现其自创词组的做法,多邻国呈现的是需要翻译的文档中的真实句子,因此公司能够从中获取报酬。一旦有足够的学习者能够翻译或验证特定词组,系统就会接受他们的译文,并收集所有零散的句子,将其整合到完整的文档之中。

    多邻国的客户包括CNN和BuzzFeed等媒体公司,后者通过多邻国的服务,翻译用于其海外市场的相关内容。和reCAPTCHA一样,多邻国也是个令人愉快的“双赢”技术:学习者免费获得外语学习指导,同时制造具有经济价值的产物作为回报。

    此外,还有第三个益处,那就是多邻国收集的“数据尾气”(data exhaust),即由人们与网站之间的互动中衍生的副产品:如熟练掌握一门语言的某一方面需要多长时间、最合适的习题量是多少、落下几天进度的后果等等。冯·安意识到,所有这些数据都可以采取某种方式加以处理,从而揭示出促进人们学习的最佳策略。在非数据环境中,做到这一点并不容易。然而,对于2013年间的每一天都有大约100万访问者,并且人均花费30多分钟用于线上学习的多邻国来说,巨大的用户数量足以支撑此类研究。

    冯·安最重要的发现是:关于“人们怎样学得最好”的问题是错误的。重点不在于“人”怎样学得最好,而是具体的“哪个”人。对此,他解释说,针对最佳语言学习方法的实证研究数量很少,比方说,在许多理论中,主张先教形容词,再教副词,但几乎没有确凿的数据支撑。他指出,即使存在相关数据,通常也是针对数百名学生的小规模研究所得,将之作为普遍的研究发现加以推广,终究是不可靠的。为什么不以多年来数以千万的学习者为研究对象得出结论呢?多邻国的出现,使这样的研究成为可能。

    冯·安在处理数据的过程中得到了一个重要的发现,即语言教学手段有效与否取决于学习者的母语以及他们将要学习的语言。以西班牙语使用者为例,通常,他们在学习英语的最初阶段就会接触到“he”“she”和“it”等代词。然而冯·安却发现,“it”一词容易引起他们的迷惑和焦虑,原因是“it”很难翻译成西班牙语。于是冯·安进行了几次测试,只教“he”和“she”,直到数周后坚持学习而不放弃的人数显著增加,再开始“it”一词的教学。这样就能显著提高坚持学习的人数。

    他还有一些发现是有悖直觉的:女性的体育术语学得更好;男性更擅长学习与烹调和食物相关的单词;在意大利,女性总体来说比男性在英语学习上表现得更出色。许多类似的发现始终在不断涌现。

    多邻国的故事为我们呈现了大数据重塑教育的最有前景的方式之一。其中反映了大数据改善学习的三大核心要素:反馈、个性化和概率预测。