无法驳斥的大数据预测

    第二个威胁也同样严峻。以所有人为对象收集到的全面教育数据,将用于对未来进行预测:我们应该以这样的速度、按这样的顺序学习;我们只有在晚上8点至9点间复习学习材料,才能有90%的可能性得到B,如果复习得早了,其可能性将会降至50%;等等。诸如此类的概率预测将会限制我们的“学习自由”,并有可能最终威胁到我们对生活中机遇的获取。

    大数据蕴含的巨大潜力在于推进个性化学习、改善教材和教学,并最终提高学生的成绩。数据应该被视为促进产品改良的反馈,而不是对产品使用者进行简单评价的依据。在今天,被收集的有限数据几乎都是用来评价学生的,即学习中的“消费者”。

    我们评估可能的方案和潜在的成就:从高中提升课程的受理到高校录取,再到研究生院的入学。但是此类基于有限数据的小数据预测,充满了不确定性,因此招生委员会对这些数据的处理极其谨慎。委员们认识到数据展示的内容并不完善——那些以高分通过SAT考试的自大狂并不是凭借真才实学,而仅仅是因为记住了复习指南——便积极地增加评估的主观性,当他们意识到依赖数据可能造成以偏概全的结果时,会将主观判断置于数据决断之前。

    然而,大数据时代的预测精确度将远远超过现在。这向招生委员会和招聘人员等决策制定者施加了更多的压力,使其更倾向于相信基于大数据的预测。在过去,我们可以辩称所属的分组不是特别适合自己,为某种情况找到开脱的理由。比如,我们有可能被分到“好学生,但是搞不定统计课”的群组中,并最终因此被经济学专业拒之门外。但是我们仍然可以凭借这样的解释说服别人:基于这一分组的预测于我们而言是不正确的,所以即使同组的其他成员会失败,我们还是有可能获得成功。因为该预测是基于“小数据”作出的,决策制定者往往倾向于相信当事人是“无辜”的,而当事人能够通过协商为自己辩解。

    而新的威胁在于,基于大数据的预测是如此准确、个性化程度如此之高,我们将不再因为名义上所属的分组,而是实实在在的“自己”被问责。因此,任何借口都可能不足以说服决策制定者站在我们这一边。事实上,任人来作判定有可能完全地从决策过程中移除,取而代之是以机器算法为基础的操作,包括读取电子数据表、计算概率并作出有约束力的决定,而这一系列操作仅需耗时几毫秒。

    比如说,一些大学正在开展“电子顾问”(e-advisors)的实验,这款大数据软件系统通过数字处理提升学生的毕业率。自2007年亚利桑那大学采用该系统至今,学生顺利升学的比例已由77%上升到84%。在田纳西州的奥斯汀州立大学,当学生选修“学位罗盘”(Degree Compass)软件向其推荐的课程后,他们有90%的可能性得到与软件预测一致的B以上的高分,而没有获益于“学位罗盘”的学生,获得同样分数的比例仅占60%。