数据科学家
在最近的访谈中,G公司首席经济学家Hal Varian强调了员工需要能够从之前描述的信息平台中抽取信息。正如Varian所言:“找到能够为一些变得普遍且廉价的东西提供稀缺、互补的服务。那么,是什么变得普遍且廉价?数据。是什么与数据相辅相成?分析。”
在Facebook,我们发现传统的头衔如商业分析师、统计学家、工程师和研究科学家都不能确切地定义我们团队的角色。该角色的工作是变化多样的:在任意给定的一天,团队的一个成员可以用Python实现一个多阶段的处理管道流、设计假设检验、用工具R在数据样本上执行回归测试、在Hadoop上为数据密集型产品或服务设计和实现算法,或者把我们分析的结果以清晰简洁的方式展示给企业的其他成员。为了掌握完成这多方面任务需要的技术,我们创造了“数据科学家”这种角色。
在金融服务领域已经构建了历史市场行为的大数据存储作为该领域的数据科学家,即数据分析专家(Qants),来开发新模型的实验场。在工业以外,我发现在很多科学领域,研究生扮演着数据科学家的角色。Facebook数据组团队的其中一员曾在生物信息实验室工作过,在那里他构建过数据管道流,并做类似的离线数据分析。在CERN,著名的Large Hadron Collider生成大量的数据,这些数据是由一群追求突破的研究生精心收集和钻研的。
最近新出的书如Davenport和Harris合著的《Competing on Analytics》(哈佛商学院出版社,2007),Baker的《The Numerati》(Hughton Mifflin Harcourt,2008)以及Ayres的《Super Crunchers》(Bntam,2008)都强调了在跨工业中数据科学家的重要性,他们在促进企业基于收集到的信息做出改进发挥了至关重要的作用。和研究社区在数据空间的调研一起,数据科学家在今后几年需要进一步的定义。通过更好的阐明数据科学家角色,我们可以建设培训课程、制定广告层次、组织会议、写书以及为任何被认可的行业做补充。在这个过程中,可行的数据科学家组织将会不断扩展,用来满足飞速增殖的数据平台上不断增长的专业“领航员”需求,进一步加速跨企业的学习过程。