不合理的数据有效性
在最近的文章中,G公司研究员发表了三部曲,提炼出他们在尝试解决机器学习中的一些最困难的挑战的心得。当讨论到语音识别和机器翻译,他们认为“简单的模型和大量的数据总是胜过在少量数据上构建的复杂(eaborate)模型。”我不想和他们的发现争论,但是,当然存在某些领域,更复杂的模型会更成功。但是基于G公司研究员的经验,确实存在大量问题,更多的数据和更简单的模型对它们会更有效。
在Facebook,Hadoop是我们探索不合理的数据有效性的工具。比如,当把Facebook网站翻译为其他语言时,我们试着征集那些母语为特定语言的用户,以便帮助我们完成翻译任务。我们的一个数据科学家Cameron Marlow,对所有的Wikipedia进行了爬虫,对每种语言构建了特征三元频率计数(caracter trigram frequency counts)。使用这些频率计数,他构建了一个简单的分类器,该分类器可以通过识别用户的一组留言来确定他的母语。使用该分类器,我们可以通过有针对性方式,积极地征集用户加入我们的翻译项目中。Facebook和G公司在很多应用中都用自然语言数据,详情请参看本书第14章Peter Norvig对于该课题的探讨。
G公司的观点指出了对现代商业智能系统的第三条变革:除了在一个系统中管理结构化和无结构化的数据,这些商业智能系统必须能够扩展到可以存储足够多的数据,使得可以采取“简单模型,大量数据”的方法来实践机器学习。