参考文献

    我们上传了部分数据子集以及一些笔记和代码来帮助重现我们的分析,在:http://data.doloreslabs.com。

    如果你对学习建模工具R感兴趣,我们推荐两个Web站点:

    Quick-R(http://statmethods. net)

    Robert Kabacoff写的高级概要和主题指南。

    RSeek(http://rseek. org)

    Sasha Goodman实现的R文档、包和邮件列表的搜索引擎。

    统计工具R的官方Web站点可以通过http://www.r-project.org访问。如果你对它和其他的数据分析包比较感兴趣,请参见表17-2的很多评论,可以通过http://anyall.org/blog/?p=421访问。

    最受推荐的学习R的书是Peter Dalgaard的《Introductory Statistics with R》(Sringer出版,2008)。

    除了统计工具R的核心功能,我们使用的一些附加包包括corrgram、flowCore、gclus、geneplotter、plyr和pixmap。

    Trevor Hastie、Robert Tibshirani和Jerome Friedman合著的《The Elements of Statistical Learning》(Sringer出版,2008)包含了聚类、局部加权回归法的优秀的概要总结以及其他机器学习技术。

    关于标签部分仅仅涉及统计语言分析最基础的部分。为了了解更多信息,可以参考Christopher Manning和Hinrich Schütze著的《Foundations of Statistical Natural Language Processing》语料语言学一章(MT出版,1999),以及Daniel Jurafsky和James H.Martin著的《Speech and Language Processing》(Pentice Hall出版社,2008)。

    对于魅力和年龄的变化关系分析,存在很多更好的方式来估计置信区间。一种方法是部分集中(prtial pooling);参考Andrew Gelman和Jennifer Hill的《Data Analysis Using Regression and Multilevel/Hierarchical Models》(剑桥大学出版社,2006)的252~258页。我们在本章所做的称为“探索性数据分析”(eploratory data analysis,EDA)——和那些通常在统计方法学课程上教的精心实践的假设检验不同。探索性数据分析被统计学家John Tukey在1977年以之命名(译注:即《Exploratory Data Analysis》)(Adison-Wesley出版)的书中广泛推崇。

    我们的创业公司Dolores Labs专注于外包项目:从大量的人中收集人类的任务数据来解决内容控制、信息抽取、Web搜索相关性以及其他领域的实际问题。我们收集、查看并自动分析大量关于人们的判断的数据。你可以查看本章的后续,关于其他主题如性别、颜色和宗教的分析,在博客http://blog.doloreslabs.com可以获得。