G.3 用于大数据的分析包

R有如下几个用于分析大型数据的包。

  • biglmspeedglm包能以内存高效的方式实现大型数据的线性模型拟合和广义线性模型拟合。

  • 有好几个包是用来分析bigmemory包生成的大型矩阵的。biganalytics包提供了k均值聚类、列统计和一个biglm的封装。bigtabulate包提供了table()split()tapply()功能;bigalgebra包提供了高级的线性代数函数。

  • biglars包跟ff配合使用,为在内存中无法放置的大数据提供了最小角回归(least-angle regression)、lasso和逐步回归分析。

  • Borbdingnag包可以处理大数字(大于2的1024次方的数)。

在任何编程语言中,处理GB级和TB级的数据都是挑战。关于R中这方面方法的更多信息,可以查看CRAN上的这个Task View:High-Performance and Parallel Computing with R(cran.r-project.org/web/views/)。