G.3 用于大数据的分析包
R有如下几个用于分析大型数据的包。
biglm
和speedglm
包能以内存高效的方式实现大型数据的线性模型拟合和广义线性模型拟合。有好几个包是用来分析
bigmemory
包生成的大型矩阵的。biganalytics
包提供了k均值聚类、列统计和一个biglm
的封装。bigtabulate
包提供了table()
、split()
和tapply()
功能;bigalgebra
包提供了高级的线性代数函数。biglars
包跟ff
配合使用,为在内存中无法放置的大数据提供了最小角回归(least-angle regression)、lasso和逐步回归分析。Borbdingnag
包可以处理大数字(大于2的1024次方的数)。
在任何编程语言中,处理GB级和TB级的数据都是挑战。关于R中这方面方法的更多信息,可以查看CRAN上的这个Task View:High-Performance and Parallel Computing with R(cran.r-project.org/web/views/)。