1.7 处理大数据集

程序员经常问我R是否可以处理大数据问题。他们往往需要处理来自互联网、气候学、遗传学等研究领域的海量数据。由于R在内存中存储对象,往往会受限于可用的内存量。举例来说,在我服役了5年的2G内存Windows PC上,我可以轻松地处理含有1000万个元素的数据集(100个变量×100 000个观测)。在一台4G内存的iMac上,我通常可以不费力地处理含有上亿元素的数据。

但是也要考虑到两个问题:数据集的大小和要应用的统计方法。R可以处理GB级到TB级的数据分析问题,但需要专门的手段。大数据集的管理和分析问题留待附录G中讨论。