4.3 Spark I/O机制
Spark的I/O由传统的I/O演化而来,但又有所不同。
·单机计算机系统中,数据集中化,结构化数据、半结构化数据、非结构化数据都只存储在一个主机中,而Spark中的数据分区是分散在多个计算机系统中的。
·传统计算机数据量小。Spark需要处理TB、PB级别的数据。
这样会产生一些问题,Spark进行I/O不仅要考虑本地主机的I/O开销,还要考虑数据在不同主机之间的传输开销。同时Spark对数据的寻址方式也要改变,以应对大数据的挑战。
本文档使用 Sou.st 构建