4.3　Spark I/O机制

来源高彦杰浏览 20 扫码分享 2024-12-25 14:15:47

4.3　Spark I/O机制

4.3　Spark I/O机制

Spark的I/O由传统的I/O演化而来，但又有所不同。

·单机计算机系统中，数据集中化，结构化数据、半结构化数据、非结构化数据都只存储在一个主机中，而Spark中的数据分区是分散在多个计算机系统中的。

·传统计算机数据量小。Spark需要处理TB、PB级别的数据。

这样会产生一些问题，Spark进行I/O不仅要考虑本地主机的I/O开销，还要考虑数据在不同主机之间的传输开销。同时Spark对数据的寻址方式也要改变，以应对大数据的挑战。

本文档使用 Sou.st 构建

展开/收起文章目录