7.1.4 其他Benchmark

在大数据领域还有一些针对特定负载的大数据Benchmark,读者感兴趣可以深入研究。下面介绍几个典型的Benchmark。

1)Malstone:针对数据密集型计算和分析的工作负载的Benchmark工具。它基于大规模并行计算,也具有云计算的属性。

2)Cloud Harmony:使用黑盒方式度量云服务提供商的性能。它基于大规模并行计算,并且面向硬件架构,评测复杂数据的大数据运算。

3)YCSB:度量和对比云数据库的框架。基于大规模并行计算,面向大数据和云计算。

4)SWIM:一个针对MapReduce的统计工作负载。基于MapReduce面向大数据的复杂数据集的分析测试。

5)LinkBench:针对图数据库的Bechmark,在Facebook数据库工程团队,通过分析Facebook的数据库工作负载(workload)并开发了这款称为LinkBench的数据库性能测试工具。LinkBench已经开源并发布到了Github。

6)DFSIO:是一个分布式文件系统的Benchmark,针对Hadoop测试HDFS的读写性能。

7)Hive performance Benchmark(Pavlo):这是由Palvo最早提出的测试工具。这个Hive性能测试工具用于比较Hadoop和并行分析型数据库。它拥有5个工作负载,第一个是Grep(源于MapReduce的论文),其他4个典型的查询设计为代表传统的结构化分析工作负载,包括选择、聚集、连接、用户自定义函数的工作负载。Berkeley Big Data Bench就是借鉴Pavlo的Benchmark思想而进一步开发和实现的。