7.2.1 数据集
数据类型分为结构化数据、半结构化数据和非结构化数据。由于大数据环境下的数据类型复杂,负载多样,所以大数据Benchmark需要生成3种类型的数据和对应负载。
1)结构化数据:传统的关系数据模型、行数据,存储于数据库,可用二维表结构表示。
典型场景为互联网电商交易数据、企业ERP系统、财务系统、医疗HIS数据库、政务信息化系统、其他核心数据库等。结构规整,处理方案较为成熟。使用关系数据库进行存储和处理。
2)半结构化数据:类似XML、HTML之类,自描述,数据结构和内容混杂在一起。
典型应用场景为邮件系统、Web搜索引擎存储、教学资源库、档案系统,等等。可以考虑使用Hbase等典型的Key-Value存储系统存储。在互联网公司中存在大量的半结构化数据。
3)非结构化数据:各种文档、图片、视频/音频等。
典型应用场景为视频网站、图片相册、医疗影像系统、教育视频点播、交通视频监控、文件服务器(PDM/FTP)等具体应用。可以考虑使用HDFS等文件系统存储。在互联网公司同样存在大规模的非结构化数据。