13.4 Mahout中的频繁模式挖掘

13.4.1 什么是频繁模式挖掘

提到关联规则人们头脑中首先闪过的便是“尿布与啤酒的故事”。首先我们先来介绍一下什么是“尿布与啤酒的故事”。该故事是美国沃尔玛超市的真实案例。沃尔玛超市为了了解顾客在超市的消费习惯,从而对消费者的购物数据进行分析。他们将消费者的一次购物消费假设成为一个购物篮,通过对购物篮的分析他们发现,尿布与啤酒竟然经常同时出现。该现象看似非常奇怪,然而它却揭示了美国人背后的消费习惯:很多男子经常要帮妻子为婴儿购买尿布,而同时,他们中的大多数又会顺便购买自己喜爱的啤酒。

在上述例子中,尿布与啤酒的经常性一同出现便可以认为是一组频繁模式。频繁模式挖掘是数据挖掘研究中的一个重要课题,它是关联规则、相关性分析、序列模式、因果关系等许多重要数据挖掘任务的基础。因此,频繁模式挖掘有着广泛的应用,例如购物篮数据分析、交叉购物、DNA序列分析、预测分析等。

比较经典的频繁模式挖掘包括Apriori算法、FPGrowth算法、AGM算法、PrefixSpan算法等。