5.2 数据去重

数据去重这个实例主要是为了让读者掌握并利用并行化思想对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。

5.2.1 实例描述

对数据文件中的数据进行去重。数据文件中的每行都是一个数据。

样例输入:


file1:

2006-6-9 a

2006-6-10 b

2006-6-11 c

2006-6-12 d

2006-6-13 a

2006-6-14 b

2006-6-15 c

2006-6-11 c

file2:

2006-6-9 b

2006-6-10 a

2006-6-11 b

2006-6-12 d

2006-6-13 a

2006-6-14 c

2006-6-15 d

2006-6-11 c

样例输出:

2006-6-10 a

2006-6-10 b

2006-6-11 b

2006-6-11 c

2006-6-12 d

2006-6-13 a

2006-6-14 b

2006-6-14 c

2006-6-15 c

2006-6-15 d

2006-6-9 a

2006-6-9 b