14.7 Pig进阶

本节将继续介绍Pig在实际中的应用,为了体现Pig系统的特点,本节中的所有操作都将在Hadoop MapReduce模式下进行。另外,我们选取了一组很有特点的例子进行数据分析,相信这对大家的理解一定很有帮助。

为了让大家能够更好地理解下面的操作,我们使用Grunt Shell方式进行数据分析,这样能够让大家更加清楚地理解Pig的执行过程。

14.7.1 数据实例

结合14.6节中的数据,我们再给出另外两个数据。

第一组数据是14.6节中的学生表所对应的课程表(课程号、课程名、先修课程号、学分),它包含如下几条记录:


01,English,4

02,Data Structure,05,2

03,DataBase,02,2

04,DB Design,03,3

05,C Language,3

06,Principles Of Network,07,3

07,OS,05,3


它们所对应的数据类型如下所示:


Course(Cno:chararray, Cname:chararray, Cpno:chararray, Ccredit:int)


另外一组数据为学生表和课程表所对应的选课表(学号、课程号、成绩),它包含如下几条记录:


201000101,01,92

201000101,03,84

201000102,01,90

201000102,02,94

201000102,03,82

201000103,01,72

201000103,02,90

201000104,03,75


它们所对应的数据类型如下所示:


SC(Sno:chararray, Cno:chararray, Grade:int)