14.7 Pig进阶
本节将继续介绍Pig在实际中的应用,为了体现Pig系统的特点,本节中的所有操作都将在Hadoop MapReduce模式下进行。另外,我们选取了一组很有特点的例子进行数据分析,相信这对大家的理解一定很有帮助。
为了让大家能够更好地理解下面的操作,我们使用Grunt Shell方式进行数据分析,这样能够让大家更加清楚地理解Pig的执行过程。
14.7.1 数据实例
结合14.6节中的数据,我们再给出另外两个数据。
第一组数据是14.6节中的学生表所对应的课程表(课程号、课程名、先修课程号、学分),它包含如下几条记录:
01,English,4
02,Data Structure,05,2
03,DataBase,02,2
04,DB Design,03,3
05,C Language,3
06,Principles Of Network,07,3
07,OS,05,3
它们所对应的数据类型如下所示:
Course(Cno:chararray, Cname:chararray, Cpno:chararray, Ccredit:int)
另外一组数据为学生表和课程表所对应的选课表(学号、课程号、成绩),它包含如下几条记录:
201000101,01,92
201000101,03,84
201000102,01,90
201000102,02,94
201000102,03,82
201000103,01,72
201000103,02,90
201000104,03,75
它们所对应的数据类型如下所示:
SC(Sno:chararray, Cno:chararray, Grade:int)