5.1.4 使用Spark Shell开发运行Spark程序

因为运行Spark Shell时,会默认创建一个SparkContext,命名为sc,所以不需要在Spark Shell创建新的SparkContext。在运行Spark Shell之前,可以设定参数MASTER指定Spark应用提交MASTER指向的相应集群或者本地模式执行。可以通过参数ADD_JARS将JARS添加到classpath中。

如果希望spakr-shell在本地通过4核的CPU运行,需要以如下方式启动。


  1. $MASTER=local[4] ./spark-shell

这里的4是指启动4个工作线程。

如果要添加JARS,可以用如下方法实现:


  1. $MASTER=local[4] ADD_JARS=code.jar ./spark-shell

在Spark Shell中,输入下面代码,读取dir文件,以输出文件中有多少数据项。


  1. scala>val text=sc.textFile"dir"
  2. scala>text.count

按回车键,即可运行Shell中的程序。