5.1.4 使用Spark Shell开发运行Spark程序
因为运行Spark Shell时,会默认创建一个SparkContext,命名为sc,所以不需要在Spark Shell创建新的SparkContext。在运行Spark Shell之前,可以设定参数MASTER指定Spark应用提交MASTER指向的相应集群或者本地模式执行。可以通过参数ADD_JARS将JARS添加到classpath中。
如果希望spakr-shell在本地通过4核的CPU运行,需要以如下方式启动。
- $MASTER=local[4] ./spark-shell
这里的4是指启动4个工作线程。
如果要添加JARS,可以用如下方法实现:
- $MASTER=local[4] ADD_JARS=code.jar ./spark-shell
在Spark Shell中,输入下面代码,读取dir文件,以输出文件中有多少数据项。
- scala>val text=sc.textFile("dir")
- scala>text.count
按回车键,即可运行Shell中的程序。