5.1.2　使用Eclipse开发Spark程序

5.1.2　使用Eclipse开发Spark程序

下面介绍如何使用Eclipse配置和开发Spark的环境，用户可以在Windows或者Linux环境下使用Eclipse进行开发。

1.环境配置

与Intellij配置环境一样，需要用户下载安装JDK和Scala。前文已详细介绍，这里不再赘述。

1）下载Eclipse Scala IDE插件，官网地址为http://scala-ide.org/download/sdk.html，可在官网中自行下载安装。

2）下载Eclipse^[1]，官网地址为http://www.eclipse.org/downloads/。

2.安装Scala插件

1）将Eclipse Scala IDE插件中的features和plugins两个目录下的所有文件复制到Eclipse解压后对应的根目录中。重启Eclipse，单击Eclipse右上角方框按钮，如图5-7所示，在弹出的Open Perspective对话框中查看是否有“Scala”一项，如果有则直接单击打开。

5.1.2　使用Eclipse开发Spark程序 - 图1

图5-7　安装插件

2）在Eclipse中，选择Help按钮，然后点击Install New Software命令，在打开的输入框里填入http://download.scala-ide.org/sdk/e38/scala29/stable/site，并按回车键，可看到以下内容（见图5-8中加框突出部分），选择Scala IDE for Eclipse和Scala IDE for Eclipse development support两项进行安装即可，如图5-8所示。

5.1.2　使用Eclipse开发Spark程序 - 图2

图5-8　设置安装选项

3）直接下载Scala IDE，可以在官网http://scala-ide.org/下载。现在的ScalaIDE中默认自带了Eclipse，用户可以直接使用。

3.开发Spark程序

1）在安装好Scala插件的Eclipse中，选择File→New→Other命令，在弹出的New窗口中选择Scala Wizard→Scala Project命令，创建Scala项目，如图5-9所示。

5.1.2　使用Eclipse开发Spark程序 - 图3

图5-9　创建Scala项目

2）右击新建工程，在快捷菜单中选择Properties命令，在弹出的窗口（见图5-10）中依次选择Java Build Path→Libraties→Add External JARs即可，导入assembly/target/scala-2.9.3/目录下的spark-assembly-1.0.0-incubating-hadoop2.2.0.jar（这个包可以通过sbt/sbt assembly生成，也可以在预编译版本的Spark中找到）。

5.1.2　使用Eclipse开发Spark程序 - 图4

图5-10　增加外部Jar

3）在工程中创建一个Scala对象（Object），命名为WordCount，在Name后的输入框填入WordCount，如图5-11所示。

5.1.2　使用Eclipse开发Spark程序 - 图5

图5-11　创建Scala类

WordCount是一个测试程序，统计输入的词频，读者可以参考第6章来了解。

在SparkTest工程中，右击WordCount.scala，在弹出的快捷菜单中选择Export命令，然后在弹出的窗口中选择Java→JAR File命令，将文件命名为WordCount。最后生成WordCound.jar的可执行Jar包。

或者直接在SparkContext中将第一个参数配置为local，然后直接在Eclipse点击run按钮，本地运行程序。

5.1.2　使用Eclipse开发Spark程序 - 图6 提示　Java语言开发Spark程序。

将Spark开发程序包spark-assembly-1.0.0-incubating-hadoop2.2.0.jar作为第三方依赖库。由于Scala也是运行在JVM之上，并且可以和Java合编程，所以可以按原有方式开发Java程序并调用Spark中的API。

[1] 下载的Eclipse版本一定要与Eclipse Scala IDE插件版本一致。

5.1.2 使用Eclipse开发Spark程序