由于spark是用scala编写的,且需要jdk的环境支撑,所以本地spark环境的搭建需要四个步骤:JDK的安装,scala的安装,hadoop的配置,spark的配置。
一、jdk的安装与环境变量的配置。(参考:http://blog.csdn.net/u011513853/article/details/52865076#comments)
二、scala安装。选择版本scala2.10.3,配置相应的路径。
需要注意的是,Spark的各个版本需要跟相应的Scala版本对应,比如我这里使用的Spark 1.6.0就只能使用Scala 2.10的各个版本,目前最新的Spark 2.0就只能使用Scala 2.11的各个版本,所以下载的时候,需要注意到这种Scala版本与Spark版本相互对应的关系。
下载得到Scala的msi文件后,可以双击执行安装。安装成功后,默认会将Scala的bin目录添加到PATH系统变量中去(如果没有,和JDK安装步骤中类似,将Scala安装目录下的bin目录路径,添加到系统变量PATH中),为了验证是否安装成功,开启一个新的cmd窗口,输入scala
然后回车,如果能够正常进入到Scala的交互命令环境则表明安装成功。
三、hadoop路径配置。(下载路径)
新建系统变量:HADOOP_HOME D:profilelocalProfileshadoop-2.6.0
添加path变量:%HADOOP_HOME%in;
四、spark路径配置。(下载路径)
选择适合版本,下载并解压:
配置环境变量:
新建系统变量:SPARK_HOME D:profilelocalProfilesspark-1.6.0-bin-hadoop2.6
添加path变量:%SPARK_HOME%in;
个人配置环境的安装文件地址:百度云