Spark 入门学习

Spark 入门学习
用到的软件：Hadoop-2.4.0、scala-2.10.4、spark-1.1.0

jdk我用的1.6，支持哪些jdk可以从发放文档中查找

一、预备工作

修改主机名字（名字比ip好使）、安装Orcal版的jdk、关闭防火墙、配好ssh，此外python系统已经自带不用二外安装

二、配置工作

首先配置Hadoop 这个可以参考官方网站电接点配置http://hadoop.apache.org/docs/r2.5.1/hadoop-project-dist/hadoop-common/SingleCluster.html

1、Hadoop2的配置文件在etc/hadoop目录下，需要修改的文件有core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、hadoop-env.sh、slaves
- core-site.xml
```
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>  //我的主节点的机名就叫做master
　　</property>
</configuration>
```
- hdfs-site.xml
```
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value> //副本数量，一般设置为3个，但在这里，因为机子有限我只设置了一个
    </property>
　　 <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/zkpk/hadoop_name</value> 
    </property>
　　<property>
        <name>dfs.datanode.data.dir</name>
        <value>/home/zkpk/hadoop_data</value> 
    </property>
</configuration>
```
- mapred-site.xml
```
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value> //资源管理器指向yarn
    </property>
</configuration>
```
- yarn-site.xml
```
<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>
```
- hadoop-env.sh
```
修改该文件中的JAVA_HOME
```
- slaves
```
直接在文件中输入如下
master
slave

详细的按需配置，可以到官方查看集群配置的方法到此Hadoop配置完成 
初始化完成之后可以使用sbin/start-all.sh启动集群，使用sbin/stop-all.sh结束集群2、scala 安装解压包之后，配置下环境变量即可

3、安装spark
```
解压好文件之后，需要到conf文件夹下修改一下配置文件slaves、spark-env.sh
- slaves
```
在该文件中填写如下内容（是两台主机的名字）
```
```
master
```
```
slave
```
- spark-env.sh
export JAVA_HOME=/usr/java/latest

export SCALA_HOME=/opt/scala-2.10.4

export HADOOP_PREFIX=/opt/hadoop-2.4.0

export SPARK_MASTER_IP=master

export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop

export YARN_CONF_DIR=$HADOOP_PREFIX/etc/hadoop

这里需要注意，有的时候这个spark-evn.sh不配置也不会出现问题，但有时候不配置就会出现如下问题

4、配置环境变量

使用命令 vi /etc/profile 注意是在root权限下才可以修改，当然也可以修改本地的环境便令文件是主目录下的 .bash_profile

使环境变量生效使用命令 source /etc/profile 使配置文件生效

环境变量里的内容如下

export JAVA_HOME=/usr/java/latest

export SCALA_HOME=/opt/scala-2.10.4

export HADOOP_PREFIX=/opt/hadoop-2.4.0

export SPARK_HOME=/opt/spark-1.1.0-bin-hadoop2.4

export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_PREFIX}/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_PREFIX/lib"

export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop export YARN_CONF_DIR=$HADOOP_PREFIX/etc/hadoop

export PATH=$PATH:$JAVA_HOME:$JAVA_HOME/bin:$HADOOP_PREFIX/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

最后要记得将配好的Hadoop、Scale、Spark、profile文件复制到slave节点上
相关阅读:
浅谈 java 比较器
 浅谈lambda表达式
 使用DateLocaleConverter和SimpleDateFormat实现字符串转换成日期
 myeclipse中运行tomcat报错java.lang.NoClassDefFoundError
《谁说菜鸟不会数据分析》读书笔记(1)
撰写报告要点
 分析报告_问题界定篇
 数据分析报告
 kaggle入门之Titanic生存预测
 pandas基础
原文地址：https://www.cnblogs.com/wyhong/p/4086516.html