Spark安装与介绍

1. Scala的安装

注意点：版本匹配的问题，

Spark 1.6.2 -- Scala2.10

Spark 2.0.0 -- Scala2.11

https://www.scala-lang.org/files/archive

$ wget https://www.scala-lang.org/files/archive/scala-2.11.6.tgz
$ tar -zxvf ./scala-2.11.6.tgz
$ mv ./scala-2.11.6.tgz /usr/local/scala

增加全局变量
$ vim ./.bashrc
export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin
$ source ~/.bashrc

2. Spark的安装

http://spark.apache.org/downloads.html

$ wget https://archive.apache.org/dist/spark/spark-2.0.2/spark-2.0.2-bin-hadoop2.6.tgz
$ tar -zxvf spark-2.0.2-bin-hadoop2.6.tgz
$ mv ./spark-2.0.2-bin-hadoop2.6 /usr/local/spark

增加全局变量
$ vim ./.bashrc
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin
$ source ~/.bashrc

输入pyspark 显示：

至此安装成功。

3.本地运行pyspark

# 本地运行命令
pyspark --master local[4] # 本地启动，使用4个线程

# 查看当前运行模式
sc.master

# 读取本地文件
textFile = sc.textFile("file:/usr/local/spark/README.md")
textFile.count()

# 读取HDFS文件
textFile = sc.textFile("hdfs://master:9000/user/hadoop/result.csv")
textFile.count()

4.在Hadoop YARN上运行pyspark

$ vim ./.bashrc

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop


# 启动
$ pyspark --master yarn --deploy-mode client

# 读取hdfs文件
textFile = sc.textFile("hdfs://master:9000/user/hadoop/result.csv")
textFile.count()

5.构建Spark Standalone Cluster运行环境

$ cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh
$ vim /usr/local/spark/conf/spark-env.sh

export SPARK_MASTER_IP=master
export SPARK_WORKER_CORES=1  # 每个worker所使用的cpu核心数
export SPARK_WORKER_MEMORY=512m # 每个worker所使用的内存
export SPARK_WORKER_INSTANCES=4 # 实例数

# 将spark复制到data1,data2,data3
$ ssh data1
$ mkdir /usr/local/spark
$ logout

$ scp -r /usr/local/spark root@data1:/usr/local
# scp -r [本地文件] [远程用户名称]@[远程主机名]:[远程目录]
# -r 递归复制整个目录

# 编辑slaves文件
$ vim /usr/local/spark/conf/slaves
data1
data2
data3

6.在Spark Standalone 运行pyspark

# 启动
$ /usr/local/spark/sbin/start-all.sh
$ pyspark --master spark://master:7077

# 停止
$ /usr/local/spark/sbin/stop-all.sh

7.Spark Web UI界面

http://master:8080/

http://master:4040/ # 查看Spark Jobs

相关阅读:
PHP数据采集curl常用的5个例子
 【荐】PHP采集工具curl快速入门教程
 PHP常用正则表达式
 JavaScript方法call、apply、caller、callee、bind的使用详解及区别
 axf、elf文件转换成bin、hex脚本工具
 为什么数据须要做爱
 POJ 3978 Primes(求范围素数个数)
Facebook Hacker Cup 2015 Round 1--Homework（筛选法求素数）
后台进程整理
 Nginx优化具体，应对高并发
原文地址：https://www.cnblogs.com/zenan/p/9579633.html