Spark 学习 - 润新知

Spark 学习
环境：Ubuntu 12.04， JDK 1.6， scala 2.11.1， spark 1.0.1， hadoop 1.2.1

一安装jdk

这里不细说了，自行google吧。

二安装scala

scala 官网：http://www.scala-lang.org/index.html，download 下来解压
```
tar -zxvf /mnt/hgfs/mnt/scala-2.11.1.tgz -C /opt
```
配置一下环境变量即可
```
vi /etc/profile
SCALA_HOME=/opt/scala-2.11.1
PATH=${SCALA_HOME}/bin:${PATH}
export SCALA_HOME PATH
```
测试scala 是否安装成功
```
which scala;
scala -version
```
输出：Scala code runner version 2.11.1 -- Copyright 2002-2013, LAMP/EPFL 即为成功

三安装spark

spark 官网：http://spark.apache.org/docs/latest/index.html，download 下来编译好的版本，自己对应hadoop的版本，我这里是hadoop 1.2.1 所以我下载了

spark-1.0.1-bin-hadoop1.tgz包。

解压
```
tar -zxvf /mnt/hgfs/mnt/spark-1.0.1-bin-hadoop1.tgz -C /opt
```
配置环境变量
```
vi /etc/profile
SPARK_HOME=/opt/spark-1.0.1-bin-hadoop1
export SPARK_HOME
```
配置spark，将spark 带的spark-env.sh.template 文件拷贝一份，改名为spark-env.sh。

在spark-env.sh 文件最后增加 SCALA_HOME, JAVA_HOME, SPARK_WORKER_MEMORY, SPARK_MASTER_IP 字段，

注意 SPARK_MASTER_IP 变量千万不要写成 YOURHOSTNAME，囧，写你自己的ip 或者 hostname。
```
cp /opt/spark-1.0.1-bin-hadoop1/conf/spark-env.sh.template /opt/spark-1.0.1-bin-hadoop1/conf/spark-env.sh;
vi /opt/spark-1.0.1-bin-hadoop1/conf/spark-env.sh;
export SCALA_HOME=/opt/scala-2.11.1/
export JAVA_HOME=/opt/jdk1.6.0_45
export SPARK_WORKER_MEMORY=1G
export SPARK_MASTER_IP=YOURHOSTNAME
```
给slaves 文件增加主机名，作为奴隶节点
```
vi /opt/spark-1.0.1-bin-hadoop1/conf/slaves
```
例如：spark-slave1

四启动spark
```
cd /opt/spark-1.0.1-bin-hadoop1/sbin/;
./start-all.sh;
```
启动所有的节点。在网上搜索spark的部署文章，大部分都说启动文件在$SPARK_HOME/bin下，估计是版本实在太老了。

五运行spark 的hello world 程序

计算PI的程序
```
/opt/spark-1.0.1-bin-hadoop1/bin/run-example SparkPi
```
相关阅读:
10gen发布MongoDB增量备份服务
 JSON.NET 5中的架构变更
 Snowbox 2.0 发布，POP3 邮件服务器
 资源监控工具 glances
Druid 0.2.18 发布，阿里巴巴数据库连接池
 Groovy 更新到 2.0.8 and 2.1.3
Apache Libcloud 0.12.4 发布，统一云计算接口
 Go1.1性能测试报告(和C差距在10%以内)
Apache Camel 2.11.0 发布，规则引擎
 2010年01月01日0时0分总结我的2009
原文地址：https://www.cnblogs.com/chenfool/p/3858930.html