Spark Tachyon实战应用（配置启动环境、运行spark和运行mapreduce）

Spark Tachyon实战应用（配置启动环境、运行spark和运行mapreduce）
Tachyon实战应用
- 配置及启动环境
  - 修改spark-env.sh
  - 启动HDFS
  - 启动Tachyon
- Tachyon上运行Spark
  - 添加core-site.xml
  - 启动Spark集群
  - 读取文件并保存
- Tachyon运行MapReduce
  - 修改core-site.xml
  - 启动YARN
  - 运行MapReduce例子
1 配置及启动环境

　　1.1.1 修改spark-env.sh

　　修改$SPARK_HOME/conf目录下spark-env.sh文件：
```
$cd /app/hadoop/spark-1.1.0/conf
$vi spark-env.sh
```
　　在该配置文件中添加如下内容：
```
export SPARK_CLASSPATH=/app/hadoop/tachyon-0.5.0/client/target/tachyon-client-0.5.0-jar-with-dependencies.jar:$SPARK_CLASSPATH
```
　　　　　　　　

　　1.1.2 启动HDFS
```
$cd /app/hadoop/hadoop-2.2.0/sbin
$./start-dfs.sh
```
　　1.1.3 启动Tachyon

　　在这里使用SudoMout参数，需要在启动过程中输入hadoop的密码，具体过程如下：
```
$cd /app/hadoop/tachyon-0.5.0/bin
$./tachyon-start.sh all SudoMount
```
1.2 Tachyon上运行Spark

　　1.2.1 添加core-site.xml

　　在Tachyon的官方文档说Hadoop1.X集群需要添加该配置文件（参见http://tachyon-project.org/documentation/Running-Spark-on-Tachyon.html），实际在Hadoop2.2.0集群测试的过程中发现也需要添加如下配置文件,否则无法识别以tachyon://开头的文件系统，具体操作是在$SPARK_HOME/conf目录下创建core-site.xml文件
```
$cd /app/hadoop/spark-1.1.0/conf
$touch core-site.xml
```
```
$vi core-site.xml
```
　　在该配置文件中添加如下内容：
```
<configuration>
  <property>
    <name>fs.tachyon.impl</name>
    <value>tachyon.hadoop.TFS</value>
  </property>
</configuration>
```
　　　　　　　　　　

　　1.2.2 启动Spark集群
```
$cd /app/hadoop/spark-1.1.0/sbin
$./start-all.sh
```
　　1.2.3 读取文件并保存

　　第一步准备测试数据文件

　　使用Tachyon命令行准备测试数据文件
```
$cd /app/hadoop/tachyon-0.5.0/bin
$./tachyon tfs copyFromLocal ../conf/tachyon-env.sh /tachyon-env.sh
$./tachyon tfs ls /
```
　　　　　　　　　　

　　第二步启动Spark-Shell
```
$cd /app/hadoop/spark-1.1.0/bin
$./spark-shell
```
　　第三步对测试数据文件进行计数并另存

对前面放入到Tachyon文件系统的文件进行计数
```
scala>val s = sc.textFile("tachyon://hadoop1:19998/tachyon-env.sh")
scala>s.count()
```
　　　　　　　　

　　　　　　　　

　　把前面的测试文件另存为tachyon-env-bak.sh文件
```
scala>s.saveAsTextFile("tachyon://hadoop1:19998/tachyon-env-bak.sh")
```
　　　　　　　　

　　　　　　　　　　

　　第四步在Tachyon的UI界面查看

　　可以查看到该文件在Tachyon文件系统中保存成tahyon-env-bak.sh文件夹

　　　　　　　　

　　该文件夹中包含两个文件，分别为part-00000和part-00001：

　　　　　　　　

　　其中tahyon-env-bak.sh/part-0001文件中内容如下：

　　　　　　

　　另外通过内存存在文件的监控页面可以观测到，这几个操作文件在内存中：

　　　　　　

1.3 Tachyon运行MapReduce

　　1.3.1 修改core-site.xml

　　该配置文件为$Hadoop_HOME/conf目录下的core-site.xml文件
```
$cd /app/hadoop/hadoop-2.2.0/etc/hadoop
$vi core-site.xml
```
　　修改core-site.xml文件配置，添加如下配置项：
```
<property>
  <name>fs.tachyon.impl</name>
  <value>tachyon.hadoop.TFS</value>
</property>
<property>
  <name>fs.tachyon-ft.impl</name>
  <value>tachyon.hadoop.TFSFT</value>
</property>
```
　　　　　　　　

　　1.3.2 启动YARN
```
$cd /app/hadoop/hadoop-2.2.0/sbin
$./start-yarn.sh
```
　　1.3.3 运行MapReduce例子

　　第一步创建结果保存目录
```
$cd /app/hadoop/hadoop-2.2.0/bin
$./hadoop fs -mkdir /class10
```
　　第二步运行MapReduce例子
```
$cd /app/hadoop/hadoop-2.2.0/bin
$./hadoop jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount -libjars $TACHYON_HOME/client/target/tachyon-client-0.5.0-jar-with-dependencies.jar  tachyon://hadoop1:19998/tachyon-env.sh hdfs://hadoop1:9000/class10/output
```
　　　　　　　　

　　　　　　　　

　　第三步查看结果

　　查看HDFS，可以看到在/class10中创建了output目录

　　　　　　　　

　　查看part-r-0000文件内容，为tachyon-env.sh单词计数

　　　　　　　　
相关阅读:
/、./和../的区别
 【Java基础】-- FileUtils工具类常用方法
 【数据库】-- MySQL中比like更高效的三个写法
 【Java框架】-- SpringBoot大文件RestTemplate下载解决方案
 记一次gitlab代码仓清空还原复盘
 聊聊如何实现一个带有拦截器功能的SPI
聊聊如何实现一个支持键值对的SPI
类实例对象的class类型却不属于该类，何解？
exe打包成安装文件（界面美观）
linux系统软件启动sh脚本
原文地址：https://www.cnblogs.com/zlslch/p/6786386.html

Spark Tachyon实战应用（配置启动环境、运行spark和运行mapreduce）

Tachyon实战应用

配置及启动环境

修改spark-env.sh

启动HDFS

启动Tachyon

Tachyon上运行Spark

添加core-site.xml

启动Spark集群

读取文件并保存

Tachyon运行MapReduce

修改core-site.xml

启动YARN

运行MapReduce例子

1 配置及启动环境

1.1.1 修改spark-env.sh

1.1.2 启动HDFS

1.1.3 启动Tachyon

1.2 Tachyon上运行Spark

1.2.1 添加core-site.xml

1.2.2 启动Spark集群

1.2.3 读取文件并保存

1.3 Tachyon运行MapReduce

1.3.1 修改core-site.xml

1.3.2 启动YARN

1.3.3 运行MapReduce例子

　　1.1.1 修改spark-env.sh

　　1.1.2 启动HDFS

　　1.1.3 启动Tachyon

　　1.2.1 添加core-site.xml

　　1.2.2 启动Spark集群

　　1.2.3 读取文件并保存

　　1.3.1 修改core-site.xml

　　1.3.2 启动YARN

　　1.3.3 运行MapReduce例子