• centos7安装Scala、Spark(伪分布式)


    centos7安装spark(伪分布式)

    spark是由scala语言开发的,首先需要安装scala.

    Scala安装

    下载scala-2.11.8,(与spark版本要对应)

    命令:wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz

     

    解压到文件夹并配置环境变量

    vim /etc/profile

     

    #scala

    export SCALA_HOME=/home/zck/software/scala

    export PATH=$PATH:$SCALA_HOME/bin

    使配置文件生效

     

    测试:scala -version

     

    配置伪分布式spark;

    解压到文件夹并配置环境变量

    vim /etc/profile

     

    末尾添加以下内容

    #spark

    export SPARK_HOME=/home/zck/software/spark

    export PATH=$SPARK_HOME/bin:$PATH测试

    修改配置文件spark/conf/spark-env.sh

    加入内容

    export JAVA_HOME=/home/zck/software/jdk

    export SCALA_HOME=/home/zck/software/scala

    export HADOOP_HOME=/home/zck/software/hadoop

    export HADOOP_CONF_DIR=/home/zck/software/hadoop/etc/hadoop

    export SPARK_MASTER_IP=192.168.13.101

    export SPARK_MASTER_PORT=7077

    启动spark服务

    进入spark文件夹,sbin/start-all.sh

     

    然后再去浏览器看看

    Spark yarn模式配置

    1、修改hadoop配置文件yarn-site.xml,添加如下内容:

    <!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->

           <property>

                  <name>yarn.nodemanager.pmem-check-enabled</name>

                  <value>false</value>

           </property>

            <!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->

           <property>

                  <name>yarn.nodemanager.vmem-check-enabled</name>

                  <value>false</value>

           </property>

     

    2、修改spark-env.sh,添加如下配置:

    export YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop

     

    3、日志配置

    修改配置文件spark-defaults.conf

    添加如下内容:

    spark.yarn.historyServer.address=hadoop102:18080

    spark.history.ui.port=18080

     

    4、重启spark历史服务

    sbin/stop-history-server.sh

    sbin/start-history-server.sh

     

     Spark几种模式对比

    模式

    Spark安装机器数

    需启动的进程

    所属者

    Local

    1

    Spark

    Standalone

    3

    Master及Worker

    Spark

    Yarn

    1

    Yarn及HDFS

    Hadoop

  • 相关阅读:
    百度地图代码API
    3层下拉列表
    stl+数论——1247D
    数论+乱搞——cf181B
    思维+multiset优化——cf1249E
    线性基思想+贪心——cf1249C
    tarjan求强连通+缩点——cf1248E
    排序+模拟+优先队列——cf1248E
    栈+括号序列+暴力枚举——cf1248D1
    二分+贪心——cf1251D
  • 原文地址:https://www.cnblogs.com/2016-zck/p/11478205.html
Copyright © 2020-2023  润新知