• Spark集群的搭建


    一、前提条件

    1.1创建3台虚拟机,且配置好网络,建立好互信。

    1.2 Java1.8环境已经配置好

    1.3 Hadoop2.7.7集群已经完成搭建,具体参见我的博客https://www.cnblogs.com/theyang/p/12363276.html

    1.4 Scala软件包和Spark软件包的下载:

    https://www.scala-lang.org/download/

    http://spark.apache.org/downloads.html

    二、安装Scala

    2.1将下载的Scala上传到虚拟机

    2.2解压安装包到指定路径/opt/soft(没有自行创建):tar -zxvf scala-2.13.0.tgz -C /opt/soft

    2.3配置环境变量

    vi /etc/profile
    SCALA_HOME=/opt/soft/scala-2.13.0 
    PATH=$PATH:$SCALA_HOME/bin 

    三、Scala验证安装

    [root@master data]# scala
    Welcome to Scala 2.13.1 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_161).
    Type in expressions for evaluation. Or try :help.
    
    scala> 

    四、安装Spark

    4.1将下载的Spark上传到虚拟机

    4.2解压安装包到指定路径:tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz -C /opt/soft

    4.3配置环境变量

    vi /etc/profile
    SPARK_HOME=/opt/soft/spark-2.4.4-bin-hadoop2.7 
    PATH=$PATH:$SPARK_HOME/bin 

    上述Scala和Spark环境变量配置好后的profile文件如下图

    4.4配置完环境变量记得

    source /etc/profile

    4.5在spark-env.sh文件加入以下内容(没有这个文件的话复制一个spark-env.sh.template修改成spark-env.sh)

    export JAVA_HOME=/opt/soft/jdk1.8     #jdk的安装目录
    export SCALA_HOME=/opt/soft/scala-2.13.1  #scala的安装目录
    export HADOOP_HOME=/opt/soft/hadoop2.7  #hadoop安装目录
    export HADOOP_CONF_DIR=/opt/soft/hadoop2.7/etc/hadoop  #hadoop安装目录下对应的文件
    export SPARK_MASTER_HOST=hadop51      #本机的名字 可在/etc/hostname里修改 注意:集群的各个机器对应各自的主机名
    export SPARK_WORKER_MEMORY=1g        #Spark应用程序Application所占的内存大小
    export SPARK_WORKER_CORES=2         #每个Worker所占用的CPU核的数目
    export SPARK_HOME=/opt/soft/spark-2.4.4-bin-hadoop2.7 #spark安装目录
    export SPARK_DIST_CLASSPATH=$(/opt/soft/hadoop2.7/bin/hadoop classpath) #hadoop安装目录对应的文件
    

    4.6slaves配置(没有这个文件的话复制一个slaves.template修改成slaves)

    加入以下配置(三台主机名)

    五、复制到其他节点

    5.1在第一台机器节点上安装配置完成Spark后,将整个spark目录拷贝到其他节点,并在各个节点上更新/etc/profile文件中的环境变量

    scp -r /opt/soft/spark-2.4.4-bin-hadoop2.7/ root@hadop52:/opt/soft/
    scp -r /opt/soft/spark-2.4.4-bin-hadoop2.7/ root@hadop53:/opt/soft/
    把profile文件也复制过去,省得再去配置环境变量:
    scp /etc/profile root@hadop52:/etc/
    scp /etc/profile root@hadop53:/etc/ 

    5.2复制完后记得在其它节点

    source /etc/profile
    

    六、测试Spark

    6.1在主节点启动Hadoop集群

    start-all.sh

    6.2在主节点启动spark集群

    cd /opt/soft/spark-2.4.4-bin-hadoop2.7/sbin/
    ./start-all.sh
    

    6.3打开浏览器输入http://ip:8080,看到如下活动的Workers,证明安装配置并启动成功

  • 相关阅读:
    正则表达式
    正则表达式-量词
    正则表达式-字符组
    6月学习总结
    利用Magick和gs实现pdf到jpg的转换
    NGS Antenna Calibrations
    VS2017运行旧版本下的C程序工程
    C#.NET SQLite自适应32位/64位系统
    RAID1环境下外挂第三块硬盘
    修复 Fontconfig Error
  • 原文地址:https://www.cnblogs.com/theyang/p/12716688.html
Copyright © 2020-2023  润新知