• 02.spark-spark分布式安装


    1.规划  三台服务器

    s101 //master(进程)
    s102 ~ s104 //worker(进程)

    2.在每个主机上分别安装spark

    tar -zxvf /home/centos/download/spark-2.1.1-bin-hadoop2.7.tgz -C /soft/

    ln -s spark-2.1.1-bin-hadoop2.7/   spark


    3.配置spark(每个节点进行相同操作)
    3.1)在spark的conf目录下创建hadoop的core-site.xml和hdfs-site.xml软连接
    $>xcall.sh ln -s /soft/hadoop/etc/hadoop/core-site.xml /soft/spark/conf/core-site.xml
    $>xcall.sh ln -s /soft/hadoop/etc/hadoop/hdfs-site.xml /soft/spark/conf/hdfs-site.xml

    3.2)配置JAVA_HOME环境变量
    $>cd /soft/spark/conf
    $>cp spark-env.sh.template spark-env.sh
    $>nano spark-env.sh
    ...
    export JAVA_HOME=/soft/jdk
    ...

    2)添加JAVA_HOME环境变量

    [centos@s101 /soft/spark/sbin]$nano spark-config.sh

    #java JDK
    export JAVA_HOME=/soft/jdk


    3.3)修改slaves文件
    $>cd /soft/spark/conf
    $>cp slaves.template slaves
    $>nano slaves
    s102
    s103
    s104

    3.4)分发配置文件
    $>xsync.sh spark-env.sh
    $>xsync.sh slaves

    4.启动spark集群
    4.1)启动hadoop集群
    xzk.sh start //启动zk
    start-dfs.sh //启动hdfs
    4.2)启动spark
    $>cd /soft/spark/sbin
    $>./start-all.sh

    5.webui
    http://s101:8080

    5上传本地文件到hdfs

    [centos@s101 /home/centos]$hadoop fs -mkdir /user/centos/download

    查看当前目录信息
            hdfs dfs -ls /
            
    上传文件
            hdfs dfs -put /本地路径 /hdfs路径


    6.启动spark shell,连接到spark集群
    $>spark-shell --master spark://s101:7077
    $>sc.textFile("/user/centos/data/1.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect()

    http://s101:8080 查看执行情况

  • 相关阅读:
    C语言网 蓝桥杯 1117K-进制数
    C语言网蓝桥杯1116 IP判断
    LeetCode 面试题14- II. 剪绳子 II
    LeetCode 面试题06. 从尾到头打印链表
    LeetCode 面试题05. 替换空格
    LeetCode 面试题04. 二维数组中的查找
    LeetCode 面试题03. 数组中重复的数字
    LeetCode 3. 无重复字符的最长子串
    LeetCode 202. 快乐数
    LeetCode 154. 寻找旋转排序数组中的最小值 II
  • 原文地址:https://www.cnblogs.com/star521/p/15130053.html
Copyright © 2020-2023  润新知