• 搭建centos7的开发环境3-Spark安装配置


    说起大数据开发,必然就会提到Spark,在这片博文中,我们就介绍一下Spark的安装和配置。
    这是Centos7开发环境系列的第三篇,本篇的安装会基于之前的配置进行,有需要的请回复搭建centos7的开发环境1-系统安装及Python配置搭建centos7的开发环境2-单机版Hadoop2.7.3配置

    安装Spark

    这里说明一下各种软件的版本号:
    open-JDK: 1.8.0
    Hadoop: 2.7.3
    scala: 2.11.8
    Spark: 2.1.0

    scala

    • 下载 sacla2.11.8
    • 解压安装,并配置环境变量
    1. tar -zxvf scala-2.11.8.tgz
    2. sudo mv scala-2.11.8 /usr/scala

    spark

    • 下载 spark 2.1.0
    • 解压安装,并配置环境变量
    1. tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz
    2. sudo mv spark-2.1.0 /usr/spark
    3. vim /etc/profile
    4. ========================
    5. export HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=$HADOOP_HOME/lib/native"
    6. SCALA_HOME=/usr/scala
    7. export PATH=$PATH:$SCALA_HOME/bin
    8. SPARK_HOME=/usr/spark
    9. export PATH=$SPARK_HOME/bin:$PATH
    10. ========================
    11. source /etc/profile
    12. ###########################
    13. export SCALA_HOME=/usr/scala
    14. export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.121-0.b13.el7_3.x86_64
    15. export SPARK_MASTER_IP=127.0.0.1
    16. export SPARK_LOCAL_IP=127.0.0.1
    17. export SPARK_WORKER_MEMORY=1g
    18. export HADOOP_CONF_DIR=/usr/hadoop/etc/hadoop

    配置完成之后,启动命令

    /usr/hadoop/sbin/start-all.sh
    /usr/spark/sbin/start-all.sh
    打开链接 http://127.0.0.1:8080/,现在可以看到:

    在终端分别输入spark-shell和pyspark都运行正常。

    wordcount测试

    创建数据集

    在spark官网拷贝了一个网页作为数据源创建words.txt作为输入数据,并导入hdfs.

    1. touch words.txt
    2. vim words.txt
    3. cd /usr/hadoop/sbin
    4. hadoop fs -mkdir hdfs://localhost:9000/input
    5. hadoop fs -put /home/kejun/words.txt hdfs://localhost:90000/input
    6. pyspark

    现在进入pyspark的界面:

    1. textFile=sc.textFile("hdfs://localhost:9000/input/words.txt")
    2. counts = textFile.flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
    3. counts.saveAsTextFile("hdfs://localhost:9000/input/out")

    在hdfs的filesystem可以下载到wordcount结果

    spark安装成功啦~

  • 相关阅读:
    spin lock自旋锁 双链表操作(多线程安全)(Ring0)
    Interlocked单向链式栈
    自旋锁(Spin Lock)
    可等待定时器(获取系统时间)
    APC注入(Ring3)
    IOCP IO完成端口
    异步设备IO OVERLAPPED结构(设备内核对象 事件内核对象 可提醒IO)
    读写锁 SRWLOCK
    shell查看进程
    linux dmesg命令
  • 原文地址:https://www.cnblogs.com/kendrick/p/6655987.html
Copyright © 2020-2023  润新知