• Spark简介安装和简单例子


    Spark简介

    Spark是一种快速、通用、可扩展的大数据分析引擎,目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。简单来说Spark是 内存迭代计算,每个算子将计算结果保存在内存中,其他算子,读取这个结果,继续计算。

    Spark的四个特性:

    1.快
    Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。

    2.易用
    Spark支持Java、Python和Scala的API,还支持超过80种高级算法,而且Spark支持交互式的Python和Scala的shell,可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法。
    依赖外部数据源hdfs、本地文件.kafka.flume.mysql.ELK)

    3.通用
    Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。这些不同类型的处理都可以在同一个应用中无缝使用。

    4.兼容性
    Spark可以非常方便地与其他的开源产品进行融合。比如,Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器,器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase和Cassandra等。它实现了Standalone作为其内置的资源管理和调度框架,使得所有人都可以非常容易地部署和使用Spark。

    Spark的安装:

    1.准备两台以上Linux服务器,安装好JDK1.7
    2.在官网:http://spark.apache.org/ 中下载Spark安装包
    http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz
    上传解压安装包
    上传spark-1.5.2-bin-hadoop2.6.tgz安装包到Linux上
    解压安装包到指定位置
    tar -zxvf spark-1.5.2-bin-hadoop2.6.tgz -C /usr/local
    3.进入到Spark安装目录
    cd /usr/local/spark-1.5.2-bin-hadoop2.6
    进入conf目录并重命名并修改spark-env.sh.template文件
    cd conf/
    mv spark-env.sh.template spark-env.sh
    vi spark-env.sh
    在该配置文件中添加如下配置
    export JAVA_HOME=/usr/java/jdk1.7.0_45
    export SPARK_MASTER_IP=机器的ip
    export SPARK_MASTER_PORT=7077
    保存退出
    重命名并修改slaves.template文件
    mv slaves.template slaves
    vi slaves
    在该文件中添加子节点所在的位置(Worker节点)
    子节点机器地址1
    子节点机器地址2
    子节点机器地址3
    保存退出
    将配置好的Spark拷贝到其他节点上
    scp -r spark-1.5.2-bin-hadoop2.6/ 子节点机器地址1:/usr/local/
    scp -r spark-1.5.2-bin-hadoop2.6/ 子节点机器地址2:/usr/local/
    scp -r spark-1.5.2-bin-hadoop2.6/ 子节点机器地址3:/usr/local/

    Spark集群配置完毕,目前是1个Master,3个Work,在master所在机器上启动Spark集群
    /usr/local/spark-1.5.2-bin-hadoop2.6/sbin/start-all.sh

    启动后执行jps命令,主节点上有Master进程,其他子节点上有Work进行,登录Spark管理界面查看集群状态(主节点):http://master机器ip:8080/

    到此为止,Spark集群安装完毕,但是有一个很大的问题,那就是Master节点存在单点故障,要解决此问题,就要借助zookeeper,并且启动至少两个Master节点来实现高可靠,配置方式比较简单:
    Spark集群规划:node1,node2是Master;node3,node4,node5是Worker
    安装配置zk集群,并启动zk集群
    停止spark所有服务,修改配置文件spark-env.sh,在该配置文件中删掉SPARK_MASTER_IP并添加如下配置
    export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=zk1,zk2,zk3 -Dspark.deploy.zookeeper.dir=/spark"
    (1).在node1节点上修改slaves配置文件内容指定worker节点
    (2).在node1上执行sbin/start-all.sh脚本,然后在node2上执行sbin/start-master.sh启动第二个Master 。

    启动Spark Shell

    spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序。

    /usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-shell  
    --master spark://node1:7077  
    --executor-memory 2g  
    --total-executor-cores 2

    参数说明:
    --master spark://node1:7077 指定Master的地址
    --executor-memory 2g 指定每个worker可用内存为2G
    --total-executor-cores 2 指定整个集群使用的cup核数为2个

    注意:
    如果启动spark shell时没有指定master地址,但是也可以正常启动spark shell和执行spark shell中的程序,其实是启动了spark的local模式,该模式仅在本机启动一个进程,没有与集群建立联系。

    Spark Shell中已经默认将SparkContext类初始化为对象sc。用户代码如果需要用到,则直接应用sc即可

    WordCount程序

    1.首先启动hdfs
    2.向hdfs上传一个文件到hdfs://master机器ip:9000/words.txt
    3.在spark shell中用scala语言编写spark程序
    sc.textFile("hdfs://node1:9000/words.txt").flatMap(_.split(" "))
    .map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://node1:9000/out")

    4.使用hdfs命令查看结果
    hdfs dfs -ls hdfs://master机器ip:9000/out/p*

    说明:
    sc是SparkContext对象,该对象时提交spark程序的入口
    textFile(hdfs:/master机器ip:9000/words.txt)是hdfs中读取数据
    flatMap(_.split(" "))先map在压平
    map((_,1))将单词和1构成元组
    reduceByKey(_+_)按照key进行reduce,并将value累加
    saveAsTextFile("hdfs://master机器ip:9000/out")将结果写入到hdfs中

  • 相关阅读:
    501. 二叉搜索树中的众数
    530. 二叉搜索树的最小绝对差
    Java强制类型转换注意
    PL_SQL常用快捷键及设置
    Java线程:大总结
    Java多线程售票程序分析
    Java多线程的几种实现方式
    Java线程的几种状态
    Java的同步机制:synchronized关键字
    Eclipse常用设置[不断完善]
  • 原文地址:https://www.cnblogs.com/csguo/p/7749981.html
Copyright © 2020-2023  润新知