• spark 源码安装


    clone 源码

    git clone git://github.com/apache/spark.git

    maven编译源码

    国外镜像比较慢,此处修改maven仓库的镜像为阿里云镜像:

     <mirrors>
        <mirror>
          <id>alimaven</id>
          <name>aliyun maven</name>
          <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
          <mirrorOf>central</mirrorOf>        
        </mirror>
      </mirrors>

    编译的时候内存设置大一点,以免内存溢出,导致编译失败,此处设置maven内存如下:

    export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M
    -XX:ReservedCodeCacheSize=512m"

    mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -DskipTests clean package

    -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 参考下面的链接:

    https://spark.apache.org/docs/latest/building-spark.html#specifying-the-hadoop-version

    -D系统参数,-P profile定义

    查看hadoop版本:./hadoop version 或者 ./hdfs version

    测试编译

    ./bin/run-example SparkPi 10
    

    结果如下则编译没问题:

    spark在yarn集群上的运行

    注:spark在yarn上运行时不需要启动spark集群的,因为,spark任务是在yarn集群上运行的

    在yarn上运行spark应用程序有两种方式,第一种是 cluster模式,第二种是client模式,

    区别是cluster模式Spark driver运行在yarn集群上,client模式Spark driver运行在客户端进程中。

    使用./bin/spark-submit向yarn集群提交spark应用,

    $ ./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] <app jar> [app options]
    

    --class:主类

    --master:yarn指定在yarn上运行

    --deploy-mode:部署模式cluster 指定为集群模式

      app jar:应用程序打的jar包

    应用实例: 

    ./bin/spark-submit --class spark.examples.wordcount.WordCount --master yarn --deploy-mode  cluster wordcount.jar README.md 

    注:运行前请确保yarn的安装时正确的,结果可以在日志文件里面看到

    客户端模式如下:

    ./bin/spark-shell --master yarn --deploy-mode client
    ./bin/spark-shell --class spark.examples.wordcount.WordCount --master yarn --deploy-mode client --jars wordcount.jar README.md
    

      

  • 相关阅读:
    rt_list_entry() 函数
    替换空格
    跳台阶
    斐波那契数列
    基于5221码的同步十进制加法计数器
    强连通分量+Tarjia+缩点
    次小生成树
    差分约束
    P1547 Out of Hay
    P1197 [JSOI2008]星球大战
  • 原文地址:https://www.cnblogs.com/heml/p/6124819.html
Copyright © 2020-2023  润新知