• spark jobserver初探


    一)准备工作

    在linux安装sbt

    curl https://bintray.com/sbt/rpm/rpm | sudo tee /etc/yum.repos.d/bintray-sbt-rpm.repo
    sudo yum install sbt
    根据spark版本下载spark-jobserver
    
    https://github.com/spark-jobserver/spark-jobserver/releases
    示例下载的版本是0.6.2 https://github.com/spark-jobserver/spark-jobserver/archive/v0.6.2.tar.gz
    示例下载的安装位置:/data1/local/wqq/spark-jobserver_bak
    

    二)部署

    接下来介绍spark-jobserver
    
    spark-jobserver_bak下目录结构如下:
    
    Image

    步骤1:

    拷贝config/local.sh.template文件为local.sh,参考命令:cp config/local.sh.template config/local.sh
    

    步骤2:

    配置local.sh文件,下面是对文件内容的重要说明。
    
    注意:如果是使用打包命令(server_package.sh)仅仅需要配置spark的相关配置
    
    # Environment and deploy file
    # For use with bin/server_deploy, bin/server_package etc.
    DEPLOY_HOSTS="10.207.26.250" #使用server_deploy.sh命令部署远程的机器ip或者host,使用server_package.sh命令不用配置
    APP_USER=root #部署远程的机器使用用户,使用server_package.sh命令不用配置
    APP_GROUP=root#部署远程的机器使用用户所属组,使用server_package.sh命令不用配置
    # optional SSH Key to login to deploy server
    #SSH_KEY=/path/to/keyfile.pem
    INSTALL_DIR=/data1/local/spark-jobserver #远程机器安装路径,使用server_package.sh命令不用配置
    LOG_DIR=/data1/local/spark-jobserver/logs #job进程日志位置
    PIDFILE=spark-jobserver.pid #job进程的pid文件名称
    JOBSERVER_MEMORY=1G #job进程内存大小
    #以下是spark的相关配置 start
    
    SPARK_VERSION=1.6.0
    MAX_DIRECT_MEMORY=512M
    SPARK_HOME=/data1/local/spark-1.6.1-bin-hadoop2.3
    SPARK_CONF_DIR=$SPARK_HOME/conf
    #spark的相关配置 end
    
    # Only needed for Mesos deploys
    SPARK_EXECUTOR_URI=/home/spark/spark-1.6.0.tar.gz
    # Only needed for YARN running outside of the cluster
    # You will need to COPY these files from your cluster to the remote machine
    # Normally these are kept on the cluster in /etc/hadoop/conf
    # YARN_CONF_DIR=/pathToRemoteConf/conf
    # HADOOP_CONF_DIR=/pathToRemoteConf/conf
    #
    # Also optional: extra JVM args for spark-submit
    # export SPARK_SUBMIT_OPTS+="-agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=5433"
    SCALA_VERSION=2.10.4 # or 2.11.6

    步骤3:

    打包或者远程部署
    
    打包使用bin/server_package.sh local;远程部署使用bin/server_deploy.sh local(注释:如果执行报错,提醒你找不到local.sh文件,你可以根据错误提示信息把local.sh文件拷贝到相应的路径下)
    
    执行命令后,sbt会下载相关jar包,时间较长。
    
    打包命令过程:
    
    Image
    上图中的红色圈出的路径就是打包放置的路径。打包成功后,需要使用tar命令解压到需要安装机器的目录下,示例安装的路径是/data1/local/spark-jobserver
    
    远程部署命令过程:
    
    Image
    Image
    需要输入root密码。执行命令后,就可以在远程机器的相应目录中看到,示例local.sh配置的位置是/data1/local/spark-jobserver

    步骤4:

    启动
    
    在/data1/local/spark-jobserver目录下的结构如下:
    
    Image
    需要查看一下local.conf和settings.sh二个文件的配置是否有问题,没有问题就可以使用server_start.sh启动jobserver
    启动后会spark-jobserver.pid这个文件,查看里面的内容就是进程的id号。
    
    正确启动后就可以通过浏览器访问该主机的8090端口,例如:10.207.26.250:8090。
    
    Image
     
    参考文档&项目地址
    
    https://github.com/spark-jobserver/spark-jobserver
    
  • 相关阅读:
    POJ2516 构图+k次费用流
    POJ 1511 最短路径之和(spfa或dijkstra+heap)
    windows中配置mongodb
    原型设计
    Erlang的参考资源
    用Erlang实现递归查找文件
    list相关的习题
    springmvc基础知识
    汇编实验4
    实验3 转移指令跳转原理及其简单应用编程
  • 原文地址:https://www.cnblogs.com/xiongmaotailang/p/5649256.html
Copyright © 2020-2023  润新知