• 【原】简述使用spark集群模式运行程序


    本文前提是已经正确安装好scala,sbt以及spark了
     
    简述将程序挂载到集群上运行的步骤:
    1、构建sbt标准的项目工程结构:
    SBT项目工程结构图
    其中:
    ~/build.sbt文件用来配置项目的基本信息(项目名、组织名、项目版本、使用的scala版本或者再次配置些项目所需的依赖包);
    project/build.properties文件配置你要使用什么版本的sbt对项目操作;
    project/plugins.sbt文件是给项目添加所需的插件;
    project/Build.scala文件是对项目进行些复杂的高级配置;
    详细的sbt安装配置实用参见博文:http://www.cnblogs.com/vincent-hv/p/3309805.html
     
    2、到相应目录下编写程序,spark程序必须要创建一个SparkContext实例。
    SparkContext("master", "projectName", "SPARK_HOME", "yourProject.jar path")
     
    3、sbt compile命令编译程序无错后,sbt package命令将程序打包。默认打包的jar文件存放路径为:
    项目根目录/target/scala-xx.xx.xx/your-project-name_xx.xx.xx-xx.jar
     
    4、将打包好的jar问价添加到SPAK_CLASSPATH中(在linux中根据作用范围的不同有多种更改环境变量的方式,这里只说我的配置方式:spark根目录下的conf/spark-env.sh文件添加SPARK_CLASSPATH:xxxxxxxx)
     
    5、配置好环境变量后就可以在spark的根目录下使用./run脚本运行你的程序了
    例如:./run spark.examples.SparkPi spark://masterIP:port
    注意,如果程序涉及IO操作起默认路径为SPARK_HOME;至于如何修改这个路径,有待研究
  • 相关阅读:
    yarn安装ant-报错
    Linux扩展分区记录
    转载--tomcat调优
    转发:tomcat的acess_log打印post请求参数,分析日志
    经纬度差和米单位的换算
    loadrunner 11 安装与使用
    前端知识图谱
    linux-nc命令介绍
    双网卡设置(转:https://www.cnblogs.com/visionfeng/p/5825078.html)
    网络设备介绍
  • 原文地址:https://www.cnblogs.com/vincent-hv/p/3309883.html
Copyright © 2020-2023  润新知