• 使用Spark开发应用程序,并将作业提交到服务器


    1、pycharm编写spark应用程序

    由于一些原因在windows上配置未成功(应该是可以配置成功的)、我是在linux上直接使用pycharm,在linux的好处是,环境可能导致的一切问题不复存在

    111   新建一个普通python工程

    编程环境使用spark使用的python环境

    222   配置spark环境

    进入下图

    添加2个相应属性

    PYTHON_PATH为spark安装目录下的python的路径

    我的:/home/hadoop/app/spark-2.3.0-bin-2.6.0-cdh5.7.0/python

    SPARK_HOMR为spark安装目录

    我的:/home/hadoop/app/spark-2.3.0-bin-2.6.0-cdh5.7.0

    完成后

    导入两个包进入setting

    包位置为spark安装目录下python目录下lib里

    2、正式编写

    创建一个python文件

    from pyspark import SparkConf, SparkContext
    
    # 创建SparkConf:设置的是spark的相关信息
    conf = SparkConf().setAppName("spark0301").setMaster("local[2]")
    
    # 创建SparkContext
    sc = SparkContext(conf=conf)
    
    # 业务逻辑
    data = [1, 2, 3, 4, 5]
    # 转成RDD
    distdata = sc.parallelize(data)
    print(distdata.collect())
    
    # 好的习惯
    sc.stop()

    在linux系统用户家根目录创建一个script

    将代码放入spark0301.py中

    将appname和master去掉,官网说不要硬编码,会被自动赋值

    然后进入spark安装目录下bin目录运行

    ./spark-submit --master local[2] --name spark0301 /home/hadoop/script/spark0301.py 

    因为速度太快结束网站是看不到的

  • 相关阅读:
    SVGEditor
    SVG六基本元素
    SVG在网页中的四种使用方式
    Chrome中java因过期而遭到阻止
    Weblogic常见故障常:JDBC Connection Pools
    MyBatis java.sql.SQLSyntaxErrorException: ORA-00911: 无效字符
    MYBATIS 无效的列类型: 1111
    [MyBatis]mapperLocations属性通配符的使用
    secureCRT自动化脚本
    google protocol buffer的原理和使用(四)
  • 原文地址:https://www.cnblogs.com/zhangguangxiang/p/14232648.html
Copyright © 2020-2023  润新知