• Python+Spark2.0+hadoop学习笔记——pyspark基础


    在历经千辛万苦后,终于把所有的东西都配置好了。

    下面开始介绍pyspark的一些基础内容,以字数统计为例。

    1)在本地运行pyspark程序

    读取本地文件

    textFile=sc.textFile("file:/usr/local/spark/README.md")

    textFile.count()

    读取HDFS文件

    textFile=sc.textFile('hdfs://master:9000/user/*********/wordcount/input/LICENSE.txt")

    textFile.count()

    2)在Hadoop YARN运行pyspark

    HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop pyspark --master yarn --deploy-more client

    textFile=sc.textFile('hdfs://master:9000/user/*********/wordcount/input/LICENSE.txt")

    textFile.count()

    3)构建Spark Standalone Cluster运行环境

    cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh

    sudo gedit /usr/local/spark/conf/spark

    然后进行下面的设置

    export SPARK_MASTER_IP=master

    export SPARK_WORKER_CORES=1

    export SPARK_WORKER_MEMORY=512m

    export SPARK_WORKER_INSTANCES=4

    然后连接每个计算机,之后启动Spark Standalone Cluster

    /usr/local/spark/sbin/start-all.sh

    pyspark --master spark://master:7077 --num-executors 1 --total-executor-cores 3 --executor 512m

    读取本地文件

    textFile=sc.textFile("file:/usr/local/spark/README.md")

    textFile.count()

    读取HDFS文件

    textFile=sc.textFile('hdfs://master:9000/user/*********/wordcount/input/LICENSE.txt")

    textFile.count()

  • 相关阅读:
    中国内地、台湾、香港、澳门和国外DNS服务器地址列表
    科学、道法、哲学
    Away 3d 基本属性
    away 3d的一些问题
    Adobe Flash CC 2014 下载及破解
    html5结合flash实现视频文件在所有主流浏览器兼容播放
    Html wmode 标签参数详解
    九宫格
    flash/flex 编译错误汇总
    Redis在windows下安装过程(转)
  • 原文地址:https://www.cnblogs.com/zhuozige/p/12603599.html
Copyright © 2020-2023  润新知