• pyspark 安装配置【linux && win】


    一、windows 安装
    1、下载spark
       http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz 
    
    2、配置spark 环境变量
    set SPARK_HOME=d:spark2.3.1
    set PATH=%SPARK_HOME%in;%PATH%
    
    3、安装python的pyspark模块
    pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/ 
    
    4、下载安装hadoop 或者 组件
    1)下载hadoop软件包,并配置环境变量
    set HADOOP_HOME=d:hadoop
    set PATH=%HADOOP_HOME%in;%PATH%
    
    2)下载hadoop-common-2.2.0-bin-master.zip(自己百度) 并配置环境变量
    下载后是文件名是hadoop-common-2.2.0-bin-master.zip,随便解压到一个目录,设置HADOOP_HOME环境变量,指向 d:hadoop (解压后的下载文件), 并将HADOOP_HOME加到系统变量PATH中
    set HADOOP_HOME=d:hadoop
    set PATH=%HADOOP_HOME%in;%PATH%
    
    二、linux 环境
    1、下载spark
        wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz 
        tar -zxvf  spark-2.3.1-bin-hadoop2.7.tgz
    
    2、配置spark 环境变量
    vi ~/.bash_profile
    #将以下代码添加到文件中
    export SPARK_HOME=/tools/spark2.3.1
    export PATH=$SPARK_HOME/bin:$PATH
    export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH 
    
    3、安装python的pyspark模块
       pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/ 


    注释:
    1、如果想在python项目中使用spark 功能,python开发环境除了安装pyspark 模块外,还需要同时安装spark软件包才能正常使用。
    2、linux 环境只需要安装jdk、spark、pyspark(python模块)即可;windows 环境还需要额外安装hadoop组件,否则运行报错。
  • 相关阅读:
    [BUUCTF 2018]Online Tool
    [ZJCTF 2019]NiZhuanSiWei 1
    [极客大挑战 2019]PHP
    [De1CTF 2019]SSRF Me
    2018网鼎杯 Fakebook
    [CISCN2019 华北赛区 Day2 Web1]Hack World
    SUCTF checkin
    强网杯 高明的黑客
    GYCTF Ezsqli
    GYCTF 盲注【regexp注入+时间盲注】
  • 原文地址:https://www.cnblogs.com/husbandmen/p/9360402.html
Copyright © 2020-2023  润新知