• 1 在本机上创建单机版pyspark


    1 安装java

    pyspark需要java支持, 首先必须安装java,  至少安装java8,或者更高版本, 推荐java8

    安装教程:https://www.runoob.com/java/java-environment-setup.html

    记得配置环境变量:java_home

    安装成功如下:

     2 下载spark并解压放在一个新的文件夹下

    spark官网:https://archive.apache.org/dist/spark/

    一定要下载比较老的版本,作者下载的是spark-2.3.1,参考的是国外一个印度小哥的视频,所以下载的和他一样。

    j记得配置环境变量:spark_home

    解压出来如下图:

    3 winutils安装

    windows环境下还需要装个东西来替换掉spark里的bin文件才行
    https://github.com/steveloughran/winutils
    替换完成后

     4 第一次检验

    cmd pyspark, 如果找不到就说明spark_home环境变量没有配置好。打开如下这种是说python的环境没有激活, 

    好, 那你现在用anaconda prompt打开, 再试试

    这次并没有说未激活, 但是还是报错。按说明用的python的版本过高,spark不支持你目前的python, 比如我这里是python 3.8.8, 版本太高。

    想法是降低python版本。

    5 创建低python版本的虚拟环境

    1 打开anaconda rprompt 

    2 先更换镜像源, 让后面创建的时候快起来。

    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
    conda config --set show_channel_urls yes

    用户目录下创建 .condarc 文件,然后把这个文件的 -default删除(针对windows),不然后面又要报错

    3 创建虚拟环境
    conda create --name pyspark_env python=3.6.9 

    创建虚拟环境的名字是pyspark_env, python 版本3.6.9, 也是外国的小哥一样。

    这里会让选择, 记得敲y. 回车。

    4 为这个虚拟环境装其他包

    pip install numpy
    pip install pandas
    pip install matplotlib
    pip install seaborn
    pip install numpy
    pip install warings
    pip install scipy
    pip install scikit-learn
    pip install requests
    pip install notebook
    pip install jupyterlab
    pip install pyarrow
    pip install Py4J -i https://pypi.douban.com/simple
    pip install pyspark -i https://pypi.douban.com/simple

    都可以加上镜像源, 或者用已经换源的conda都行,作者习惯pip。

    6 进入虚拟环境再进入pyspark

    成功。搞一天了,已经凌晨,赶紧记下来,。

    补充:py4j版本有点高, 更换成下面这个版本。

     成功

  • 相关阅读:
    .vimrc
    GNU_makefile_template
    EM算法
    《设计模式之禅》学习笔记
    k-近邻算法
    机器学习基础
    《机器学习实战》学习笔记
    使用Apriori算法和FP-growth算法进行关联分析
    An ffmpeg and SDL Tutorial
    在Qt Creator中添加OpenCV库
  • 原文地址:https://www.cnblogs.com/LUOyaXIONG/p/15056826.html
Copyright © 2020-2023  润新知