idea_pyspark 环境配置

1、配置好Hadoop和spark

2、配置好Pytho3.5

3、安装py4j

　　pip3 install py4j

4、idea 中添加Python插件

file->setting->editor->plugins

右边搜索框中搜索Python，下载插件

5、下载完后，重启软件，建立Python项目，导入pyspark的包文件

导入步骤：file->project Structure->modules->右边栏中点dependencies->点添加->将"spark/python" 添加进去

6、test:

from pyspark.sql import SparkSession
if __name__ == "__main__":
    spark = SparkSession 
        .builder 
        .master("local") 
        .appName("PythonWordCount") 
        .getOrCreate()
    data = spark.read.csv("/lab/data/2/02singleentry.csv")
    data.show(10)

    spark.stop()

7、目前观察不能读取本地的数据，只能读取HDFS上的数据

相关阅读:
Beyond Compare 4 使用30天后过期续用方法
cookie和Session是啥？
如何添加博客园访问次数统计
获取DataFrame列名的3种方法
GET与POST方法和用curl命令执行
Series拼接回DataFrame
pandas.to_json&to_dict&from_json&from_dict解读
Mysql判断是否某个字符串在某字符串字段的4种方法
alias 命令
python中的pyc和pyo文件和__pyc__文件夹

原文地址：https://www.cnblogs.com/LazyJoJo/p/6910504.html