pyspark使用 - 润新知

pyspark使用

1、安装python3

2、idea安装Python插件

3、下载spark，设置SPARK_HOME环境变量

4、安装pyspark，numpy

5、运行pyspark应用

pyspark应用如果使用到特定的接口，如kafka，则需要将kafka相关的jar包放到SPARK_HOME的jar文件夹里，不然会报找不到datasource的错

要本地调试hive，需要将hive配置文件放置到SPARK_HOME的conf目录下

6、运行报错可能跟spark库的版本有关系，如有必要可以删除不对的mvn本地仓库jar包

7、spark dataframe转pandas dataframe用toPandas()注意不要漏掉括号，与scala不一样。
相关阅读:
CSS实现底部固定
 ES6新特性--多行文本
 DataTable转实体
 jQuery插件开发
 页面可编辑
 clearfix--清除浮动
 前端日历控件推荐
 图片Base64编码
 第八周学习进度博客
 人月神话多后感01
原文地址：https://www.cnblogs.com/cenglinjinran/p/7727881.html