pyspark

win7 + spark + hive + python集成

通过win7使用spark的pyspark访问hive

1、安装spark软件包

2、复制mysql驱动

3、复制hadoop配置目录到spark的conf下

4、复制hadoop和hive的配置文件到conf下

5.1、在pyspark脚本中添加HADOOP_CONF_DIR环境变量，指向hadoop配置目录

set HADOOP_CONF_DIR=D:myprogramspark-2.1.0-bin-hadoop2.7confha

5.2、以下也要配置

set HADOOP_CONF_DIR=D:myprogramspark-2.1.0-bin-hadoop2.7confha

6、修改hdfs目录权限

[centos@s101 ~]$ hdfs dfs  -chmod -R  777 /user

7、在win7启动pyspark shell，连接到yarn，在bin下

　　pyspark --master yarn

8、测试

>>> rdd1 = sc.textFile("/user/centos/myspark/wc")
>>> rdd1.flatMap(lambda e:e.split(" ")).map(lambda e:(e,1)).reduceByKey(lambda a,b:a+b).collect()
[(u'9', 3), (u'1', 2), (u'3', 3), (u'5', 4), (u'7', 3), (u'0', 2), (u'8', 3), (u'2', 3), (u'4', 3), (u'6', 4)]
>>> for i in rdd1.flatMap(lambda e:e.split(" ")).map(lambda e:(e,1)).reduceByKey(lambda a,b:a+b).collect():print i
...
(u'1', 2)
(u'9', 3)
(u'3', 3)
(u'5', 4)
(u'7', 3)
(u'0', 2)
(u'8', 3)
(u'2', 3)
(u'4', 3)
(u'6', 4)
>>> spark.sql("show databases").show()
+------------+
|databaseName|
+------------+
|     default|
|          lx|
|        udtf|
+------------+

IDEA中开发pyspark程序：前提是以上步骤完成

1、创建java或scala模块

2、进入项目结构（设置右侧）--左侧点modules--选myspark--右键add，python支持

　　点击python，指定解释器

3、在配置中指定环境变量

　　1、进入设置界面

　　2、如下配置

4、导入spark的python核心库

5、测试

　　安装：pip install py4j

#coding:utf-8

#wordcount
from pyspark.context import SparkContext
from pyspark import SparkConf

conf = SparkConf().setMaster("local[*]").setAppName("")

sc = SparkContext(conf=conf)

rdd1 = sc.textFile("/user/centos/myspark/wc")

rdd2 = rdd1.flatMap(lambda s:s.split(" ")).map(lambda s:(s,1)).reduceByKey(lambda a,b:a+b)

lst = rdd2.collect()

for i in lst:
    print(i)

#sparksql
from pyspark.sql import *
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
arr = spark.sql("show databases").show()

if __name__ == "__main__":
    pass

渐变 --> 突变

相关阅读:
不会写研发部门OKR？来这里看看吧
HR 必须了解的绩效考核
成功的OKR复盘会需要注意什么
effective解读-第一条静态工厂创建对象代替构造器
灾难恢复：邮箱数据库操作总结：整理查询邮箱数据库大小和空白数据大小（重要文档）
Exchange传输队列queue数据库mail.que文件越来越大(重要文档)
Exchange2016邮件流（重要文档）
Exchange2016服务器使用到的9个端口
VMware EXSI 启用vMotion
Exchange2016DAG的配置

原文地址：https://www.cnblogs.com/lybpy/p/9855042.html