如何在Jupyter里以不同的运行模式使用Pyspark

假设你的环境已经安装好了以下东西,如何详细的安装它们不在本文的讨论范围之内
具体的可疑参考三分钟搞定jupyter和pyspark整合

这里多说一句,spark1.几的版本以下的只支持python2.几的支持python2和3.具体是spark2.几,笔者没有详细调查.

如何以不同的模式运行pyspark

我们都知道,spark是分为local,standalone,yarn-client,yarn-cluster等运行模式的.既然想用jupyter,自然是想要交互式的,那么如何以不同的模式来交互呢?

笔者总结如下:

import findspark
findspark.init()
from pyspark import SparkContext
sc = SparkContext("local", "First App")

2.standalone
需要传入地址和端口

import findspark
findspark.init()
from pyspark import SparkContext
sc = SparkContext("spark://192.168.5.129:7077", "First App")

3.yarn-client

import findspark
findspark.init()
from pyspark import SparkContext
sc = SparkContext("yarn-client", "First App")

3.yarn-cluster
cluster模式一般都是开发完成后,直接用来执行用的,不适用于交互模式,笔者也没有尝试过.在此就不介绍了.

其实SparkContext这个类,每个位置可以传的参数,是和shell命令行对应的,注意到了这一点,看看文档就知道每个参数可以接受什么样的值了.具体内容可以看spark官方文档.

相关阅读:
MySQL中的InnoDB中产生的死锁深究
MySQL中的触发器应用
你除了在客户端上会使用Cookie,还能使用哪些可以作为数据缓存呢?
js中实现输入框类似百度搜索的智能提示效果
linux系统中启动mysql方式已经客户端如和连接mysql服务器
linux系统安装mysql数据库
Linux中实用的命令
Linux下安装jdk中遇到的坑
Git初始化配置以及配置github
springboot中配置文件使用2

原文地址：https://www.cnblogs.com/yuuken/p/8967767.html