pyspark

# Example

from pyspark.sql import SparkSession

spark=SparkSession.builder.appName("boye").getOrCreate()
#spark = SparkSession.builder.appName("test").master("local[2]").getOrCreate() #运行在本地（local），2个线程
sc = spark.sparkContext

datas = ["hi I love you", "hello", "ni hao"]
sc = spark.sparkContext
rdd = sc.parallelize(datas).filter(lambda x:x.__contains__("he"))
print(rdd.collect())
print(rdd.count())

#配置环境变量

export SPARK_HOME=spark-2.4.3-bin-hadoop2.7
export PATH$SPARK_HOME/bin:$PATH
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src. zip:$PYTHON PATH
export PYSPARK_PYTHON=/opt/local/python/bin/python3
export PYSPARK_DRIVER_PYTHON=/opt/local/python/bin/python3

运行：spark-submit --master local[*] spark_001.py

相关阅读:
VS创建C工程
信用卡诈骗分析
R语言parse函数与eval函数的字符串转命令行及执行操作
用R语言提取数据框中日期对应年份（列表转矩阵）
R语言模型选择之精度准则与最大值法问题
对数据集做标准化处理的几种方法——基于R语言
可视化缺失值的办法——R语言
模型验证方法——R语言
R语言绘图——条形图可以将堆积条形图与百分比堆积条形图配合使用
R语言抽样的问题

原文地址：https://www.cnblogs.com/boye169/p/14264942.html