pySpark提交提交任务到Yarn

spark-submit \
--conf spark.dynamicAllocation.enabled=false \
--name pool_liquidity_info \
--master yarn \
--deploy-mode cluster \
--queue prod \
--driver-memory 20G \
--num-executors 20 \
--executor-memory 15G \
--executor-cores 2 \
--archives hdfs://ns1/user/hadoop/mypy3spark_env/py3spark.tar.gz#py3spark \
--conf "spark.pyspark.python=./py3spark/py3spark/bin/python" \
--conf "spark.pyspark.driver.python=./py3spark/py3spark/bin/python" \
/home/hadoop/test/python/test.py

--archives 
这个指向虚拟环境包，通常将虚拟环境依赖包安装好，然后压缩后，上传到hdfs上。

--conf "spark.pyspark.python 和 --conf "spark.pyspark.driver.python 
指向的路径都是指虚拟环境包在运行时解压缩后的临时路径，一般不用考虑这个问题。

/home/hadoop/test/python/test.py 
最后这个是要允许的pySpark的脚本文件。

相关阅读:
python批量裁剪图片
Theano 报错:No suitable SharedVariable constructor could be found. Are you sure all kwargs are supported? We do not support the parameter dtype or type
清华镜像连接
ubuntu16.04查看占用GPU的程序
pycharm报错：ImportError: libcusolver.so.8.0: cannot open shared object file: No such file or directory
PyMysql的基本操作
关于爬虫解析页面时的一些有意思的坑
关于爬虫解析页面时的一些有意思的坑
python 的一些高级函数
python 的一些高级函数

原文地址：https://www.cnblogs.com/30go/p/16217262.html