linux 搭建 pyspark
(21条消息) Linux服务器下PySpark环境安装_Viva Python的博客-CSDN博客_pyspark安装
pyspark基于python虚拟环境运行 - 倪平凡 - 博客园 (cnblogs.com)
(21条消息) pyspark使用anaconda后spark-submit方法_crookie的博客-CSDN博客_pyspark spark-submit
spark-python版本依赖与三方模块方案
spark-python版本依赖与三方模块方案 - 知乎 (zhihu.com) --py--files
(21条消息) pyspark打包依赖包&使用python虚拟环境_我就算饿死也不做程序员的博客-CSDN博客_python依赖打包 spark
spark. 参数设置
--conf spark.memory.fraction=0.7 \ #统一内存(缓存+Excutor内存)占总内存(统一+other)比例
--conf spark.memory.storageFraction=0.3 \ #缓存占统一内存比例
--conf spark.sql.shuffle.partitions=180 \ #并行度只对SparkSQL有效
--conf spark.default.parallelism=1000 \ #并行度只有在处理RDD时有效