最近在编译Spark,在编译的过程中总是不能一帆风顺,不知这个我的个例还是大家都遇到的情况。本文档记录在编译过程中遇到的所有问题以及解决方法。
Spark编译--版本为spark2.2.2
1. 如何编译Spark tgz包。编译出的包和spark下载界面(https://spark.apache.org/downloads.html)下载的包一样例如:spark-2.2.2-bin-hadoop2.7.tgz,可以直接解压部署。
下载开源代码进入代码根目录运行:
./dev/make-distribution.sh --name customer --tgz -Phadoop-2.7.2 -Phive -Phive-thriftserver -Pyarn
此过程自带编译过程,不需要先编译,可以直接运行此命令。 注意此命令不需要带 install、clean、-DskipTests,因为在脚本make-distribution.sh中已经带了。
编译成功后会在根目录下看到spark-2.2.2-bin-customer.tgz的文件。
其中:
--name: 对应tgz文件中的customer
--tgz: 是指要把编译结果打包成tgz
-P: 为maven的参数