根据[http://dblab.xmu.edu.cn/blog/804-2/]的安装步骤
- 安装ubuntu18.04
- 更换国内源,更新apt-get
- 安装shh,配置免密登录
- 安装Java
- 安装Hadoop,配置为伪分布式
- 安装Spark,配置环境变量
最后形成Hadoop伪分布式+Spark本地的大数据计算框架,为接下来RDD编程的学习做准备。
遇到的问题:
- Spark2.1以下不支持python3.6以上,所以需要更换二者之一。
- Ubuntu18.04自带python3,需要将python默认改为python3。