安装和配置hadoop

大部分参考http://dblab.xmu.edu.cn/blog/install-hadoop/

1、hadoop2和3都支持java8，我们先安装java8

只要下载后直接解压到/usr/lib/jvm，一般usr/lib用来存放库，比如java python都放这里

2、配置一个用户名hadoop，之后用来运行hadoop,

注意，之后我们安装好hadoop，如果要使用伪分布式，就需要使用hadoop这个账号，来ssh localhost，并且需要需要修改配置文件，指定我们要使用的账号

vim /usr/local/hadoop/libexec/hdfs-config.sh.

export HDFS_NAMENODE_USER=hadoop
export HDFS_DATANODE_USER=hadoop
export HDFS_SECONDARYNAMENODE_USER=hadoop
export YARN_RESOURCEMANAGER_USER=hadoop
export YARN_NODEMANAGER_USER=hadoop

3、安装hadoop

只要直接解压即可，但是有几个要点，

1记得改名把hadoop-3.2.2改为hadoop

2 修改文件夹权限

sudo tar -zxf ~/下载/hadoop-2.6.0.tar.gz -C /usr/local # 解压到/usr/local中
cd /usr/local/
sudo mv ./hadoop-2.6.0/ ./hadoop # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop

3 hadoop3需要手动指定JAVA_HOME，所以需要vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh

添加一行export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162

4、格式化

cd /usr/local/hadoop
./bin/hdfs namenode -format

然后运行程序

cd /usr/local/hadoop
./sbin/start-dfs.sh

记得不要提前ssh localhost，这个是hadoop自己连的，我们已经配置好。运行的时候记得sudo

安装spark 参考http://dblab.xmu.edu.cn/blog/1689-2/

如果要使用python3.6, spark版本建议使用3.0

https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.0.1/

apache 的安装包可以使用清华镜像

相关阅读:
Dockfile编写常见命令
coreDNS域名无法解析问题
开源软件
容器相关
日常工具
持续集成
mysql主从同步
生产环境MySQL5.7-my.cnf 配置文件 for linux (转)
工作交接流程引导图
文章记录

原文地址：https://www.cnblogs.com/yjybupt/p/14307062.html