大数据第十三周(上周补充)

大数据第十三周(上周补充)
大数据第十一周

1.物理集群的验证
- 开启本组所有电脑（4台），拷贝虚拟机映像，打开。在开启虚拟机之前，设置虚拟机内存是4G，处理器是4，网络连接是桥接模式。
也可以在图形界面配
- 把桥接网卡绑定到具体的物理网卡，不要使用自动绑定。
- 设置完成后，启动寻虚拟机。
2.设置网络连接
- 编辑网络配置文件：/etc/sysconfig/network-scripts/ifcfg-ens33。
- IP地址设置如下：(其中50要改成你自己的ip)
IPADDR=172.21.12.79（左1）

IPADDR=172.21.12.80（左2）

IPADDR=172.21.12.81（右2）

IPADDR=172.21.12.82（右1）

PREFIX=24

GATEWAY=172.21.12.254

DNS1=172.16.3.8
- 修改完成之后，输入systemctl restart network即可
3.设置hostname和域名解析

修改集群各个机器的名字和域名解析文件计算机名
- sudo vi /etc/hostname
80 master

79 slave0

81 slave1

82 slave2

50 slave4
- sudo vi /etc/hosts
　　172.21.12.80 master

　　172.21.12.79 slave0

　　172.21.12.81 slave1

　　172.21.12.82 slave2

　　172.21.12.50 slave4

4.关闭防火墙
- 检查防火墙状态：sudo systemctl status firewalld.service
- 关闭防火墙：sudo systemctl stop firewalld.service
- Disable防火墙：sudo systemctl disable firewalld.service
- 如果不执行Disable防火墙，下次启动时，防火墙还会启动。
- 重启三个节点，重启后，分别用sudo systemctl status firewalld.service命令检查所有节点的防火墙状态，要求看到inactive（dead）提示。
5.设置ssh免密登录
- 由于以前做过免密，所以会提示出错，看提示是否有修改错误的指令，如：删除~/.ssh文件后重做，命令：rm –r .ssh（ls –a查看隐藏文件）
- 先ssh 要登录的虚拟机，然后exit。
- 进入目录：cd .ssh/
- 产生密码：ssh-keygen -t rsa（只需要输入一次）
- 传送公钥：ssh-copy-id 要登陆的虚拟机名
- 验证：ssh 要登陆的虚拟机名
- 如果不需要密码就说明成功了。**如果在物理机集群上安装，需要安装时钟同步工具，保证每个节点的时钟相同。在虚拟机上安装不需要。**
  
  我们有三个节点，所以每个虚机需要3个免密登录。
  
  我们有三个节点，要传三个公钥，包括自己。
6.安装时钟同步
- 将时区设置为上海：sudo timedatectl set-timezone Asia/Shanghai
- 使用chrony，因为centos7已经内置chrony，所以只要配置就好。
- 选择一个本地时钟服务器，对于时钟服务器修改cd /etc sudo vi chrony.conf，要允许其他节点进行连接，
- 对于主节点：添加allow 172.21.12.0/24；
- 对于其他节点：删除已有的四行配置，添加server master iburst
- 时钟配置完成后检查，用命令：检查chronyc sources。除了主节点外，其它节点只会显示master。
7.修改配置文件
- 修改slaves文件，加入新的节点。
- slaves文件位置：hadoop-2.7/etc/hadoop
8.Namenode格式化
- 删除所有节点上的集群自动建立的文件夹：hadoopdata
- 在master上才做：hadoop namenode –format
- 要看到successfully提示，说明成功了。
9.启动集群
- 命令：start-all.sh
- 用jps查看java进程：按我们的配置，master是4个java进程，slave是3个java进程。
- 上传一个文件，查看是否正常
- 进入相应目录hadoop-2.7/share/hadoop/mapreduce，运行命令：hadoop jar hadoop-mapreduce-examples-2.7.7.jar pi 10 10
如果运行正常，说明集群工作一切正常。

10.安装spark
- Spark配置成：yarn模式运行。
- Spark集群需要配置两个文件，spark-env.sh、slaves。
- 建立spark-env.sh cp spark-env.sh.template spark-env.sh
- 编辑：vi spark-env.sh，添加如下内容，红色部分替换成自己的目录。
export SPARK_CONF_DIR=/home/caiyishuai/spark-2.4.5/conf

export HADOOP_CONF_DIR=/home/caiyishuai/hadoop-2.7/etc/hadoop

export YARN_CONF_DIR=/home/caiyishuai/hadoop-2.7/etc/hadoop

export JAVA_HOME=/home/caiyishuai/jdk1.8
- 建立slaves文件：cp slaves.template slaves
- 编辑：vi slaves
把文件原内容删除，添加slave节点名：例如

slave0

slave1

slave2
- 配置完成后，要将配置好的拷贝到其它的所有节点。每个节点的spark和hadooop配置应相同。
11.启动spark集群
- 由于我们是用yarn模式运行，首先要启动yarn，启动yarn的方式是用hadoop下的start-all.sh。
- 启动顺序是：hadoop的start-all.sh，spark的start-all.sh。
- 由于两个文件同名，所以必须区分是哪一个。区分的方式可以是，spark路径不配置环境变量，而是用全路径执行。Spark要在master节点上启动。
- 启动后，用jps查看
master节点：

　　NameNode

　　Jps

　　ResourceManager

　　Master

　　SecondaryNameNode

Slave节点：

　　DataNode

　　NodeManager

　　Worker

　　Jps

说明启动成功。

如果master下没有namenode节点，那就先关闭集群，然后运行hadoop namenode -format，再次启动即可。
相关阅读:
docker 知识汇总1-镜像管理
 合并两个git repository
这一次，信报箱震惊世界
 python实现括号分组
 linux case菜单代码示例
 oracle 11gR2 client安装（Red Hat Enterprise Linux Server release 5.5 (Tikanga) 安装ORACLE客户端）
SYSAUX表空间过大处理
 SYSAUX表空间大于33G问题处理
 window 给链接加下划线或取消下划线
 ORACLE11G_win32监听程序不支持服务
原文地址：https://www.cnblogs.com/caiyishuai/p/13270520.html