1.基于HDP大数据环境的搭建

1.基于HDP大数据环境的搭建
版本规划

安装VirtualBox

然后直接一路下一步

选择一下安装路径

这时VirtualBox会自动运行，主界面如下：

安装VirtualBox Extension Pack

VirtualBox的一些高级特性依赖于VirtualBox Extension Pack，接下来我们安装它。
在VirtualBox的主界面点击"全局设定"，会弹出全局设定窗口，如下图所示：

在全局这顶窗口，切换到"扩展"选项卡，然后点击"添加"按钮，如下图所示：
在弹出窗口中找到并选择Oracle_VM_VirtualBox_Extension_Pack，然后点击“打开”，如下图所示：

在弹出窗口中找到并选择Oracle_VM_VirtualBox_Extension_Pack，然后点击“打开”

等待一小会安装成功后会弹出确认窗口，点击"确定"即可

至此扩展包就安装好了。

新建虚拟机

文件夹要专门指定一个空间充足的目录，类型一定要选Linux，版本一定要选择Red Hat 64-bit(CentOS
是Red Hat的社区版，64位才可以支持大内存，32 位最多支持4G内存)

我们先制定2G内存，后面可以改的

VMDK类型可以分割为2G的小文件便于分享给别人，或者上传到网盘，如果你自己搭建可以
选择VDI

磁盘空间大小选择"动态分配"，然后点击下一步，如下图所示
这里关于两种分配方式特殊说明如下：

⚠注意：这里设置的是可以使用的最大空间，并不是真正的占用，所以可以设置大一些避免后面不够用。

点击创建之后，一个叫node01的虚拟机就创建好了

特别注意：没必要一次性创建一堆虚拟机，如果操作系统需求是一样的，可以采用虚拟机克隆，后
面会详述，这样可以避免很多工作，这也是虚拟机的一大好处。

虚拟机高级设置
有了一台虚拟机，接下来我们进行一些高级设置以便于后面使用。
选择要设置的虚拟机，然后点击“设置”

调节内存大小

网络设置
切换到“网络”选项卡，连接方式选择"桥接网卡"，界面名称实际上是选择你要桥接的物理网卡

四种网络连接模式：

安装操作系统CentOS7

点击选择一个虚拟光盘文件

最后我们就能看到光盘插进光驱了，点击"OK"即可：

启动虚拟机

这个要默认的就好

这个选择默认的

禁用Kdump

然后我们就看见 Kdump已经禁用了：

网络和主机名设置

自定义分区

用户设置

修改root用户密码

创建hadoop用户作为管理员

等安装结束后

配置网络

测试网络连接情况

#安装网络工具包
yum -y install net-tools
#Ambari用到的下载工具
sudo yum -y install wget

通过软件SecureCRT进行远程连接

首先需要在 SecureCRT设置默认路径：

Options -> Session Options -> Terminal -> Xmodem/Zmodem ->Directories

赋予hadoop用户sudo权限

在工作中一般不会让我们通过root用户来操作，因此我们给hadoop用于赋予sudo权限 :

切换到root用户

并输入命令
```
visudo
```
这时会进入/etc/sudoers文件的编辑页面，增加如下配置即可
```
hadoop ALL=(ALL) NOPASSWD: ALL
#以下这行一定要注释掉以免被覆盖(hadoop用户属于wheel组)
#%wheel ALL=(ALL) ALL
```
配置固定IP
前面我们已经设置为桥接网络，也就是说虚拟机会把宿主机的指定网卡当做“交换机”，首先我们再次看
下当前IP：

sudo vim /etc/sysconfig/network-scripts/ifcfg-enp0s3

作以下修改

修改完重启下网络服务：
```
sudo service network restart 
```
这个时候需要把远程终端的地址修改一下

再ping一下baidu,测试一下网络连接情况

配置hosts文件
```
 sudo vi /etc/hosts
```
添加以下内容

注意：最前面两行一定不要删除，避免出现各种奇怪的网络问题

防火墙设置
```
#禁止防火墙开机启动
sudo systemctl disable firewalld
#关闭防火墙
sudo systemctl stop firewalld
#查看防火墙状态
sudo systemctl status firewalld
```
禁用SELinux

检查SELinux状态
```
getenforce
```
只要返回的不是disabled就说明SElinux打开着

临时禁用(不需要重启，但必须操作一下）
```
sudo setenforce 0
```
永久禁用
```
sudo vi /etc/selinux/config
```
将SELINUX=enforcing改为 SELINUX=disabled：

umask设置
umask用于设置在Linux上创建新文件或文件夹时授予的默认权限或基本权限。大多数Linux发行版将
022设置为默认umask值。 umask值022授予新文件或文件夹的755权限。 umask值027授予新文件或
文件夹的750权限。
Ambari，HDP和HDF支持的umask值为022（等价于0022），027（等价于0027）。这些值必须在所
有主机上设置。
```
sudo vim /etc/profile
```
在最后一行添加

使环境变量生效

文件描述符配置

Linux操作系统会对每个进程能打开的文件数进行限制(某用户下某进程)，Hadoop生态系统的很多组件
一般都会打开大量的文件，因此要调大相关参数(生产环境必须调大，学习环境稍微大点就可以)

可以用如下命令检查当前用户下一个进程能打开的文件数：
ulimit -Sn
ulimit -Hn

注意：上面的命令只能检查当前用户hadoop。
如果数字小于10000就需要加大
```
sudo vi /etc/security/limits.conf
```
添加以下内容
```
* soft nofile 655350
* hard nofile 655350
```
重启使系统生效
```
sudo systemctl reboot
```
SSH优化

CentOS7下，每次远程SSH连接都需要5秒左右，通过如下操作可以优化：
```
sudo vi /etc/ssh/sshd_config
```
查找GSSAPIAuthentication 赋值为no

查找UseDNS,赋值为 no(该项默认不启用的，要把前面的#删除掉）

保存退出，并重启ssh服务
```
sudo systemctl restart sshd
```
SSH免密
```
ssh-keygen
cd .ssh
cat id_rsa.pub >> authorized_keys
chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys
```
安装Java

配置环境变量
```
sudo vim /etc/profile
```
添加以下内容
```
export JAVA_HOME=/usr/local/jdk
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
```
使环境变量生效
```
source /etc/profile
```
克隆出一台新虚拟机
到目前为止作为，一台标准的干净的大数据节点就完全创建被设置好了，为了便于后续扩展成多个节
点，我们先基于node01克隆出一个标准虚拟机备用

先将node01关闭

sudo systemctl poweroff

然后

给克隆出的虚拟机命名为node02，选择一个路径，Mac地址设定一定要选择“为所有网卡重新生成mac
地址”，然后点击“下一步”，

复制过程需要持续几分钟

可以看到复制好了。

准备本地yum源

我们的思路是把HDP所需要的RPM安装包都下载到本地创建一个本地yum源，后续安装就直接使用本
地yum源，这样速度比较快，也可以在内网操作

准备HDP相关文件
需要从以下地址下载相关文件：

Ambari相关安装包：
http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.7.4.0/ambari-2.7.4.0-centos7.tar.gz

HDP安装：
http://public-repo-1.hortonworks.com/HDP/centos7/3.x/updates/3.1.4.0/HDP-3.1.4.0-centos7-rpm.tar.gz

HDP-UTIL安装包：
http://public-repo-1.hortonworks.com/HDP-UTILS-1.1.0.22/repos/centos7/HDP-UTILS-1.1.0.22-centos7.tar.gz

HDP-GPL文件：
http://public-repo-1.hortonworks.com/HDP-GPL/centos7/3.x/updates/3.1.4.0/HDP-GPL-3.1.4.0-centos7gpl.tar.gz

拿到这些包之后，使用FileZilla上传到node01的hadoop用户主目录下即可

安装Apache
```
#安装Apache
sudo yum -y install httpd
#讲Apache设置为开机启动
sudo systemctl enable httpd
#启动Apache
sudo systemctl start httpd
```
修改本地的hosts文件

添加以下内容

打开浏览器访问地址: http://node01

HDP安装包部署到Apache
```
#移动所有包到/var/www/html/下：
cd /var/www/html/
sudo mv ~/ambari-2.7.4.0-centos7.tar.gz /var/www/html/
sudo mv ~/HDP-3.1.4.0-centos7-rpm.tar.gz /var/www/html/
sudo mv ~/HDP-GPL-3.1.4.0-centos7-gpl.tar.gz /var/www/html/
sudo mv ~/HDP-UTILS-1.1.0.22-centos7.tar.gz /var/www/html/

#解压缩
sudo tar -zxvf ambari-2.7.4.0-centos7.tar.gz
sudo tar -zxvf HDP-3.1.4.0-centos7-rpm.tar.gz
sudo tar -zxvf HDP-GPL-3.1.4.0-centos7-gpl.tar.gz
sudo tar -zxvf HDP-UTILS-1.1.0.22-centos7.tar.gz

#安装压缩包清理
sudo rm -r ambari-2.7.4.0-centos7.tar.gz
sudo rm -r HDP-3.1.4.0-centos7-rpm.tar.gz
sudo rm -r HDP-GPL-3.1.4.0-centos7-gpl.tar.gz
sudo rm -r HDP-UTILS-1.1.0.22-centos7.tar.gz

#更改目录权限
sudo chmod -R ugo+rX /var/www/html/ 
```
配置使用本地yum源
```
在node01上执行：
cd /etc/yum.repos.d/
sudo vi ambari.repo
```
ambari.repo内容如下
```
[ambari-repo]
name=ambari
baseurl=http://node01/ambari/centos7/2.7.4.0-118/
gpgcheck=0
enabled=1
```
验证
```
yum repolist
```
安装MySQL
```
下载安装包
sudo wget http://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm

安装mysql源
sudo yum -y install mysql57-community-release-el7-11.noarch.rpm

安装mysql服务器
sudo yum -y install mysql-community-server 

设置为开机启动
sudo systemctl enable mysqld 

启动Mysql
sudo systemctl start mysqld

查看mysql状态
sudo systemctl status mysqld 
```
```
查看临时root临时密码

 sudo grep 'temporary password' /var/log/mysqld.log
```
利用临时密码登录mysql

现在我们修改root用户密码：
```
set global validate_password_policy=0;
set global validate_password_mixed_case_count=0;
set global validate_password_number_count=3;
set global validate_password_special_char_count=0;
set global validate_password_length=3;
ALTER USER 'root'@'localhost' IDENTIFIED BY 'root';
exit
```
安装MySQL的Java驱动
```
将MySQL的java驱动mysql-connector-java-8.0.18.jar上传到node01的用户主目录，并移动到一个目录下：

sudo mkdir -p /usr/share/java
sudo mv ~/mysql-connector-java-8.0.18.jar /usr/share/java
```
部署AmbariServer

在node01上执行
```
sudo yum -y install ambari-server
```
创建Ambari数据库资源

Ambari在配置的时候需要MySQL来存储数据，因此我们来创建相关数据库资源，进入MySQL

执行如下命令：
```
set global validate_password_policy=0;
set global validate_password_mixed_case_count=0;
set global validate_password_number_count=3;
set global validate_password_special_char_count=0;
set global validate_password_length=3;
create database ambari;
CREATE USER 'ambari'@'%' IDENTIFIED BY 'bigdata';
GRANT ALL ON ambari.* TO 'ambari'@'%';
FLUSH PRIVILEGES;
use ambari;
source /var/lib/ambari-server/resources/Ambari-DDL-MySQL-CREATE.sql;
exit
```
配置AmbariServer

执行如下命令开始设置Ambari-Server:
```
sudo ambari-server setup
```
是否自定义ambari-server的运行用户

我们保持默认root用户即可，所以输入n并回车

在上图中，我们选择2，代表自定义java，然后回车

我们需要指定自己安装的java的路径/usr/local/jdk，然后回车

上图提示是否下载并安装LZO的包，我们输入y并回车

是否进入数据库高级设置，我们输入y然后回车

在选择数据库的环节，我们选择3也就是MySQL，然后回车

MySQL的相关配置我们均采用默认值，默认用户和db都是ambari，密码是bigdata，然后回车(它会自

动创建)：

我们需要指定MySQL的驱动包所在的路径/usr/share/java/mysql-connector-java-8.0.18.jar，
然后回车

我们选择可以远程连接该数据库(y)，然后回车就配置完毕了

调大node01的内存

先把node01关机
```
sudo systemctl poweroff
```
如果你准备一直单机运行可以把内存调整到12G，前提是你的物理宿主机器起码16G内存

启动Ambari-Sever
```
 sudo ambari-server start
```
如果出现错误，一定要查看日志
```
vi /var/log/ambari-server/ambari-server.log
```
然后访问以下地址；

http://node01:8080

用户名密码默认是admin/admin，如果看到如下界面就代表ambari真正启动好了

部署Amabri集群
点击Ambari主界面中的"Launch Install Wizard",启动安装向导
接下来我们要给集群起个名字

版本选择

接着要把滚动条往下拉，把无用的其他操作系统的仓库删掉

只保留redhat7，其他的都删除掉

最终我们只保留"readhat7"的仓库，接下来要把直接部署yum本地仓库的地址填进去，同时不要勾选下
面的两个高级选项
```
HDP-3.1             http://node01/HDP/centos7/3.1.4.0-315/
HDP-3.1-GPL         http://node01/HDP-GPL/centos7/3.1.4.0-315/
HDP-UTILS-1.1.0.22  http://node01/HDP-UTILS/centos7/1.1.0.22/
```
我们按照下图所示注册主机到Ambari

把node01的私钥复制过来

上面的私钥要拷贝完整，一点也不能少，最后一行也不要换行。
点击右下角按钮开始注册，会弹出提示窗口，点击”CONTINUE“即可

自动开始注册

点击这里去查看一些警告

它这里就警告chronyd没有在1个节点上运行也就是没在node01上运行，chronyd是CentOS7默认的时
间同步服务(CentOS6的NTP)，因为我们暂时一个节点无需时钟同步，所以不用管，直接点ClOSE。

然后直接点击右下角的”NEXT“，这时会弹出窗口，问你有警告是否忽略（chronyd的警告），我们选择”
OK“会自动进入下一步

选择要安装的服务
Amabri管大数据的各个组件叫做 Service，在这异步要选择同时安装的服务，当然我们也可以先不选后
面再选。
在这里我们选择安装下Hadoop相关的服务，其余的服务就取消掉对话框的对勾(它默认选了一堆，一定
要去掉，好多用不到)

在这里要特别注意，在Ambari里Hadoop被当做多个服务例如HDFS、YARN等，如果你选择的服务依赖
于其他服务他会提示的，你点击确认后会自动勾选，然后下一步即可。

分配Mater服务安装到哪些主机
接下来Ambari会让你选择Master服务要安装到哪些主机，所谓Master服务，是指的各个服务的Master
服务，例如HDFS的Master服务就是namenode，因为我们就一个节点，所以保持不动直接下一步

分配Slave服务和Client安装到哪些主机

接下来是一些自定义Service的配置，首先会让你设置一些服务的密码，为了方便，这里统一用admin

这里要注意，随着前面你选的Service的不同，这里也会不同，点击”next“会让你确认一些服务的目录，
我们先保持默认，直接”next“

然后是确认各个service运行在操作系统的哪个用户下，我们也保持默认

点击下一步，会让我们确认其他的配置，我们保持默认直接点NEXT

注意，这里随着你前面选择的service的不同会有很大差异，比如你要选择了了Hive，它一定会要你输入
MySQL相关信息，所以不要死记硬背。

在Review环节我们要仔细检查之前的配置，没有问题就点击”DEPLOY“正式开始部署了

部署过程需要花较长时间，随时可以看到进度

再部署完服务之后，Ambari会自动启动服务并进行冒烟测试，测试通过看到如下界面就代表成功安装
好了，点击”NEXT“即可

把这边的进程都每个手动启动一下，因为刚启动的时候有些警告

部署HBase

之前在不是Amabri集群的过程中安装了HDFS、YARN，包括Zookeeper集群，接下来我们通过增加服
务的方式安装下HBase 。

接下来的步骤就跟我们前面部署Ambari集群的方式稍微有点类似，首先要选择服务，这里我们当然选
择HBase然后后"NEXT"(当然也可以一次性选择多个Service一起部署)。

这一步不用动，因为就一个节点，直接next,

分配Slave服务和Client安装到哪些主机
这一步就勾选RegionServer和Client即可

自定义服务
这一步我们保持配置不变，点“next”

Review环节直接点“DEPLOY

部署启动与测试
整个安装过程会持续一段时间，在部署完服务之后，Ambari会自动启动服务并进行冒烟测试，测试通
过看到如下界面就代表成功安装好了，点击”NEXT“即可

部署Hive

Hive的部署过程跟HBase基本一样，其他服务亦如此，不过Hive的元数据一般选择存放在MySQL，所
以我们要在MySQL里单独为Hive创建用户和库以便于管理

在node01上，进入MySQL
```
set global validate_password_policy=0;
set global validate_password_mixed_case_count=0;
set global validate_password_number_count=3;
set global validate_password_special_char_count=0;
set global validate_password_length=3;
create database hive;
CREATE USER 'hive'@'%' IDENTIFIED BY 'hive';
GRANT ALL ON hive.* TO 'hive'@'%';
FLUSH PRIVILEGES;
exit
```
告诉Hive组件MySQL驱动在哪里
```
 sudo ambari-server setup --jdbc-db=mysql --jdbc-driver=/usr/share/java/mysql-connector-java-8.0.18.jar
```
在Ambari主界面按照下图操作启动安装向导

这里我们选择Hive然后后"NEXT"

这一步不用动，因为就一个节点

这一步就勾选Client即可：

自定义服务
这一步我们保持配置不变，除了hive，我们能看到如下图的提示

我们点击“HIVE”选项卡切换到Hive配置页

在Hive配置页，我们要切换到DATABASE子选项卡，然后往下滚动页面去配置数据库的信息，

测试连接

部署启动与测试
整个安装过程会持续一段时间，在部署完服务之后，Ambari会自动启动服务并进行冒烟测试，测试通
过看到如下界面就代表成功安装好了，点击”NEXT“即可

在Ambari界面我们发现因为安装Hive，后台自动更新了一些服务的配置，因此需要重启

如果重启所有服务不行，可以一个个手动重启的，我就是遇到这样的问题，我自己一个个服务手动重启了

Service自动启动
有时候我们希望托管给Ambari的服务可以自动启动

扩容到3个节点

在node02的基础上我们再复制出一个节点node03

注意：千万不要从node01复制，那样会特别大而且里面有Ambari

节点网络配置

配置node02的静态ip

配置node03的静态ip

修改完了分别重启node02和node03的网络
```
sudo systemctl restart network
```
配置node02和node03的主机名

由于是克隆过来的，主机名还是node01，因此我们需要修改

永久修改hostname执行如下命令：

sudo vim /etc/hostname

分别输入node02 node03

配置hosts文件
```
sudo vi /etc/hosts
```
node02和node03防火墙设置

分别进行以下操作
```
#禁止防火墙开机启动
sudo systemctl disable firewalld
#关闭防火墙
sudo systemctl stop firewalld
#查看防火墙状态
sudo systemctl status firewalld
```
禁用node02和node03 SELinux

分别操作
```
临时禁用
sudo setenforce 0
```
sudo vi /etc/selinux/config

将SELINUX=enforcing改为 SELINUX=disabled：

分别重启node02和node03

重启后，在三台机器都配置hosts文件

配置三台机器的SSH免密

先把node02和node03用户主目录下的隐藏文件夹.ssh删掉，这个是复制虚拟机过来

然后分别在node02和node03重新生成
```
ssh-keygen
cd .ssh
cat id_rsa.pub >> authorized_keys
chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys
```
免密
我们所谓的免密就是拿集群中的一台机器作为管理节点，让那后让他可以ssh免密码到其他节点执行命
令，这对我们维护一个多节点的集群非常有意义。我们当然以node01为管理节点，所以要实现node01
到其他节点的免密

拿到node01的公钥

cat ~/.ssh/id_rsa.pub

把node01的公钥添加到node02和node03的

vi authorized_keys

添加到node02的公钥

添加到node03的公钥

然后node01分别到node02和node03 ssh连接一次

因为我们需要三个节点都能相互ssh通讯的，因此我们把每个节点的公钥都相互交换

每个节点的公钥都赋值

时钟同步

在三个节点分别执行
```
sudo ntpdate pool.ntp.org
```
纳入Ambari管理

这一步我们要先把新节点node02-node03纳入到Amabri进行管理

接下来进开始在新加的节点上自动安装ambari-agent了，安装完毕之后点下一步

配置保持默认
相关阅读:
zabbix3.4监控Windows-CPU使用率磁盘IO磁盘监控阈值邮件报警详细配置
 网站打开提示Service Unavailable如何解决？
windows服务器下zabbix agent的安装调试
 如何判断自己的VPS是那种虚拟技术实现的？
win7/win10下KiWi Syslog服务器的安装与配置
 centos7.x内核参数优化脚本
 centos7.6更改主机名为FQDN格式不生效解决办法
 chmod: changing permissions of 'xxx': Operation not permitted
编译安装nginx提示./configure: error: C compiler cc is not found
centos7利用系统镜像修复grub
原文地址：https://www.cnblogs.com/braveym/p/12716978.html