Hadoop总结：

Hadoop是什么？

狭义上：

HDFS：分布式文件存储系统

MapReduce：分布式计算框架

YARN：资源管理任务调度

广义上：

特指apache一款由java开发，开源的大户数据处理平台软件

hadoop生态圈，提供大数据一站式解决方案，大数据软件几乎都有！

hadoop 的发展：

Google三篇论文之父--cutting(卡大爷)

hadoop集群的搭建：

Hadoop集群介绍：

发行版本：

社区版：apache官方版

商业版：cloudera---CDH

版本演化：

1.x--2.x(高阶版本)---3.x

hadoop集群:【都是标准的主从集群逻辑上分离物理上在一起】

hdfs集群(解决分布式文件存储问题)：

主角色：namenode

从角色：detanode

主角是辅助角色：secondarynamenode

yarn集群（资源调度任务管理）：

主角是：resourcemanager

从角色：nodemanager

MR集群（其实没有）：

是在代码层面组件，本身就是java程序

1:服务器环境准备

时间同步防火墙免密登录 hosts映射 jdk

2:安装包编译

2.1:为什么要编译

官方只提供源码包需要自己编译
软件运行某些特性跟操作系统相关结合具体操作系统编译符合它版本的软件
修改源码中某些属性

3:安装包目录结构

基本管理脚本目录------------bin

启动关闭脚本-----------------sbin

配置文件目录-------------------etc

编译后jar 官方自带示例----share

4:配置文件

shell脚本---------hadoop-env.sh 导入java_home

xml文件------------core hdfs mapred yarn---site.xml（用户自定义配置文件） xxx---default.xml（默认配置文件）

slaves-------------配合脚本一键启动 hosts白名单机制

5:namenode format

首次启动hdfs 只能一次 namenode所在机器上

hadoop namenode -format

初始化操作创建hadoop工作相关目录和文件

6:hadoop集群启动

单节点逐个启动

hadoop-daemon.sh start|stop 进程名字

yarn-daemon.sh start|stop 进程名字

脚本一键启动

免密登录 slaves

start-dfs.sh

start-yarn.sh

start-all.sh

7:web ui

hdfs namenode 50070

yarn resourcemanager 8088

hadoop功能：

jobhistory:查看已经运行历史的job程序

hdfs垃圾回收机制：

开启垃圾回收站把删除的文件首先放置在回收站中等待配置的时间结束进行真正的数据删除

如何模拟实现分布式文件系统：

分布式：

元数据管理：

分块存储：

副本机制：

抽象目录树结构：

画图介绍：

相关阅读:
hive分区学习
pyspark的学习
往hive表中插入数据以及导出数据
【Pytest学习3】setup和teardown简单用法，fixture里面的scope等于setup，用yield等于teardown
【Pytest学习2】 pytest用例设计规则，terminal中使用常见命令行参数，pycharm中使用常见的命令行参数
Jmeter响应内容显示乱码问题的解决办法
Jmeter（三）测试计划和线程组
Jmeter（二）Jmeter目录介绍 & 元件介绍
JMeter之Ramp-up Period（in seconds）说明
badboy云盘下载链接

原文地址：https://www.cnblogs.com/TiePiHeTao/p/11503963.html