Hadoop学习笔记
- Hadoop概念
1.思想之源
- HDFS分布式存储
2.1 HDFS概念
2.2 HDFS优点
-
- HDFS缺点
-
- HDFS架构
-
- HDFS存储单元(block)
-
- HDFS设计思想
-
- HDFS核心概念
1.NameNode概念
2.SecondaryNameNode概念
3.SNN合并流程
4.DataNode概念
5.Block副本放置策略
6.HDFS写流程
7.HDFS读写权限
8.安全模式
2.8下载Hadoop
官方文档
2.9搭建完全分布式HDFS
前提:安装jdk,下载hodoop
1.计划服务器搭建(共四台)
2.计划搭建流程
3.配置yum源(可选)
4.安装ntpdate时间同步
四台都要执行安装
5.设置ntpdate服务器
后面url可在网上搜到
(关闭防火墙)
6.设置免密登录
查看私钥文件和公钥文件
让node2-node4都进行免密登录
node3,node4也是一样的操作
7.安装jdk
上传jdk和hadoop
把安装版传到node2,node3,node4
执行安装
修改etc/profile文件,配置环境变量
注意:四台都需要有该环境
8.安装Hadoop
-c /home
修改etc/profile
刷新profile文件
修改hadoop里面的etc
删除文档
同步node
scp –r hadoop-2.5.1/ node3:/home
9.格式化节点
10.启动HDFS
访问Hadoop,node1需要在host中配置,直接加端口访问即可:50070
11.查看节点
12.查看是否有DataNode
显示这个环境搭建成功!
3.0 HDFS的shell命令
mkdir |
创建目录 |
ls |
查看当前路径下的hdfs文件目录 |
put |
上传文件 |
get |
下载文件 |
rm –f |
删除文件 |
3.1 安装Eclipse插件
放到该目录下
重启eclipse,暂不支持版本高的eclipse
3.2 eclipse操作
创建连接
修改hosts
改用户名
3.3 项目的创建
导入jar包
还有commons
3.4 eclipse代码操作
粘贴配置文件
- 创建目录
- 上传文件
- 查看文件
- 上传文件(音频、文档)
- 下载文件
3.5 HDFS 2.x Federation
1.概念
Federation中文:联邦
具体图示:
2.搭建环境
图片上配置了两组
- HA
- HDFS-HA
- 部署ha流程
- 安装配置zookeeper
- 配置hdfs-site.xml
- 配置http请求地址
- 配置journal集群
- 配置故障器
- 配置免密钥
- 修改core-site.xml
- 部署ha
- 具体流程图
- 做免密钥
全部执行下该命令
测试
- 修改配置文件
- 删除masters
其他几台也一样
- 删除hadoop
- 修改hdfs-site.xml
- 修改core-site.xml
- 安装zookeeper
- 解压zookeeper
- 修改profile文件
- 修改zoo.cfg
- 创建zookeeper目录
- 创建myid文件
(在node1)写个1
- 同步
Copy目录,拷贝到node2,3
- 创建myid
在node2,node3中的opt文件中创建zookeeper,里面创建myid文件,写上2和3
- 启动zookeeper
- 配置hdfs-site.xml
- 配置core-site.xml
- 同步配置文件
- 启动journalnode
在3和4也启动下
在四里面也配置下前两个
- MapReduce分布式计算
- 概念
例子—统计文本文件
- MapReduce的Split大小
- Mapper
- Reducer
- Shuffler