• Hadoop概念、安装、使用


    Hadoop学习笔记

    1. Hadoop概念

    1.思想之源

     

    1. HDFS分布式存储

    2.1 HDFS概念

    2.2 HDFS优点

      1. HDFS缺点

     

      1. HDFS架构

      1. HDFS存储单元(block)

     

     

     

      1. HDFS设计思想

     

      1. HDFS核心概念

    1.NameNode概念

     

    2.SecondaryNameNode概念

    3.SNN合并流程

     

    4.DataNode概念

    5.Block副本放置策略

     

     

     

     

     

     

     

    6.HDFS写流程

    7.HDFS读写权限

     

    8.安全模式

     

    2.8下载Hadoop

    地址       http://hadoop.apache.org/

    官方文档

     

    2.9搭建完全分布式HDFS

    前提:安装jdk,下载hodoop

    1.计划服务器搭建(共四台)

     

    2.计划搭建流程

     

    3.配置yum源(可选)

    4.安装ntpdate时间同步

     

    四台都要执行安装

     

    5.设置ntpdate服务器

    后面url可在网上搜到

    (关闭防火墙)

    6.设置免密登录

    查看私钥文件和公钥文件

     

    让node2-node4都进行免密登录

    node3,node4也是一样的操作

     

    7.安装jdk

    上传jdk和hadoop

    把安装版传到node2,node3,node4

    执行安装

    修改etc/profile文件,配置环境变量

    注意:四台都需要有该环境

     

    8.安装Hadoop

    -c  /home

    修改etc/profile

    刷新profile文件

     

    修改hadoop里面的etc

    删除文档

    同步node

    scp –r hadoop-2.5.1/  node3:/home

     

    9.格式化节点

     

    10.启动HDFS

    访问Hadoop,node1需要在host中配置,直接加端口访问即可:50070

     

    11.查看节点

    12.查看是否有DataNode

    显示这个环境搭建成功!

     

    3.0 HDFS的shell命令

    mkdir 

    创建目录

    ls

    查看当前路径下的hdfs文件目录

    put

    上传文件

    get

    下载文件

    rm –f

    删除文件

     

    3.1 安装Eclipse插件

    放到该目录下

    重启eclipse,暂不支持版本高的eclipse

    3.2 eclipse操作

    创建连接

    修改hosts

    改用户名

    3.3 项目的创建

    导入jar包

    还有commons

    3.4 eclipse代码操作

    粘贴配置文件

     

     

     

    1. 创建目录

    1. 上传文件

    1. 查看文件

    1. 上传文件(音频、文档)

     

    1. 下载文件

     

    3.5 HDFS 2.x Federation

    1.概念

    Federation中文:联邦

    具体图示:

     

    2.搭建环境

    图片上配置了两组

     

     

    1. HA

    1. HDFS-HA
    1. 部署ha流程
    1. 安装配置zookeeper

     

    1. 配置hdfs-site.xml

     

     

    1. 配置http请求地址

     

    1. 配置journal集群

     

    1. 配置故障器

     

     

    1. 配置免密钥

     

    1. 修改core-site.xml

     

    1. 部署ha
    1. 具体流程图

    1. 做免密钥

    全部执行下该命令

    测试

     

     

    1. 修改配置文件
    1. 删除masters

    其他几台也一样

    1. 删除hadoop

     

    1. 修改hdfs-site.xml

    1. 修改core-site.xml

    1. 安装zookeeper
    1. 解压zookeeper

     

    1. 修改profile文件

     

    1. 修改zoo.cfg

     

     

     

     

    1. 创建zookeeper目录

     

    1. 创建myid文件

    (在node1)写个1

     

    1. 同步

     

    Copy目录,拷贝到node2,3

     

    1. 创建myid

    在node2,node3中的opt文件中创建zookeeper,里面创建myid文件,写上2和3

     

    1. 启动zookeeper

     

     

     

     

     

     

    1. 配置hdfs-site.xml

     

    1. 配置core-site.xml

     

    1. 同步配置文件

     

    1. 启动journalnode

    在3和4也启动下

    在四里面也配置下前两个

     

    1. MapReduce分布式计算
    1. 概念

     

    例子—统计文本文件

     

     

    1. MapReduce的Split大小

     

    1. Mapper

     

    1. Reducer

     

    1. Shuffler

     

  • 相关阅读:
    docker学习笔记(2)——docker常用命令
    docker学习笔记(1)——ubuntu16.04安装docker(含如何彻底卸载docker,docker拉取镜像失败解决)
    近期计划随笔
    程序员的自我修养:链接、装载与库(一本书,估计没时间看。。。哭。。。)
    str.format 学习
    pyqt5 线程 (QThread)启动、挂起、恢复、终止问题见解
    pyqt5 在非主线程(QThread线程)中实现弹窗QMessageBox
    807 · 回文数 II
    1334 · 旋转数组
    297 · 寻找最大值
  • 原文地址:https://www.cnblogs.com/chengxiaolong/p/10210817.html
Copyright © 2020-2023  润新知