• Hadoop 介绍/安装


    一、是什么

    • Hadoop是一个由Apache基金会所开发的分布式系统基础架构
    • 主要解决,海量数据的存储和海量数据的分析计算问题
    • 广义上来说,Hadoop通常指一个更广泛的概念——Hadoop生态圈

    二、Hadoop三大发行版本

    Hadoop三大发行版本:Apache、Cloudera、Hortonworks。

    • Apache版本最原始(最基础)的版本,对于入门学习最好。
    • Cloudera在大型互联网企业中用的较多。
    • Hortonworks文档较好。

    三、Hadoop的优势(4高)

    1. 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会出现数据的丢失
    2. 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点
    3. 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度
    4. 高容错性:能够自动将失败的任务重新分配

    四、Hadoop组成

    1、HDFS架构概述

    HDFS(Hadoop Distributed File System)的架构概述,如下图所示

    2、YARN架构概述

    YARN架构概述,如下图所示

    3、MapReduce架构概述

    MapReduce将计算过程分为两个阶段:Map和Reduce,如下图所示

    1. Map阶段并行处理输入数据
    2. Reduce阶段对Map结果进行汇总

    五、大数据技术生态体系

    大数据技术生态体系如下图所示

    六、推荐系统框架图

    推荐系统项目架构如下图所示。

    七、安装

    步骤一:官网下载安装包并解压:tar -zxvf hadoop-2.7.2.tar.gz

    步骤二:修改配置文件 /etc/profile

    export HADOOP_HOME=/opt/software/hadoop2.7
    export PATH=$PATH:$HADOOP_HOME/bin
    export PATH=$PATH:$HADOOP_HOME/sbin

    主要:source /etc/profile

    步骤三:测试

    [root@centos7 software]# hadoop version
    Hadoop 2.7.2
    Subversion Unknown -r Unknown
    Compiled by root on 2017-05-22T10:49Z
    Compiled with protoc 2.5.0
    From source with checksum d0fda26633fa762bff87ec759ebe689c
    This command was run using /opt/software/hadoop2.7/share/hadoop/common/hadoop-common-2.7.2.jar
    [root@centos7 software]# 

    八、Hadoop目录结构

    重要目录

    • bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
    • etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
    • lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
    • sbin目录:存放启动或停止Hadoop相关服务的脚本
    • share目录:存放Hadoop的依赖jar包、文档、和官方案例
  • 相关阅读:
    Spring配置文件中关于Shiro的配置
    关于Realm的源码分析
    配置SpringMVC配置
    Shiro的登录验证及授权多Realm情况【基于SpringMVC框架下】
    关于Nginx配置说明
    Hibernate中No row with the given identifier exists问题的原因及解决
    关于Shiro的角色授权
    关于Shiro的认证策略
    关于hibernate的cache总结及并发问题
    Shiro多Realm数据交互实现过程
  • 原文地址:https://www.cnblogs.com/jwen1994/p/14943283.html
Copyright © 2020-2023  润新知