一、是什么
- Hadoop是一个由Apache基金会所开发的分布式系统基础架构
- 主要解决,海量数据的存储和海量数据的分析计算问题
- 广义上来说,Hadoop通常指一个更广泛的概念——Hadoop生态圈
二、Hadoop三大发行版本
Hadoop三大发行版本:Apache、Cloudera、Hortonworks。
- Apache版本最原始(最基础)的版本,对于入门学习最好。
- Cloudera在大型互联网企业中用的较多。
- Hortonworks文档较好。
三、Hadoop的优势(4高)
- 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会出现数据的丢失
- 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点
- 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度
- 高容错性:能够自动将失败的任务重新分配
四、Hadoop组成
1、HDFS架构概述
HDFS(Hadoop Distributed File System)的架构概述,如下图所示
2、YARN架构概述
YARN架构概述,如下图所示
3、MapReduce架构概述
MapReduce将计算过程分为两个阶段:Map和Reduce,如下图所示
- Map阶段并行处理输入数据
- Reduce阶段对Map结果进行汇总
五、大数据技术生态体系
大数据技术生态体系如下图所示
六、推荐系统框架图
推荐系统项目架构如下图所示。
七、安装
步骤一:官网下载安装包并解压:tar -zxvf hadoop-2.7.2.tar.gz
步骤二:修改配置文件 /etc/profile
export HADOOP_HOME=/opt/software/hadoop2.7 export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin
主要:source /etc/profile
步骤三:测试
[root@centos7 software]# hadoop version Hadoop 2.7.2 Subversion Unknown -r Unknown Compiled by root on 2017-05-22T10:49Z Compiled with protoc 2.5.0 From source with checksum d0fda26633fa762bff87ec759ebe689c This command was run using /opt/software/hadoop2.7/share/hadoop/common/hadoop-common-2.7.2.jar [root@centos7 software]#
八、Hadoop目录结构
重要目录
- bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
- etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
- lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
- sbin目录:存放启动或停止Hadoop相关服务的脚本
- share目录:存放Hadoop的依赖jar包、文档、和官方案例