Hadoop hadoop的介绍和几种模式

Hadoop hadoop的介绍和几种模式

Hadoop简介

　　Hadoop软件库是一个开源框架，允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机，每台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高可用性，而是设计用于检测和处理应用程序层的故障，从而在计算机集群之上提供高可用性服务，每个计算机都可能容易出现故障。是大数据技术的基础。

hadoop生态系统

♥ hadoop分布式文件系统（HDFS）：一种分布式文件系统，能够提供高可靠、高可用、可扩展以及对应用程序数据的高吞吐量访问。

♥ yarn ：作业调度和资源管理的框架。

♥ MapReduce ：基于yarn框架，用于并行计算处理大型数据集，是一种计算框架。

♥ ambari ：基于Web的工具，用于配置，管理和监控Apache Hadoop集群，包括对Hadoop HDFS，Hadoop MapReduce，Hive，HCatalog，HBase，ZooKeeper，Oozie，Pig和Sqoop的支持。Ambari还提供了一个用于查看群集运行状况的仪表板，例如热图，以及可视化查看MapReduce，Pig和Hive应用程序的功能，以及以用户友好的方式诊断其性能特征的功能。

♥ avro ：数据序列化系统。

♥ cassandra：可扩展的多主数据库，没有单点故障。

♥ hbase：可扩展的分布式数据库，支持大型表的结构化数据存储。

♥ hive：一种数据仓库基础架构，提供数据汇总和即席查询。

♥ pig：用于并行计算的高级数据流语言和执行框架。

♥ spark：用于Hadoop数据的快速通用计算引擎。Spark提供了一种简单而富有表现力的编程模型，支持广泛的应用程序，包括ETL，机器学习，流处理和图形计算。

♥ zookeeper：用于分布式应用程序的高性能协调服务。

Hadoop的四种模式

1、本地模式：

本地模式就是解压源码包，不需要做任何的配置。通常用于开发调试，或者感受hadoop。

2、伪分布模式：

在学习当中一般都是使用这种模式，伪分布模式就是在一台机器的多个进程运行多个模块。虽然每一个模块都有相应的进程，但是却还是运行在同一个系统里面。所以叫伪分布式。

3、完全分布式：

这种模式才是工作当中所用的模式，hadoop运行在多台机器上面，我们称之为hadoop集群。

4、HA：

在实际的工作当中，对于hadoop完全分布式来说，并不真正的可靠，因为hadoop完全分布式集群会有单点故障（namenode单点故障、yarn单点故障），所以一般都会对这个集群做HA，一般都是做namenode和yarn的高可用。
相关阅读:
MTLLoader 报 Handlers.get() has been removed. Use LoadingManager.getHandler() instead 错误处理
 uniCloud云开发已实现五端上线【言语录书】
v-model 双向绑定 vue3.x
javascript 集合操作
 链表操作
 vue3 父子组件双向数据绑定
 二叉树排序
 自制Chrome扩展插件：用于重定向js
解析Markdown文件生成React组件文档
 微前端框架single-spa初探
原文地址：https://www.cnblogs.com/yjt1993/p/11051384.html

Hadoop hadoop的介绍和几种模式

Hadoop简介

hadoop生态系统

Hadoop的四种模式