• Hadoop——生态体系


    序言

    Hadoop是一个开源的大数据框架,是一个分布式计算的解决方案。

    Hadoop的两个核心解决了数据存储问题(HDFS分布式文件系统)和分布式计算问题(MapRe-duce)。

    举例1:用户想要获取某个路径的数据,数据存放在很多的机器上,作为用户不用考虑在哪台机器上,HD-FS自动搞定。

    举例2:如果一个100p的文件,希望过滤出含有Hadoop字符串的行。这种场景下,HDFS分布式存储,突破了服务器硬盘大小的限制,解决了单台机器无法存储大文件的问题,同时MapReduce分布式计算可以将大数据量的作业先分片计算,最后汇总输出。

    核心组件

    HDFS:分布式文件系统(Hadoop Distributed File System)。

    MapReduce:分布式计算。

    YARN:为 Hadoop 数据处理提供了通用的资源管理器和调度器。

    Apache Hive:提供 HDFS 上数据的结构化定义,及数据的类 SQL 查询功能。

    Apache HBase:它是一个分布式 NoSQL 数据存储,提供 HDFS 上超大规模数据集的随机访问。

    Apache Flume:一个常用的数据采集工具,将基于事件的数据(如日志)转存至 Hadoop

    Apache Sqoop:用来在外部数据存储(如关系型数据库)与 Hadoop 之间进行数据移动。

    Apache ZooKeeper:来保障 Hadoop 生态圈中各个项目间的协同工作。

    主要学习方向

    HDFS概念

    MapReduce

    MapReduce 案例

    Hive架构

    Hive DDL

    Hive DML

    Hive查询访问

    Hive安全管理与压缩

    Hbase 架构与操作

    Hbase 压缩与存储

    Flume

    Sqoop

    zookeeper

    ElasticSearch

    Cloudera Manager

    Hue

    impala

    oozie

    资料

    https://www.cnblogs.com/edisonchou/category/542546.html

  • 相关阅读:
    CF117C Cycle (竞赛图找环)
    P1144 最短路计数 (bfs/SPFA)
    RabbitMQ.Client API (.NET)中文文档
    四元组
    .Net Standard Http请求实例
    .Net Standard简介
    Lambda表达式(lambda expression)⭐⭐⭐⭐⭐
    CSS
    工具类css框架
    Sass
  • 原文地址:https://www.cnblogs.com/cnki/p/8903575.html
Copyright © 2020-2023  润新知