• Hadoop学习1(初识hadoop)


    Hadoop生态系统的特点

    1)源代码开源
    2)社区活跃,参与者多
    3)涉及分布式存储和计算的各方面
    4)已得到企业界的验证

    Hadoop构成

    1) 分布式文件系统HDFS(Hadoop Distributed File System)
    ------------提供了高可靠性、高扩展性和高吞吐率的数据存储服务

    2)资源管理系统YARN(Yet Another Resource Negotiator)
    -----------负责集群资源的统一管理和调度

    3)分布式计算框架(MapReduce)
    -----------具有易于编程、高容错性和高扩展性等优点

    分布式文件系统HDFS

    来源于Google的GFS论文

    • 2003年10月发表
    • HDFS是GFS克隆版

    HDFS特点

    • 良好的扩展性(增加机器进行扩展)
    • 高容错性(存储了多份,数据有备份)
    • 适合PB即以上海量数据的存储

    基本原理

    • 将文件切分成等大的数据块,存储到多态机器上
    • 将数据切分、容错、负载均衡等功能透明化
    • 可将HDFS看成一个容量巨大、具有高容错性的磁盘

    典型应用场景

    • 海量数据的可靠性存储
    • 数据归档

    资源管理系统YARN

    什么是YARN

    • Hadoop 2.0新增系统
    • 负责集群的资源管理和调度
    • 使得多种计算框架可以运行在一个集群中

    YARN 的特点

    • 良好的扩展性、高可用性
    • 对多种类型的应用程序进行统一管理和调度
    • 自带了多种多用户调度器,适合共享集群环境

    分布式计算框架MapReduce

    源自于Google的MapReduce论文

    • 2004年12月发表
    • Hadoop MapReduce 是Google MapReduce 克隆版

    MapReduce特点

    • 良好的扩展性
    • 高容错性
    • 适合PB级以上海量数据的离线处理

    其它

    • 基于MR的数据仓库Hive
    • 数据分析工具Pig
    • 数据挖掘仓库Mahout
    • 分布式数据库HBase
    • 分布式协作服务Zookeeper
    • 数据同步工具Sqoop
    • 日志收集工具Flume
  • 相关阅读:
    I Hate It
    满减优惠[Offer收割]编程练习赛4
    积水的城市 hiho[Offer收割]编程练习赛4
    Subsequence 尺取法
    526. 优美的排列
    401. 二进制手表
    306. 累加数
    216. 组合总和 III
    131. 分割回文串
    ubuntu deepin-软件 分辨率的问题
  • 原文地址:https://www.cnblogs.com/wujiadong2014/p/6035986.html
Copyright © 2020-2023  润新知