• Hadoop学习1(初识hadoop)


    Hadoop生态系统的特点

    1)源代码开源
    2)社区活跃,参与者多
    3)涉及分布式存储和计算的各方面
    4)已得到企业界的验证

    Hadoop构成

    1) 分布式文件系统HDFS(Hadoop Distributed File System)
    ------------提供了高可靠性、高扩展性和高吞吐率的数据存储服务

    2)资源管理系统YARN(Yet Another Resource Negotiator)
    -----------负责集群资源的统一管理和调度

    3)分布式计算框架(MapReduce)
    -----------具有易于编程、高容错性和高扩展性等优点

    分布式文件系统HDFS

    来源于Google的GFS论文

    • 2003年10月发表
    • HDFS是GFS克隆版

    HDFS特点

    • 良好的扩展性(增加机器进行扩展)
    • 高容错性(存储了多份,数据有备份)
    • 适合PB即以上海量数据的存储

    基本原理

    • 将文件切分成等大的数据块,存储到多态机器上
    • 将数据切分、容错、负载均衡等功能透明化
    • 可将HDFS看成一个容量巨大、具有高容错性的磁盘

    典型应用场景

    • 海量数据的可靠性存储
    • 数据归档

    资源管理系统YARN

    什么是YARN

    • Hadoop 2.0新增系统
    • 负责集群的资源管理和调度
    • 使得多种计算框架可以运行在一个集群中

    YARN 的特点

    • 良好的扩展性、高可用性
    • 对多种类型的应用程序进行统一管理和调度
    • 自带了多种多用户调度器,适合共享集群环境

    分布式计算框架MapReduce

    源自于Google的MapReduce论文

    • 2004年12月发表
    • Hadoop MapReduce 是Google MapReduce 克隆版

    MapReduce特点

    • 良好的扩展性
    • 高容错性
    • 适合PB级以上海量数据的离线处理

    其它

    • 基于MR的数据仓库Hive
    • 数据分析工具Pig
    • 数据挖掘仓库Mahout
    • 分布式数据库HBase
    • 分布式协作服务Zookeeper
    • 数据同步工具Sqoop
    • 日志收集工具Flume
  • 相关阅读:
    JavaScript——DOM或以树形展示的Web页面
    数字金额大写和小写转换
    Jquery—Jquery异步功能实例
    哈希—— POJ 3349 Snowflake Snow Snowflakes
    字节和字符的差别
    Kali Linux 安全渗透教程<第三更>1.2 安全渗透所需工具
    Git基础
    LeetCode Implement Stack using Queues
    HDU 4421 Bit Magic(2-sat)
    js判段URL是否可用(js判段网络是否不可用)
  • 原文地址:https://www.cnblogs.com/wujiadong2014/p/6035986.html
Copyright © 2020-2023  润新知