• Hadoop ->> Hadoop是什么?


    Hadoop是什么?

    1)Hadoop是一个分布式计算平台,程序员可以在不需要知道底层结构的情况下实现集群并行运算;

    2)Hadoop不只是一个软件或者系统,它代表的是一个生态圈,一个做大数据分析计算的生态圈。

    3)Hadoop核心是HDFS和MapReduce。HDFS(Hadoop Distributed File System)是一个以流为读取写入形式的分布式文件系统,特点是高容错(数据多副本存储)、高效(多节点并行处理)、高拓展(节点自由拓展)、低成本(HDFS是用Java写的,不存在平台不兼容也不会对机器存在特殊的要求)。MapReduce是一个编程/算法模型写入。因为只是一个模型,所以需要程序员自己去实现方法来处理数据。MapReduce由Map函数、Reduce函数和Main函数实现。

    4)HDFS有命名节点和数据节点之分。命名节点只有一个而数据节点可以有多个。命名节点就是控制器/调度器(Controller),调度数据文件的创建、复制和删除,以及名称空间的操作,还有解决单点失败问题。数据节点(Data node),用于存储数据的副本。用心跳线(heartbeat)来报告给命名节点自己的健康情况。

    6)Avro实现数据序列化,依赖于模式(Schema),由Json实现

    7)

  • 相关阅读:
    用命令行工具安装 卸载 设置 .Net服务
    oracle imp 数据时实现插入到表中 不覆盖
    Oracle导出 Exp的使用
    Linux下的tar压缩解压缩命令详解
    设计模式 配置器
    设计模式 概括说明
    设计模式 创建型模式
    设计模式 组成 & 装饰 & 外观
    设计模式 单件 & 原型
    设计模式 享元 & 代理
  • 原文地址:https://www.cnblogs.com/jenrrychen/p/4856089.html
Copyright © 2020-2023  润新知