• Hadoop权威指南文摘


    第1章 初识Hadoop

    1.1 数据!数据!

    1.2 数据的存储与分析

    HDFS实现数据的存储,MapReduce实现数据额分析与处理

    1.3 相较于其他系统的优势

    MapReduce是一个批量查询处理器,能够在合理的时间范围内处理针对整个数据集的动态查询。

    1.3.1 关系型数据库管理系统

     寻址时间的提升远小于传输速率的提升

    1.3.2 网格计算

    1.3.3 志愿计算

    1.4 Hadoop发展简史

    1.5 Apache Hadoop和Hadoop生态系统

    1.6 Hadoop的发行版本

    1.6.1 本书包含的内容

    1.6.2 兼容性

    第2章 关于MapReduce

    2.1 气象数据集

    2.2 使用Unix工具来分析数据

    2.3 使用Hadoop来分析数据

    2.3.1 map和reduce

    2.3.2 java MapReduce

    2.4 横向扩展

    2.4.1 数据流

    2.4.2 combiner函数

    2.4.3 运行分布式的MapReduce作业

    2.5 Hadoop Streaming

    2.5.1 Rudy版本

    2.5.2 Python版本

    2.6 Hadoop Pipes

    第3章 Hadoop分布式文件系统

    HDFS:Hadoop Distributed Filesystem

    3.1 HDFS的设计

    超大文件,流式数据访问,(一次写入,多次读取),商用硬件,低时间延迟的数据访问,大量的小文件,多用户写入,任意修改文件

    3.2 HDFS的概念

    3.2.1 数据块

    默认为64MB,备份默认是3个

    3.2.2 namenode和datanode

    namenode:管理者

    datanode:工作者

    3.2.3 联邦HDFS

    3.2.4 HDFS的高可用性

    3.3 命令行接口

    3.4 Hadoop文件系统

    3.5 Java接口

    3.5.1 从HadoopURL读取数据

    3.5.2 通过FileSystem API读取数据

    3.5.3 写入数据

    3.5.4 目录

    3.5.5 查询文件系统

    3.5.6 删除数据

    3.6 数据流

    3.6.1 剖析文件读取

    3.6.2 剖析文件写入

    3.6.3 一致模型

    3.7 通过Flume和Sqoop导入数据

    3.8 通过distcp并行复制

    3.9 Hadoop存档

    3.9.1 使用Hadoop存档工具

    3.9.2 不足

    第4章 Hadoop的I/O操作

    4.1 数据完整性

    4.1.1 HDFS的数据完整性

    4.1.2 LocalFileSystem

    4.1.3 ChecksumFileSystem

    4.2 压缩

    4.2.1 codec

    4.2.2 压缩和输入分片

    4.2.3 在MapReduce中使用压缩

    4.3 序列化

    序列化:是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。

    反序列化:是指将字节流转回结构化对象的逆过程。

    4.4 序列化框架

    4.5 Avro

    4.6 基于文件的数据结构

    第5章 MapReduce应用开发

    5.1 用于配置的API

    5.2 配置开发环境

    5.3 用MRUnit来写单元测试

    5.4 本地运行测试数据

    5.5 在集群上运行

    5.6 作业调优

    第6章 MapReduce的工作机制

    6.1 剖析MaReduce作业运行机制

    6.2 失败

    6.3 作业的调度

    6.4 shuffle和排序

    6.5 任务的执行

    第7章 MaoReduce的类型与格式

    7.1 MapReduce的类型

    7.2 输入格式

    7.3 输出格式

    第8章 MappReduce的特性

    8.1 计数器

    8.2 排序

    8.3 连接

    8.4 边数据分布

    第9章 构建Hadoop集群

    9.1 集群规范

    9.2 集群的构建和安装

    9.3 SSH配置

    9.4 Hadoop配置

    9.5 YARN配置

    9.6 安全性

    9.7 利用基准评测程序测试Hadoop集群

    9.8 云端的Hadoop

    第10章 管理Hadoop

    10.1 HDFS

    10.2 监控

    10.3 维护

    第11章 关于Pig

    Pig是一种探索大规模数据集的脚本语言

    1.本地模式 2.MapReduce模式

    Pig四种数值类型:int , long ,float , double

    第12章 关于Hive

    Hive是一个构件在Hadoop上的数据仓库框架

    HiveQl

    第13章 关于HBase

    Hbase是一个在HDFS上开发的面向列的分布式数据库。

    特性:没有真正的索引,自动分区,线性扩展和对于新节点的自动处理,普通商用硬件支持,容错,批处理

    第14章 关于ZooKeeper

    ZooKeeper是Hadoop的分布式协调服务。

    特点:简单,富有表现力,高可用性,采用松耦合交互方式,资源库

    第15章 关于Sqoop

    Sqoop是一个开源工具,它允许用户将数据从结构化存储器抽取到Hadoop中,用于进一步的处理。

    第16章 实例学习

  • 相关阅读:
    django core cache 永不失效配置
    zabbix-ODBC-oracle
    time
    zabbix中的触发器依赖
    Servlet1
    每周总结01
    使用IntelliJ IDEA集成TomCat
    hadoop环境配置
    《软件工程》学习进度条博客16
    03梦断代码读后感3
  • 原文地址:https://www.cnblogs.com/smileberry/p/6420903.html
Copyright © 2020-2023  润新知