第1章 初识Hadoop
1.1 数据!数据!
1.2 数据的存储与分析
HDFS实现数据的存储,MapReduce实现数据额分析与处理
1.3 相较于其他系统的优势
MapReduce是一个批量查询处理器,能够在合理的时间范围内处理针对整个数据集的动态查询。
1.3.1 关系型数据库管理系统
寻址时间的提升远小于传输速率的提升
1.3.2 网格计算
1.3.3 志愿计算
1.4 Hadoop发展简史
1.5 Apache Hadoop和Hadoop生态系统
1.6 Hadoop的发行版本
1.6.1 本书包含的内容
1.6.2 兼容性
第2章 关于MapReduce
2.1 气象数据集
2.2 使用Unix工具来分析数据
2.3 使用Hadoop来分析数据
2.3.1 map和reduce
2.3.2 java MapReduce
2.4 横向扩展
2.4.1 数据流
2.4.2 combiner函数
2.4.3 运行分布式的MapReduce作业
2.5 Hadoop Streaming
2.5.1 Rudy版本
2.5.2 Python版本
2.6 Hadoop Pipes
第3章 Hadoop分布式文件系统
HDFS:Hadoop Distributed Filesystem
3.1 HDFS的设计
超大文件,流式数据访问,(一次写入,多次读取),商用硬件,低时间延迟的数据访问,大量的小文件,多用户写入,任意修改文件
3.2 HDFS的概念
3.2.1 数据块
默认为64MB,备份默认是3个
3.2.2 namenode和datanode
namenode:管理者
datanode:工作者
3.2.3 联邦HDFS
3.2.4 HDFS的高可用性
3.3 命令行接口
3.4 Hadoop文件系统
3.5 Java接口
3.5.1 从HadoopURL读取数据
3.5.2 通过FileSystem API读取数据
3.5.3 写入数据
3.5.4 目录
3.5.5 查询文件系统
3.5.6 删除数据
3.6 数据流
3.6.1 剖析文件读取
3.6.2 剖析文件写入
3.6.3 一致模型
3.7 通过Flume和Sqoop导入数据
3.8 通过distcp并行复制
3.9 Hadoop存档
3.9.1 使用Hadoop存档工具
3.9.2 不足
第4章 Hadoop的I/O操作
4.1 数据完整性
4.1.1 HDFS的数据完整性
4.1.2 LocalFileSystem
4.1.3 ChecksumFileSystem
4.2 压缩
4.2.1 codec
4.2.2 压缩和输入分片
4.2.3 在MapReduce中使用压缩
4.3 序列化
序列化:是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。
反序列化:是指将字节流转回结构化对象的逆过程。
4.4 序列化框架
4.5 Avro
4.6 基于文件的数据结构
第5章 MapReduce应用开发
5.1 用于配置的API
5.2 配置开发环境
5.3 用MRUnit来写单元测试
5.4 本地运行测试数据
5.5 在集群上运行
5.6 作业调优
第6章 MapReduce的工作机制
6.1 剖析MaReduce作业运行机制
6.2 失败
6.3 作业的调度
6.4 shuffle和排序
6.5 任务的执行
第7章 MaoReduce的类型与格式
7.1 MapReduce的类型
7.2 输入格式
7.3 输出格式
第8章 MappReduce的特性
8.1 计数器
8.2 排序
8.3 连接
8.4 边数据分布
第9章 构建Hadoop集群
9.1 集群规范
9.2 集群的构建和安装
9.3 SSH配置
9.4 Hadoop配置
9.5 YARN配置
9.6 安全性
9.7 利用基准评测程序测试Hadoop集群
9.8 云端的Hadoop
第10章 管理Hadoop
10.1 HDFS
10.2 监控
10.3 维护
第11章 关于Pig
Pig是一种探索大规模数据集的脚本语言
1.本地模式 2.MapReduce模式
Pig四种数值类型:int , long ,float , double
第12章 关于Hive
Hive是一个构件在Hadoop上的数据仓库框架
HiveQl
第13章 关于HBase
Hbase是一个在HDFS上开发的面向列的分布式数据库。
特性:没有真正的索引,自动分区,线性扩展和对于新节点的自动处理,普通商用硬件支持,容错,批处理
第14章 关于ZooKeeper
ZooKeeper是Hadoop的分布式协调服务。
特点:简单,富有表现力,高可用性,采用松耦合交互方式,资源库
第15章 关于Sqoop
Sqoop是一个开源工具,它允许用户将数据从结构化存储器抽取到Hadoop中,用于进一步的处理。
第16章 实例学习